Các chuyên gia tìm cách tìm hiểu nội dung bạn đang gõ trong khi gọi điện video

Khung tấn công mới nhằm mục đích suy ra các lần nhấn phím được nhập bởi người dùng mục tiêu ở đầu đối diện của cuộc gọi hội nghị video bằng cách chỉ cần tận dụng nguồn cấp dữ liệu video để so sánh các chuyển động cơ thể có thể quan sát được với văn bản đang được nhập.

Nghiên cứu được thực hiện bởi Mohd Sabra và Murtuza Jadliwala từ Đại học Texas tại San Antonio và Anindya Maiti từ Đại học Oklahoma, những người nói rằng cuộc tấn công có thể mở rộng ra ngoài nguồn cấp dữ liệu video trực tiếp cho những người được phát trực tuyến trên YouTube và Twitch miễn là trường nhìn của webcam ghi lại các chuyển động có thể nhìn thấy trên cơ thể của người dùng mục tiêu.

“Với sự phổ biến gần đây của phần cứng quay video được nhúng trong nhiều thiết bị điện tử tiêu dùng, chẳng hạn như điện thoại thông minh, máy tính bảng và máy tính xách tay, mối đe dọa rò rỉ thông tin qua kênh hình ảnh[s] đã được khuếch đại “, các nhà nghiên cứu nói. “Mục tiêu của kẻ thù là sử dụng các chuyển động của phần trên cơ thể có thể quan sát được trên tất cả các khung hình được ghi lại để suy ra văn bản riêng tư được nhập bởi mục tiêu.”

người kiểm tra mật khẩu

Để đạt được điều này, video đã ghi được đưa vào khung suy luận tổ hợp phím dựa trên video trải qua ba giai đoạn:

  • Xử lý trước, trong đó nền bị xóa, video được chuyển đổi sang thang độ xám, tiếp theo là phân đoạn vùng cánh tay trái và phải đối với khuôn mặt của cá nhân được phát hiện thông qua một mô hình được lồng tiếng FaceBoxes
  • Phát hiện thao tác gõ phím, truy xuất các khung cánh tay được phân đoạn để tính toán số đo chỉ số tương tự về cấu trúc (SSIM) với mục tiêu định lượng các chuyển động của cơ thể giữa các khung hình liên tiếp trong mỗi phân đoạn video bên trái và bên phải và xác định các khung hình tiềm năng nơi các lần nhấn phím xảy ra
  • Dự đoán từ, trong đó các phân đoạn khung tổ hợp phím được sử dụng để phát hiện các tính năng chuyển động trước và sau mỗi lần gõ phím được phát hiện, sử dụng chúng để suy ra các từ cụ thể bằng cách sử dụng thuật toán dự đoán dựa trên từ điển

Nói cách khác, từ nhóm các lần gõ phím được phát hiện, các từ được suy ra bằng cách sử dụng số lần nhấn phím được phát hiện cho một từ cũng như độ lớn và hướng của dịch chuyển cánh tay xảy ra giữa các lần nhấn phím liên tiếp của từ đó.

Sự dịch chuyển này được đo bằng kỹ thuật thị giác máy tính được gọi là Luồng quang học thưa thớt được sử dụng để theo dõi chuyển động của vai và cánh tay trên các khung gõ phím theo trình tự thời gian.

Ngoài ra, một mẫu cho “hướng nhấn phím giữa các phím trên bàn phím QWERTY tiêu chuẩn” cũng được lập biểu đồ để biểu thị “hướng lý tưởng mà tay của người đánh máy nên tuân theo” bằng cách sử dụng kết hợp tay trái và tay phải.

Sau đó, thuật toán dự đoán từ sẽ tìm kiếm các từ có nhiều khả năng phù hợp với thứ tự và số lần nhấn phím trái và tay phải và hướng dịch chuyển của cánh tay với các hướng nhấn phím giữa các mẫu.

Các nhà nghiên cứu cho biết họ đã thử nghiệm khung với 20 người tham gia (9 nữ và 11 nam) trong một kịch bản được kiểm soát, sử dụng kết hợp các phương pháp gõ tìm kiếm và chạm vào, ngoài việc thử nghiệm thuật toán suy luận dựa trên các bối cảnh khác nhau, mô hình webcam, quần áo (đặc biệt là thiết kế tay áo), bàn phím và thậm chí nhiều phần mềm gọi điện video khác nhau như Zoom, Hangouts và Skype.

Các phát hiện cho thấy những người đánh máy săn tìm và những người mặc quần áo cộc tay dễ bị tấn công suy luận từ hơn, cũng như những người sử dụng webcam Logitech, dẫn đến khả năng khôi phục từ được cải thiện hơn so với những người sử dụng webcam bên ngoài của Anivia.

Các thử nghiệm được lặp lại một lần nữa với 10 người tham gia nữa (3 nữ và 7 nam), lần này trong một thiết lập thử nghiệm tại nhà, suy ra thành công 91,1% tên người dùng, 95,6% địa chỉ email và 66,7% trang web do người tham gia nhập, nhưng chỉ có 18,9% mật khẩu và 21,1% từ tiếng Anh được họ gõ.

“Một trong những lý do khiến độ chính xác của chúng tôi kém hơn cài đặt Trong phòng thí nghiệm là do việc sắp xếp thứ hạng của từ điển tham chiếu dựa trên tần suất sử dụng từ trong các câu tiếng Anh, không dựa trên các từ ngẫu nhiên do mọi người tạo ra”, Sabra, Maiti và Jadliwala Ghi chú.

Các nhà nghiên cứu cho biết dữ liệu video có thể được kết hợp với dữ liệu âm thanh từ cuộc gọi để cải thiện hơn nữa khả năng phát hiện thao tác gõ phím.

Các nhà nghiên cứu nhấn mạnh: “Do các sự kiện thế giới gần đây, cuộc gọi điện video đã trở thành tiêu chuẩn mới cho cả giao tiếp từ xa cá nhân và chuyên nghiệp”. “Tuy nhiên, nếu người tham gia cuộc gọi điện video không cẩn thận, họ có thể tiết lộ thông tin cá nhân của mình cho người khác trong cuộc gọi. Độ chính xác của suy luận tổ hợp phím tương đối cao của chúng tôi trong các cài đặt thực tế và thường xảy ra làm nổi bật nhu cầu nhận thức và biện pháp đối phó với những cuộc tấn công như vậy. “

Các phát hiện dự kiến ​​sẽ được trình bày vào cuối ngày hôm nay tại Hội nghị chuyên đề về bảo mật hệ thống phân tán và mạng (NDSS).

Content Protection by DMCA.com
GenVerge | Trang thông tin dành cho tín đồ công nghệ Việt Nam
Logo
Đăng ký
Liên hệ Admin để kích hoạt tài khoản Cộng Tác Viên
Quên mật khẩu