Thanh Thúy
Well-known member
Trong nhiều năm qua, người dùng internet đã quen với việc nhấp qua lưới CAPTCHA của Google, xác định các đối tượng hàng ngày để chứng minh rằng họ là con người chứ không phải robot tự động. Tuy nhiên, nghiên cứu mới cho thấy các robot chạy cục bộ sử dụng mô hình nhận dạng hình ảnh được đào tạo đặc biệt có thể đạt được hiệu suất ngang tầm con người trong kiểu CAPTCHA này, đạt tỷ lệ thành công 100% mặc dù chắc chắn không phải là con người.
Nghiên cứu mới của Andreas Plesner, nghiên cứu sinh tiến sĩ tại ETH Zurich, và các đồng nghiệp của ông, có sẵn dưới dạng bài báo tiền in, tập trung vào ReCAPTCHA v2 của Google, thách thức người dùng xác định hình ảnh đường phố nào trong lưới chứa các vật phẩm như xe đạp, vạch qua đường, núi, cầu thang hoặc đèn giao thông. Google đã bắt đầu loại bỏ dần hệ thống đó cách đây nhiều năm để chuyển sang reCAPTCHA v3 “vô hình”, phân tích tương tác của người dùng thay vì đưa ra thách thức rõ ràng.
Mặc dù vậy, reCAPTCHA v2 cũ hơn vẫn được hàng triệu trang web sử dụng. Và ngay cả các trang web sử dụng reCAPTCHA v3 được cập nhật đôi khi cũng sẽ sử dụng reCAPTCHA v2 làm dự phòng khi hệ thống được cập nhật cho người dùng mức đánh giá tin cậy "con người" thấp.
Để tạo ra một robot có thể đánh bại reCAPTCHA v2, các nhà nghiên cứu đã sử dụng một phiên bản tinh chỉnh của mô hình nhận dạng đối tượng mã nguồn mở YOLO ("You Only Look Once"), mà độc giả lâu năm có thể nhớ cũng đã được sử dụng trong các bot gian lận trò chơi điện tử. Các nhà nghiên cứu cho biết mô hình YOLO “nổi tiếng với khả năng phát hiện đối tượng trong thời gian thực” và “có thể được sử dụng trên các thiết bị có sức mạnh điện toán hạn chế, cho phép các cuộc tấn công trên quy mô lớn bởi người dùng ác ý.”
Sau khi đào tạo mô hình trên 14.000 hình ảnh giao thông được gắn nhãn, các nhà nghiên cứu đã có một hệ thống có thể xác định xác suất mà bất kỳ hình ảnh lưới CAPTCHA được cung cấp nào thuộc về một trong 13 danh mục ứng cử viên của reCAPTCHA v2. Các nhà nghiên cứu cũng đã sử dụng một mô hình YOLO được đào tạo trước riêng biệt cho những gì họ gọi là thách thức "loại 2", nơi CAPTCHA yêu cầu người dùng xác định phần nào của một hình ảnh được phân đoạn duy nhất chứa một loại đối tượng nhất định (mô hình phân đoạn này chỉ hoạt động trên 9 trong số 13 danh mục đối tượng và đơn giản yêu cầu hình ảnh mới khi được trình bày với bốn danh mục còn lại).
Ngoài mô hình nhận dạng hình ảnh, các nhà nghiên cứu cũng phải thực hiện các bước khác để đánh lừa hệ thống của reCAPTCHA. Ví dụ, một VPN được sử dụng để tránh bị phát hiện các lần thử lặp lại từ cùng một địa chỉ IP, trong khi một mô hình di chuyển chuột đặc biệt được tạo ra để mô phỏng hoạt động của con người. Thông tin trình duyệt và cookie giả mạo từ các phiên duyệt web thực cũng được sử dụng để khiến tác nhân tự động có vẻ giống con người hơn.
Tùy thuộc vào loại đối tượng đang được xác định, mô hình YOLO có thể xác định chính xác các hình ảnh CAPTCHA riêng lẻ từ 69% thời gian (đối với xe máy) đến 100% thời gian (đối với vòi chữa cháy). Hiệu suất đó - kết hợp với các biện pháp phòng ngừa khác - đủ mạnh để vượt qua lưới CAPTCHA mọi lúc, đôi khi sau nhiều thách thức riêng lẻ do hệ thống đưa ra. Trên thực tế, robot đã có thể giải quyết CAPTCHA trung bình trong ít thách thức hơn một chút so với con người trong các thử nghiệm tương tự (mặc dù sự cải thiện so với con người không có ý nghĩa thống kê).
Mặc dù đã có những nghiên cứu học thuật trước đây cố gắng sử dụng mô hình nhận dạng hình ảnh để giải quyết reCAPTCHA, nhưng chúng chỉ có thể thành công từ 68 đến 71 phần trăm thời gian. Việc tăng lên tỷ lệ thành công 100 phần trăm “cho thấy rằng chúng ta hiện đang chính thức bước vào thời đại vượt ra ngoài CAPTCHA”, theo các tác giả của bài báo mới.
Nhưng đây không phải là một vấn đề hoàn toàn mới trong thế giới của CAPTCHA. Ngay từ năm 2008, các nhà nghiên cứu đã chỉ ra cách các bot có thể được đào tạo để vượt qua CAPTCHA âm thanh dành cho người dùng khiếm thị. Và đến năm 2017, mạng nơ-ron đang được sử dụng để đánh bại CAPTCHA dựa trên văn bản yêu cầu người dùng nhập các chữ cái nhìn thấy trong phông chữ bị xáo trộn.
Giờ đây khi các AI chạy cục bộ cũng có thể dễ dàng vượt qua CAPTCHA dựa trên hình ảnh, cuộc chiến xác định danh tính con người sẽ tiếp tục chuyển sang các phương pháp tinh vi hơn về lấy dấu vân tay thiết bị. "Chúng tôi rất tập trung vào việc giúp khách hàng của mình bảo vệ người dùng của họ mà không hiển thị thách thức trực quan, đó là lý do tại sao chúng tôi đã ra mắt reCAPTCHA v3 vào năm 2018", người phát ngôn của Google Cloud nói với New Scientist. "Ngày nay, phần lớn các biện pháp bảo vệ của reCAPTCHA trên 7 [triệu] trang web trên toàn cầu hiện đã hoàn toàn vô hình. Chúng tôi liên tục nâng cao reCAPTCHA."
Tuy nhiên, khi các hệ thống trí tuệ nhân tạo ngày càng tốt hơn trong việc mô phỏng ngày càng nhiều nhiệm vụ mà trước đây được coi là chỉ dành riêng cho con người, thì việc đảm bảo rằng người dùng ở đầu bên kia của trình duyệt web đó thực sự là một con người có thể tiếp tục trở nên khó khăn hơn. "Theo một nghĩa nào đó, một captcha tốt đánh dấu ranh giới chính xác giữa cỗ máy thông minh nhất và con người kém thông minh nhất", các tác giả của bài báo viết. "Khi các mô hình học máy tiến gần đến khả năng của con người, việc tìm kiếm captcha tốt đã trở nên khó khăn hơn."
Nghiên cứu mới của Andreas Plesner, nghiên cứu sinh tiến sĩ tại ETH Zurich, và các đồng nghiệp của ông, có sẵn dưới dạng bài báo tiền in, tập trung vào ReCAPTCHA v2 của Google, thách thức người dùng xác định hình ảnh đường phố nào trong lưới chứa các vật phẩm như xe đạp, vạch qua đường, núi, cầu thang hoặc đèn giao thông. Google đã bắt đầu loại bỏ dần hệ thống đó cách đây nhiều năm để chuyển sang reCAPTCHA v3 “vô hình”, phân tích tương tác của người dùng thay vì đưa ra thách thức rõ ràng.
Mặc dù vậy, reCAPTCHA v2 cũ hơn vẫn được hàng triệu trang web sử dụng. Và ngay cả các trang web sử dụng reCAPTCHA v3 được cập nhật đôi khi cũng sẽ sử dụng reCAPTCHA v2 làm dự phòng khi hệ thống được cập nhật cho người dùng mức đánh giá tin cậy "con người" thấp.
Để tạo ra một robot có thể đánh bại reCAPTCHA v2, các nhà nghiên cứu đã sử dụng một phiên bản tinh chỉnh của mô hình nhận dạng đối tượng mã nguồn mở YOLO ("You Only Look Once"), mà độc giả lâu năm có thể nhớ cũng đã được sử dụng trong các bot gian lận trò chơi điện tử. Các nhà nghiên cứu cho biết mô hình YOLO “nổi tiếng với khả năng phát hiện đối tượng trong thời gian thực” và “có thể được sử dụng trên các thiết bị có sức mạnh điện toán hạn chế, cho phép các cuộc tấn công trên quy mô lớn bởi người dùng ác ý.”
Sau khi đào tạo mô hình trên 14.000 hình ảnh giao thông được gắn nhãn, các nhà nghiên cứu đã có một hệ thống có thể xác định xác suất mà bất kỳ hình ảnh lưới CAPTCHA được cung cấp nào thuộc về một trong 13 danh mục ứng cử viên của reCAPTCHA v2. Các nhà nghiên cứu cũng đã sử dụng một mô hình YOLO được đào tạo trước riêng biệt cho những gì họ gọi là thách thức "loại 2", nơi CAPTCHA yêu cầu người dùng xác định phần nào của một hình ảnh được phân đoạn duy nhất chứa một loại đối tượng nhất định (mô hình phân đoạn này chỉ hoạt động trên 9 trong số 13 danh mục đối tượng và đơn giản yêu cầu hình ảnh mới khi được trình bày với bốn danh mục còn lại).
Ngoài mô hình nhận dạng hình ảnh, các nhà nghiên cứu cũng phải thực hiện các bước khác để đánh lừa hệ thống của reCAPTCHA. Ví dụ, một VPN được sử dụng để tránh bị phát hiện các lần thử lặp lại từ cùng một địa chỉ IP, trong khi một mô hình di chuyển chuột đặc biệt được tạo ra để mô phỏng hoạt động của con người. Thông tin trình duyệt và cookie giả mạo từ các phiên duyệt web thực cũng được sử dụng để khiến tác nhân tự động có vẻ giống con người hơn.
Tùy thuộc vào loại đối tượng đang được xác định, mô hình YOLO có thể xác định chính xác các hình ảnh CAPTCHA riêng lẻ từ 69% thời gian (đối với xe máy) đến 100% thời gian (đối với vòi chữa cháy). Hiệu suất đó - kết hợp với các biện pháp phòng ngừa khác - đủ mạnh để vượt qua lưới CAPTCHA mọi lúc, đôi khi sau nhiều thách thức riêng lẻ do hệ thống đưa ra. Trên thực tế, robot đã có thể giải quyết CAPTCHA trung bình trong ít thách thức hơn một chút so với con người trong các thử nghiệm tương tự (mặc dù sự cải thiện so với con người không có ý nghĩa thống kê).
Mặc dù đã có những nghiên cứu học thuật trước đây cố gắng sử dụng mô hình nhận dạng hình ảnh để giải quyết reCAPTCHA, nhưng chúng chỉ có thể thành công từ 68 đến 71 phần trăm thời gian. Việc tăng lên tỷ lệ thành công 100 phần trăm “cho thấy rằng chúng ta hiện đang chính thức bước vào thời đại vượt ra ngoài CAPTCHA”, theo các tác giả của bài báo mới.
Nhưng đây không phải là một vấn đề hoàn toàn mới trong thế giới của CAPTCHA. Ngay từ năm 2008, các nhà nghiên cứu đã chỉ ra cách các bot có thể được đào tạo để vượt qua CAPTCHA âm thanh dành cho người dùng khiếm thị. Và đến năm 2017, mạng nơ-ron đang được sử dụng để đánh bại CAPTCHA dựa trên văn bản yêu cầu người dùng nhập các chữ cái nhìn thấy trong phông chữ bị xáo trộn.
Giờ đây khi các AI chạy cục bộ cũng có thể dễ dàng vượt qua CAPTCHA dựa trên hình ảnh, cuộc chiến xác định danh tính con người sẽ tiếp tục chuyển sang các phương pháp tinh vi hơn về lấy dấu vân tay thiết bị. "Chúng tôi rất tập trung vào việc giúp khách hàng của mình bảo vệ người dùng của họ mà không hiển thị thách thức trực quan, đó là lý do tại sao chúng tôi đã ra mắt reCAPTCHA v3 vào năm 2018", người phát ngôn của Google Cloud nói với New Scientist. "Ngày nay, phần lớn các biện pháp bảo vệ của reCAPTCHA trên 7 [triệu] trang web trên toàn cầu hiện đã hoàn toàn vô hình. Chúng tôi liên tục nâng cao reCAPTCHA."
Tuy nhiên, khi các hệ thống trí tuệ nhân tạo ngày càng tốt hơn trong việc mô phỏng ngày càng nhiều nhiệm vụ mà trước đây được coi là chỉ dành riêng cho con người, thì việc đảm bảo rằng người dùng ở đầu bên kia của trình duyệt web đó thực sự là một con người có thể tiếp tục trở nên khó khăn hơn. "Theo một nghĩa nào đó, một captcha tốt đánh dấu ranh giới chính xác giữa cỗ máy thông minh nhất và con người kém thông minh nhất", các tác giả của bài báo viết. "Khi các mô hình học máy tiến gần đến khả năng của con người, việc tìm kiếm captcha tốt đã trở nên khó khăn hơn."