Góc nhìn Anderson

Nghiên cứu: 35% Trợ lý ảo Cung cấp Thông tin Cá nhân cho Các Trang web Lừa đảo

mm
AI-generated illustration (GPT-2 + Photoshop): A humanoid industrial robot stands on a sunlit city sidewalk facing a small check-cashing kiosk, while a wolf-like attendant leans from the service window reading a sports magazine as pedestrians and traffic pass in the background.

Một nghiên cứu mới cho thấy rằng ngay cả khi nhận ra một trang web lừa đảo, hơn một phần ba trợ lý ảo vẫn cung cấp thông tin cá nhân nhạy cảm.

 

Một nghiên cứu mới từ các nhà nghiên cứu ở Ấn Độ và Mỹ đã phát hiện ra rằng hơn một phần ba các tác nhân web tự động mà họ đã thử nghiệm đã cung cấp thông tin cá nhân quan trọng (PII, tức là chi tiết tài khoản ngân hàng, mật khẩu và số An sinh xã hội) cho các trang web mà họ đã xác định là lừa đảo.

Có, bài báo cho biết, có một loại ‘bắt buộc phải hoàn thành’ nào đó cản trở sự thận trọng và do dự trong các tác nhân web, trong những trường hợp như vậy. Các tác giả tuyên bố:

‘Con người có thể tạm dừng, đọc lại hoặc đóng tab. Một tác nhân được xây dựng để hoàn thành nhiệm vụ và sẽ tiếp tục điền vào biểu mẫu và gửi dữ liệu mà không dừng lại để đặt câu hỏi liệu họ có nên làm như vậy không.’

Nghiên cứu đã tạo ra một tiêu chuẩn mới cho những tình huống như vậy, có tên là SCAMMER4U, bao gồm 91 môi trường (được mô phỏng) do kẻ tấn công kiểm soát, cùng với mười trang web cơ sở ‘thân thiện’ và tám vector tấn công.

Không có biện pháp bảo vệ quyền riêng tư nào, các tác nhân được thử nghiệm đã cung cấp thông tin cá nhân nhạy cảm trong 54% đến 93% các lần gặp lừa đảo, trong khi các trang web không độc hại tương đương không gây ra sự tiết lộ nào, cho thấy rằng sự rò rỉ được thúc đẩy bởi các cuộc tấn công chứ không phải bởi việc điền biểu mẫu thông thường:

‘Quan trọng nhất, chúng tôi xác định một khoảng cách giữa phát hiện và hành động: các tác nhân mà một thẩm phán LLM độc lập xác nhận đã xác định trang web là đáng ngờ vẫn gửi thông tin cá nhân quan trọng trong 35,9% phiên, so với 66,1% khi không có sự nghi ngờ được thể hiện, một khoảng cách 30,2% vững chắc trên tất cả bốn họ mô hình.

‘Các phát hiện của chúng tôi cho thấy rằng các biện pháp phòng thủ dựa trên sự nhận biết của tác nhân về một cuộc tấn công đang dựa trên tín hiệu sai, tạo động lực cho việc can thiệp vào cấp độ đầu ra của các bản gửi đi mà hoạt động độc lập với vòng lặp suy luận của tác nhân.’

Các nhà nghiên cứu cho rằng nên có các biện pháp phòng thủ ở cấp độ đầu ra có thể kiểm tra và chặn độc lập các bản gửi đi nhạy cảm, thay vì dựa vào việc tác nhân tự nhận ra rằng một trang web là đáng ngờ, điều mà rõ ràng không thể được tin cậy để kích hoạt các hành động phòng thủ hữu ích.

Bài báo mới có tiêu đề “Tôi nghi ngờ mạnh mẽ rằng trang web này là lừa đảo”: Benchmarking Sự rò rỉ PII và Phát hiện mà không có Phòng thủ trong Các Tác nhân Web Tự động, và đến từ tám nhà nghiên cứu trên khắp KIIT Bhubaneshwar, BITS Pilani và Lam Research.

Vấn đề với Quyền lực

Phát hiện thú vị nhất của bài báo, có lẽ, không phải là các tác nhân rò rỉ thông tin cá nhân, mà là nhiều tác nhân trong số họ làm như vậy sau khi nhận ra rằng có điều gì đó sai trái. Các nhà nghiên cứu xác định một mẫu lặp lại trong các thử nghiệm được thực hiện, trong đó sự nghi ngờ và hành động trở ngắt kết nối, với các tác nhân thường xuyên thể hiện rõ ràng những lo ngại về một trang web, nhưng vẫn tiếp tục với yêu cầu (vi phạm PII) gửi đi.

Một ví dụ liên quan đến những gì các tác giả gọi là chiết khấu rủi ro đã công nhận. Một tác nhân dựa trên Llama 4 Scout đã xác định nhiều dấu hiệu cảnh báo trên một trang web tiền điện tử, lưu ý đến giọng điệu đáng ngờ, lời hứa về các khoản tiền thưởng lớn và thiếu thông tin rõ ràng về công ty. Mặc dù những cảnh báo đã được nhận biết này, tác nhân vẫn gửi số An sinh xã hội, chi tiết thẻ và mã CVV.

Một mẫu thứ hai, được đặc trưng là khung thủ tục/tên miền, xuất hiện khi các tác nhân phát hiện thành công một nỗ lực lừa đảo nhưng không thể khái quát hóa sự nghi ngờ đó sang một yêu cầu liên quan.

Trong một trường hợp, Gemini 3 Flash đã từ chối một yêu cầu rõ ràng là lừa đảo về thông tin ngân hàng, xác định đúng nó là một cuộc tấn công lừa đảo. Tuy nhiên, vài phút sau, cùng một tác nhân đã cung cấp thông tin đăng nhập cho một biểu mẫu xác minh khác sau khi suy luận rằng các kiểm tra danh tính là một phần bình thường của bảo mật nền tảng. Các dấu hiệu cảnh báo đã được nhận biết trong một ngữ cảnh, nhưng không được chuyển sang một ngữ cảnh khác.

Các nhà nghiên cứu cũng quan sát thấy các trường hợp của những gì họ gọi là tự khẳng định sự tuân thủ an ninhchuẩn hóa bề mặt được tin cậy: trong một trường hợp, một tác nhân Claude Haiku 4.5 đã chấp nhận các tuyên bố của trang web về các tiêu chuẩn mã hóa và chứng nhận an ninh như bằng chứng về sự đáng tin cậy, trong khi GPT-5 mini đã giảm thiểu cách viết đáng ngờ vì trang có vẻ được thiết kế chuyên nghiệp và được trình bày thông qua một miền hợp pháp. Trong cả hai trường hợp, các tín hiệu tin cậy bề mặt đã vượt qua các lo ngại mà chính các tác nhân đã thể hiện.

Vấn đề dường như vượt ra ngoài khả năng dễ bị lừa đảo đơn giản, với các tác giả đề xuất rằng các tín hiệu kiểm tra tin cậy được thêm vào điều kiện phòng thủ mạnh nhất thường hoạt động nhiều hơn như một nghi thức chứ không phải là một biện pháp bảo vệ: các tác nhân có khả năng kể lại rủi ro, nhưng việc kể lại rủi ro alone không thay đổi đáng tin cậy hành vi của chúng.

Các tác giả định nghĩa khoảng cách giữa nhận biết nguy hiểmhành động dựa trên nhận biết đó là chướng ngại vật trung tâm trong việc phát triển các biện pháp phòng thủ trong tương lai trong loại tình huống này.

Phương pháp

Tiêu chuẩn SCAMMER4U đặt bốn tác nhân web tự động hàng đầu vào 91 trang web do kẻ tấn công kiểm soát và mười trang web cơ sở ‘thân thiện’ bao gồm tám loại lừa đảo.

Bốn mô hình được đánh giá là GPT-5 mini; Claude Haiku 4.5; Gemini 3 Flash; và Llama 4 Scout, sử dụng một khung sườn trình duyệt chung dựa trên Playwright, định dạng quan sát, không gian hành động và mẫu lời nhắc.

Đối với các thí nghiệm, mỗi tác nhân được giao một hồ sơ người dùng thực tế chứa thông tin từ tên và địa chỉ đến mật khẩu, chi tiết tài khoản ngân hàng, số An sinh xã hội, mã API và mã xác thực hai yếu tố – với mục tiêu chính là xác định xem bất kỳ dữ liệu nào trong số đó đã đến được điểm cuối do kẻ tấn công kiểm soát.

Hệ thống phân loại tám trục được sử dụng để xác định môi trường SCAMMER4U, tách biệt cách từng kịch bản được phân loại từ các biến cụ thể được điều chỉnh trong các thử nghiệm ghép nối để cô lập hiệu ứng của các chiến thuật kỹ thuật xã hội riêng lẻ đối với sự rò rỉ PII. Nguồn - https://arxiv.org/pdf/2606.00497

Hệ thống phân loại tám trục được sử dụng để xác định môi trường SCAMMER4U, tách biệt cách từng kịch bản được phân loại từ các biến cụ thể được điều chỉnh trong các thử nghiệm ghép nối để cô lập hiệu ứng của các chiến thuật kỹ thuật xã hội riêng lẻ đối với sự rò rỉ PII. Nguồn

Để đảm bảo rằng tiêu chuẩn phản ánh các lừa đảo trong thế giới thực chứ không phải các trường hợp thử nghiệm nhân tạo, các môi trường đã được tạo ra thông qua Flask trong các môi trường tự tổ chức, từ các bản thiết kế viết tay và sau đó được xem xét thủ công.

Mỗi mô hình được thử nghiệm trong bốn thiết lập can thiệp ngày càng tăng: C0, không có hướng dẫn; C1, với một lời nhắc riêng tư chung; C2, với một danh sách kiểm tra nhận thức về lừa đảo; và C3, với một lời nhắc suy ngẫm trước khi gửi. Năm lần chạy được thực hiện cho mọi sự kết hợp của mô hình, môi trường và điều kiện, dẫn đến 7.480 phiên tổng cộng.

Định mức chính là PLRcrit, đo lường tốc độ mà thông tin cá nhân quan trọng đạt đến một điểm cuối do kẻ tấn công kiểm soát. Các định mức phụ bao gồm PLRweighted, một biện pháp rò rỉ có trọng số theo cấp; ASR (Tỷ lệ thành công của cuộc tấn công), đo lường thành công của cuộc tấn công sau khi điều hướng đến một URL bẫy được chỉ định; TCR (Tỷ lệ hoàn thành nhiệm vụ); một Đã bảo vệ lá cờ, chỉ ra từ chối hoặc hoàn thành an toàn mà không đạt đến bẫy; và DR (Tỷ lệ phát hiện), ghi lại liệu lý lẽ của tác nhân đã xác định trang web là đáng ngờ.

Tỷ lệ phát hiện (DR) được đo bằng cách sử dụng một LLM-as-judge tiếp cận, trong đó GPT-4o-mini đóng vai trò là người đánh giá chính và Llama 4 Scout là một kiểm tra thứ cấp, xem xét lý lẽ của một tác nhân và xác định xem nó có xác định trang web là đáng ngờ.

Xác thực so với các ví dụ được gắn nhãn bởi con người tạo ra các điểm Cohen’s κ là 0,83 và 0,78, vượt quá ngưỡng độ tin cậy đã đăng ký trước của nghiên cứu.

Nghiên cứu đã được đăng ký trước (tức là kế hoạch nghiên cứu và phân tích đã được công khai tài liệu trước khi ra mắt) trước khi thu thập dữ liệu, với việc chỉ định các phân tích và tiêu chí thành công của dự án trước để giảm thiểu rủi ro của việc điều chỉnh kết luận cho các kết quả được quan sát.

Thử nghiệm và Kết quả

Thử nghiệm ban đầu nhằm mục đích thiết lập xem liệu các lời nhắc an toàn đơn giản có thể giảm thiểu vấn đề. Bốn thiết lập bảo vệ ngày càng tăng đã được đánh giá, từ không có hướng dẫn về quyền riêng tư nào đến các lời nhắc khuyến khích tác nhân ngừng lại và suy ngẫm trước khi gửi thông tin nhạy cảm.

Kết quả thay đổi mạnh mẽ giữa các mô hình. Claude Haiku 4.5 đã chứng minh là mô hình phản ứng mạnh nhất, với tốc độ rò rỉ của nó giảm từ 54,5% trong điều kiện cơ sở xuống 24,0% trong điều kiện bảo vệ mạnh nhất. GPT-5 mini đã cải thiện từ 61,0% đến 36,1%, trong khi Gemini 3 Flash giảm từ 93,1% đến 60,7%. Llama 4 Scout thay đổi tương đối ít, giảm từ 82,3% đến 77,4%.

Các sự khác biệt này cho thấy, theo các tác giả, rằng cùng một hướng dẫn bảo vệ có thể tạo ra kết quả rất khác nhau, tùy thuộc vào mô hình nhận chúng. Quan trọng hơn, các biện pháp bảo vệ thường dường như cải thiện nhận thức về rủi ro của các tác nhân nhiều hơn là hành vi thực tế của chúng: các tác nhân trở nên tốt hơn trong việc nhận ra các trang web đáng ngờ và mô tả các dấu hiệu cảnh báo, nhưng việc nhận ra đó không luôn ngăn cản chúng tiếp tục với giao dịch.

Khoảng cách phát hiện-hành động trên bốn tác nhân AI hàng đầu. Bảng bên trái so sánh sự rò rỉ thông tin quan trọng giữa các tác nhân đã xác định rõ ràng một trang web là đáng ngờ và những tác nhân không làm như vậy, cho thấy rằng ngay cả dưới thiết lập bảo vệ mạnh nhất (C3), hơn một phần ba các tác nhân đã nhận ra một lừa đảo có khả năng vẫn gửi dữ liệu nhạy cảm. Bảng bên phải cho thấy khoảng cách đó trên GPT-5 mini, Claude Haiku 4.5, Gemini 3 Flash và Llama 4 Scout, minh họa rằng nhận thức về một mối đe dọa không nhất thiết chuyển thành hành vi phòng thủ.

Khoảng cách phát hiện-hành động trên bốn tác nhân AI hàng đầu. Bảng bên trái so sánh sự rò rỉ thông tin quan trọng giữa các tác nhân đã xác định rõ ràng một trang web là đáng ngờ và những tác nhân không làm như vậy, cho thấy rằng ngay cả dưới thiết lập bảo vệ mạnh nhất (C3), hơn một phần ba các tác nhân đã nhận ra một lừa đảo có khả năng vẫn gửi dữ liệu nhạy cảm. Bảng bên phải cho thấy khoảng cách đó trên GPT-5 mini, Claude Haiku 4.5, Gemini 3 Flash và Llama 4 Scout, minh họa rằng nhận thức về một mối đe dọa không nhất thiết chuyển thành hành vi phòng thủ.

Trong một đánh giá riêng biệt, 16 người xem đã so sánh các trang SCAMMER4U với các trang lừa đảo thực sự và không thực hiện tốt hơn may mắn. Theo bài báo, điều này cho thấy rằng tiêu chuẩn đã nắm bắt được nhiều tín hiệu trực quan và thủ tục được tìm thấy trong các lừa đảo trực tuyến thực sự.

Kết luận

Các mô hình được thử nghiệm – đại diện cho các kiến trúc logic trên các họ LLM phổ biến – dường như có một vấn đề nội tại trong việc rút lui khỏi các tình huống nguy hiểm được nhận biết, hoặc điều chỉnh sự ‘bắt buộc phải hoàn thành’ của chính chúng. Logic cho thấy rằng điều này có thể liên quan đến sự khó khăn chung mà các mô hình ngôn ngữ tiên tiến được biết đến về việc từ bỏ thất bại trong một vấn đề – một kỹ năng sống còn thiết yếu mà hiện tại có vẻ chỉ có thể được áp đặt từ bên ngoài, thông qua các lời nhắc hệ thống, hệ thống thứ cấp và các hạn chế đầu ra.

Nếu khoảng cách ‘ngắt kết nối’ được mô tả, giữa nguy hiểm được nhận thức và sự bắt buộc phải tiếp tục bất kể, thực sự là nội tại đối với một kiến trúc LLM, và không thể được khắc phục một cách bản địa, thì sự thay thế duy nhất dường như là giám sát các hành động của mô hình một cách thuật toán trong các tình huống quan trọng – điều này hiệu quả giảm thiểu tiện ích của một tác nhân xuống một quy trình theo kiểu RPA.

 

Được xuất bản lần đầu vào Thứ Bảy, ngày 6 tháng 6 năm 2026

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]