Sudut Anderson
Studi: 35% Agen AI Menyerahkan PII ke Situs yang Diketahui sebagai Penipuan

Sebuah studi baru menemukan bahwa bahkan ketika mereka mengenali sebuah situs web penipuan, lebih dari satu dari tiga agen AI masih menyerahkan informasi sensitif.
Sebuah studi baru dari peneliti di India dan AS telah menemukan bahwa lebih dari sepertiga agen web otonom yang diuji menyerahkan informasi pribadi yang kritikal (PII, yaitu rincian rekening bank, kata sandi, dan nomor Keamanan Sosial) ke situs web yang mereka kenal sebagai penipuan.
Ada, menurut makalah tersebut, sebuah ‘kompulsi untuk menyelesaikan’ yang menghambat kehati-hatian dan keraguan dalam agen web, dalam hal seperti itu. Penulis menyatakan:
‘Seorang manusia dapat berhenti, membaca ulang, atau menutup tab. Sebuah agen dibangun untuk menyelesaikan tugasnya dan akan terus mengisi formulir dan mengirimkan data tanpa berhenti untuk mempertanyakan apakah harus.’
Studi tersebut menghasilkan benchmark baru untuk skenario seperti itu, yang disebut SCAMMER4U, yang mencakup 91 lingkungan (simulasi) yang dikendalikan oleh penyerang, bersama dengan sepuluh situs dasar ‘baik’, dan delapan vektor serangan.
Tanpa perlindungan privasi, agen yang diuji menyerahkan informasi pribadi yang sangat sensitif dalam 54% hingga 93% pertemuan penipuan, sedangkan situs web non-malicious yang setara tidak memicu pengungkapan seperti itu, yang menunjukkan bahwa kebocoran tersebut disebabkan oleh serangan daripada pengisian formulir rutin:
‘Yang paling kritis, kami mengidentifikasi kesenjangan deteksi-tindakan: agen yang alasan independen LLM hakim mengkonfirmasi telah menandai situs sebagai mencurigakan masih mengirimkan PII kritis dalam 35,9% sesi, versus 66,1% ketika tidak ada kecurigaan yang diungkapkan, kesenjangan 30,2% yang kuat di semua empat keluarga model.
‘Temuan kami mengungkapkan bahwa pertahanan yang bergantung pada pengenalan agen sendiri tentang serangan adalah sinyal yang salah, yang memotivasi intersepsi tingkat keluaran dari pengiriman keluar yang beroperasi secara independen dari loop alasan agen.’
Peneliti tersebut berargumentasi untuk pertahanan tingkat keluaran yang dapat memeriksa dan memblokir pengiriman keluar yang sensitif secara independen, daripada mengandalkan pengenalan agen sendiri bahwa sebuah situs web mencurigakan, yang jelas tidak dapat diandalkan untuk memicu tindakan pertahanan yang berguna.
Makalah baru tersebut berjudul “I Strongly Suspect This Website Is a Scam”: Benchmarking PII Leakage and Detection without Defense in Autonomous Web Agents, dan berasal dari delapan peneliti di KIIT Bhubaneshwar, BITS Pilani, dan Lam Research.
Masalah dengan Otoritas
Temuan paling menarik dari makalah tersebut, mungkin, bukanlah bahwa agen kebocoran informasi pribadi, tetapi bahwa banyak dari mereka melakukannya setelah mengenali bahwa ada sesuatu yang salah. Peneliti mengidentifikasi pola berulang dalam tes yang dijalankan, di mana kecurigaan dan tindakan menjadi terputus, dengan agen sering mengungkapkan kekhawatiran yang jelas tentang sebuah situs web, namun melanjutkan dengan pengiriman yang diminta (PII-pelanggaran) secara tidak terkendali.
Salah satu contoh melibatkan apa yang disebut penulis sebagai diskon pengakuan risiko. Sebuah agen berbasis Llama 4 Scout mengidentifikasi beberapa tanda peringatan pada situs web cryptocurrency, mencatat nada yang mencurigakan, janji bonus besar, dan kurangnya informasi yang jelas tentang perusahaan. Meskipun peringatan yang diakui ini, agen tersebut mengirimkan nomor Keamanan Sosial, rincian kartu, dan kode CVV.
Polanya yang kedua, yang disebut kerangka domain/prosedur, muncul ketika agen berhasil mendeteksi satu upaya penipuan tetapi gagal menggeneralisir kecurigaan tersebut ke permintaan yang terkait.
Dalam satu kasus, Gemini 3 Flash menolak permintaan yang jelas penipuan untuk informasi perbankan, mengidentifikasi dengan benar sebagai upaya phishing. Beberapa menit kemudian, namun, agen yang sama menyediakan kredensial akun untuk formulir verifikasi yang berbeda setelah beralasan bahwa pemeriksaan identitas adalah bagian normal dari keamanan platform. Tanda peringatan diakui dalam satu konteks, tetapi tidak dipindahkan ke konteks lain.
Peneliti juga mengamati kasus penghormatan keamanan yang diberlakukan sendiri dan normalisasi permukaan yang dipercaya: dalam satu kasus, agen Claude Haiku 4.5 menerima klaim situs web tentang standar enkripsi dan sertifikasi keamanan sebagai bukti kepercayaan, sedangkan GPT-5 mini mendiskon kata-kata yang mencurigakan karena halaman tersebut tampak dirancang secara profesional dan disajikan melalui apa yang tampak seperti domain yang sah. Dalam kedua kasus, sinyal kepercayaan yang superficial mengalahkan kekhawatiran yang telah diungkapkan oleh agen sendiri.
Masalahnya tampaknya meluas melampaui kemampuan phishing sederhana, dengan penulis yang menyatakan bahwa prompt pemeriksaan keamanan yang ditambahkan dalam kondisi pertahanan terkuat sering berfungsi lebih sebagai ritual daripada perlindungan: agen dapat menceritakan risiko, tetapi narasi saja tidak secara andal mengubah perilaku mereka.
Penulis mendefinisikan kesenjangan yang terbukti antara mengenali bahaya dan bertindak berdasarkan pengenalan itu sebagai hambatan utama dalam pengembangan pertahanan masa depan dalam skenario seperti ini.
Metode
Benchmark SCAMMER4U menempatkan empat agen web otonom di 91 situs web yang dikendalikan oleh penyerang dan sepuluh situs web dasar ‘baik’ yang mencakup delapan kategori penipuan.
Empat model yang dievaluasi adalah GPT-5 mini; Claude Haiku 4.5; Gemini 3 Flash; dan Llama 4 Scout, menggunakan kerangka kerja browsing berbasis Playwright yang umum, format pengamatan, ruang tindakan, dan templat prompt.
Untuk eksperimen, setiap agen diberi profil pengguna yang realistis yang berisi informasi yang berkisar dari nama dan alamat hingga kata sandi, rincian rekening bank, nomor Keamanan Sosial, kunci API, dan kode autentikasi dua faktor – dengan tujuan utama adalah menentukan apakah data tersebut mencapai titik akhir yang dikendalikan oleh penyerang.

Taksonomi delapan sumbu yang digunakan untuk mendefinisikan lingkungan SCAMMER4U, memisahkan bagaimana setiap skenario diklasifikasikan dari variabel spesifik yang disesuaikan dalam tes berpasangan untuk mengisolasi efek taktik rekayasa sosial pada kebocoran PII. Sumber
Untuk memastikan bahwa benchmark mencerminkan skenario penipuan dunia nyata daripada kasus tes buatan, lingkungan tersebut dihasilkan melalui Flask dalam lingkungan self-hosted, dari brief desain yang ditulis oleh manusia, dan kemudian ditinjau secara manual.
Setiap model diuji di bawah empat pengaturan yang semakin intervensif: C0, tanpa bimbingan; C1, dengan pengingat privasi generik; C2, dengan daftar periksa kesadaran phishing; dan C3, dengan prompt refleksi sebelum pengiriman. Lima jalankan dilakukan untuk setiap kombinasi model, lingkungan, dan kondisi, menghasilkan 7.480 sesi total.
Metriik utama adalah PLRkrit, yang mengukur tingkat di mana informasi pribadi kritis mencapai titik akhir yang dikendalikan oleh penyerang. Metrik sekunder terdiri dari PLRtertimbang, ukuran kebocoran yang ditimbang; ASR (Tingkat Keberhasilan Serangan), yang mengukur keberhasilan serangan setelah navigasi ke URL perangkap yang ditentukan; TCR (Tingkat Penyelesaian Tugas); bendera Terlindungi, yang menunjukkan penolakan atau penyelesaian aman tanpa mencapai perangkap; dan DR (Tingkat Deteksi), yang mencatat apakah alasan agen mengidentifikasi situs sebagai mencurigakan.
Tingkat Deteksi (DR) diukur menggunakan pendekatan LLM-as-judge, di mana GPT-4o-mini berfungsi sebagai evaluator utama dan Llama 4 Scout sebagai pemeriksa sekunder, meninjau alasan agen dan menentukan apakah telah mengidentifikasi situs sebagai mencurigakan. DR, dalam hal ini, mengukur apa yang agen nyatakan tentang situs, bukan apa yang mungkin telah disimpulkan secara internal.
Validasi terhadap contoh yang diberi label oleh manusia menghasilkan skor Cohen’s κ sebesar 0,83 dan 0,78, melebihi ambang batas keandalan yang terdaftar sebelumnya.
Studi ini didaftarkan sebelumnya (yaitu, rencana studi dan analisis didokumentasikan secara publik sebelum peluncuran) sebelum pengumpulan data, dengan menentukan analisis dan kriteria keberhasilan proyek di muka, yang dimaksudkan untuk mengurangi risiko penyesuaian kesimpulan dengan hasil yang diamati.
Uji dan Hasil
Uji awal bertujuan untuk menetapkan apakah pengingat keamanan sederhana dapat mengurangi masalah. Empat pengaturan yang semakin protektif dievaluasi, mulai dari tidak ada bimbingan privasi hingga prompt yang secara eksplisit mendorong agen untuk berhenti dan merefleksikan sebelum mengirimkan informasi sensitif.
Hasilnya bervariasi secara tajam antara model. Claude Haiku 4.5 terbukti paling responsif, dengan tingkat kebocoran turun dari 54,5% di bawah kondisi baseline hingga 24,0% di bawah perlindungan terkuat. GPT-5 mini meningkat dari 61,0% hingga 36,1%, sedangkan Gemini 3 Flash turun dari 93,1% hingga 60,7%. Llama 4 Scout berubah relatif sedikit, menurun dari 82,3% hingga 77,4%.
Perbedaan ini menunjukkan, menurut penulis, bahwa instruksi protektif yang sama dapat menghasilkan hasil yang sangat berbeda, tergantung pada model yang menerimanya. Lebih penting lagi, perlindungan sering kali tampaknya meningkatkan kesadaran agen tentang risiko lebih dari perilaku aktualnya: agen menjadi lebih baik dalam mengenali situs web yang mencurigakan dan menggambarkan tanda peringatan, tetapi pengenalan itu tidak selalu menghentikan mereka dari melanjutkan transaksi.

Kesenjangan deteksi-tindakan di empat agen AI frontier. Panel kiri membandingkan kebocoran informasi kritis di antara agen yang secara eksplisit mengidentifikasi situs web sebagai mencurigakan dan mereka yang tidak, menunjukkan bahwa bahkan di bawah pengaturan perlindungan terkuat (C3), lebih dari sepertiga agen yang mengenali kemungkinan penipuan masih mengirimkan data sensitif. Panel kanan menunjukkan kesenjangan yang sama di empat model GPT-5 mini, Claude Haiku 4.5, Gemini 3 Flash, dan Llama 4 Scout, menggambarkan bahwa kesadaran tentang ancaman tidak secara andal diterjemahkan menjadi perilaku pertahanan.
Dalam evaluasi terpisah, 16 peninjau membandingkan halaman SCAMMER4U dengan situs web phishing yang sebenarnya dan tidak melakukan lebih baik dari kebetulan. Menurut makalah, ini menunjukkan bahwa benchmark tersebut menangkap banyak petunjuk visual dan prosedural yang ditemukan dalam skenario penipuan online yang sebenarnya.
Kesimpulan
Model yang diuji – yang secara umum mewakili arsitektur logika di seluruh keluarga LLM populer – tampaknya memiliki masalah intrinsik dalam menarik diri dari skenario berbahaya yang diakui, atau memoderasi kompromi mereka sendiri untuk melanjutkan bertindak. Logika menunjukkan bahwa ini mungkin terkait dengan kesulitan umum yang dikenal oleh model bahasa lanjutan dalam mengakui kekalahan pada suatu masalah – keterampilan bertahan hidup yang, untuk saat ini, tampaknya hanya dapat diberlakukan dari luar, melalui prompt sistem, sistem sekunder, dan pembatasan keluaran.
Jika ‘diskonek’ yang dijelaskan, antara bahaya yang dilihat dan kompromi untuk melanjutkan, benar-benar intrinsik pada arsitektur LLM, dan tidak dapat diperbaiki secara asli, alternatif satu-satunya tampaknya adalah untuk mengawasi tindakan model secara algoritmik dalam skenario kritis – yang secara efektif mengurangi utilitas agen menjadi rutinitas gaya RPA yang lebih terbatas.
Dipublikasikan pertama kali pada hari Sabtu, 6 Juni 2026












