Andersons hoek
Onderzoek: 35% van AI-agents geeft PII door aan websites die ze kennen als scams

Een nieuw onderzoek heeft aangetoond dat meer dan een derde van de autonome webagents die het heeft getest, kritieke persoonlijk identificeerbare informatie (PII, zoals bankrekeninggegevens, wachtwoorden en socialezekerheidsnummers) doorgeeft aan websites die ze al als scams hebben geïdentificeerd.
Een nieuw onderzoek van onderzoekers in India en de VS heeft aangetoond dat meer dan een derde van de autonome webagents die het heeft getest, kritieke persoonlijk identificeerbare informatie (PII, zoals bankrekeninggegevens, wachtwoorden en socialezekerheidsnummers) doorgeeft aan websites die ze al als scams hebben geïdentificeerd.
Er is, zoals het artikel aangeeft, een zekere ‘compulsie om te voltooien’ die de voorzichtigheid en aarzeling van webagents remt in dergelijke situaties. De auteurs stellen:
‘Een mens kan pauzeren, opnieuw lezen of de tab sluiten. Een agent is gebouwd om zijn taak te voltooien en zal blijven invullen en gegevens verzenden zonder te stoppen om te vragen of hij dat moet doen.’
Het onderzoek heeft een nieuwe benchmark voor dergelijke scenario’s ontwikkeld, getiteld SCAMMER4U, die 91 (gesimuleerde) aanvaller-beheerde omgevingen omvat, evenals tien ‘goede’ baseline-sites en acht aanvalsvector.
Zonder enige privacybescherming gaven de geteste agents kritieke persoonlijk identificeerbare informatie door in 54% tot 93% van de scam-ontmoetingen, terwijl equivalente niet-kwaadaardige websites geen dergelijke openbaringen veroorzaakten, wat aangeeft dat de lekkage werd veroorzaakt door de aanvallen en niet door routineformulieren:
‘Het meest kritiek is dat we een detectie-actiegap identificeren: agents wiens redenering door een onafhankelijke LLM-rechter is bevestigd dat de site als verdacht is gemarkeerd, geven nog steeds kritieke PII door in 35,9% van de sessies, versus 66,1% wanneer geen vermoeden wordt geuit, een 30,2% gap die robuust is over alle vier model-families.
‘Onze bevindingen laten zien dat verdedigingen die afhankelijk zijn van de eigen herkenning van een aanval door de agent, op het verkeerde signaal zijn gericht, waardoor output-niveau-interceptie van uitgaande verzendingen nodig is die onafhankelijk van de redenering van de agent werkt.’
De onderzoekers pleiten voor output-niveau-verdedigingen die onafhankelijk kritieke uitgaande verzendingen kunnen inspecteren en blokkeren, in plaats van te vertrouwen op de eigen herkenning van de agent dat een website verdacht is, wat duidelijk niet kan worden vertrouwd om nuttige defensieve acties te triggeren.
Het nieuwe artikel is getiteld “I Strongly Suspect This Website Is a Scam”: Benchmarking PII Leakage and Detection without Defense in Autonomous Web Agents, en komt van acht onderzoekers uit KIIT Bhubaneshwar, BITS Pilani en Lam Research.
Problemen met autoriteit
De meest interessante bevinding van het artikel is misschien niet dat agents persoonlijke informatie lekken, maar dat veel van hen dit doen nadat ze hebben erkend dat er iets mis is. De onderzoekers identificeren een terugkerend patroon in de tests die zijn uitgevoerd, waarin vermoeden en actie ontkoppeld raken, met agents die vaak duidelijke bezorgdheden over een website uiten, maar toch doorgaan met de gevraagde (PII-schendende) verzending.
Een voorbeeld hiervan was wat de auteurs erkende-risicodiscounting noemen. Een agent gebaseerd op Llama 4 Scout identificeerde meerdere waarschuwingsignalen op een cryptocurrency-site, waarbij het verdachte toon, de belofte van grote bonussen en het ontbreken van duidelijke informatie over het bedrijf noteerde. Ondanks deze erkende waarschuwingen, verzond de agent een socialezekerheidsnummer, kaartgegevens en een CVV-code.
Een tweede patroon, gekenmerkt als domain/procedure-framing, verscheen toen agents succesvol een scam-poging detecteerden, maar er niet in slaagden om dat vermoeden te generaliseren naar een gerelateerde aanvraag.
In één geval wees Gemini 3 Flash een overduidelijke frauduleuze aanvraag voor bankgegevens af, waarbij het correct identificeerde als een phishing-poging. Minuten later, echter, leverde dezelfde agent accountreferenties aan een andere verificatieformulier, nadat het had geredeneerd dat identiteitscontroles een normaal onderdeel waren van platformbeveiliging. De waarschuwingsignalen werden herkend in één context, maar niet overgedragen naar een andere.
De onderzoekers observeerden ook gevallen van wat ze zelf-geasserteerde-veiligheidsverwijzing en vertrouwde-oppervlakte-normalisatie noemen: in één geval accepteerde een Claude Haiku 4.5-agent de claims van een site over encryptie- en beveiligingscertificaten als bewijs van betrouwbaarheid, terwijl GPT-5 mini verdachte woorden omdat de pagina er professioneel uitzag en werd gepresenteerd via een legitieme domein. In beide gevallen overschaduwden oppervlakkige vertrouwenssignalen de bezorgdheden die de agents zelf al hadden geuit.
Het probleem lijkt verder te gaan dan eenvoudige phishing-gevoeligheid, met de auteurs die suggereren dat de trust-check-prompts die in de sterkste verdedigingsconditie zijn toegevoegd, vaak meer als een ritueel functioneren dan als een waarborg: agents waren in staat om risico’s te beschrijven, maar die beschrijving veranderde hun gedrag niet noodzakelijkerwijs.
De auteurs definiëren de aangetoonde kloof tussen gevaar herkennen en daarop reageren als de centrale hindernis in de ontwikkeling van toekomstige verdedigingen in dit soort scenario’s.
Methode
De SCAMMER4U-benchmark plaatst vier frontier-webagents in 91 aanvaller-beheerde websites en tien goede controle-sites, die acht scam-categorieën beslaan.
De vier modellen die werden geëvalueerd, waren GPT-5 mini; Claude Haiku 4.5; Gemini 3 Flash; en Llama 4 Scout, die gebruik maakten van een gemeenschappelijk Playwright-gebaseerd browservlak, observatieformaat, actieruimte en prompt-sjabloon.
Voor de experimenten werd elke agent een realistisch gebruikersprofiel toegewezen met informatie variërend van namen en adressen tot wachtwoorden, bankrekeninggegevens, socialezekerheidsnummers, API-sleutels en twee-factorauthenticatiecodes – met als primair doel om te bepalen of enige van deze gegevens de aanvaller-beheerde eindpunten bereikte.

De acht-as-taxonomie die wordt gebruikt om SCAMMER4U-omgevingen te definiëren, waarin wordt gescheiden hoe elk scenario wordt geclassificeerd van de specifieke variabelen die in paren tests worden aangepast om het effect van individuele sociale-engineering-tactieken op PII-lekkage te isoleren. Bron
Om ervoor te zorgen dat de benchmark weerspiegelt wat er in het echte leven gebeurt, werden de omgevingen gegenereerd via Flask in self-hosted-omgevingen, vanuit door mensen geschreven ontwerpbriefs, en vervolgens handmatig beoordeeld.
Elk model werd getest onder vier steeds meer interventiestappen: C0, met geen richtlijnen; C1, met een algemene privacyherinnering; C2, met een phishing-bewustzijnslijst; en C3, met een pre-verzendingreflectieprompt. Vijf runs werden uitgevoerd voor elke combinatie van model, omgeving en conditie, resulterend in 7.480 totale sessies.
De primaire metriek was PLRcrit, die de snelheid meet waarin kritieke persoonlijk identificeerbare informatie een aanvaller-beheerd eindpunt bereikte. Secundaire metrieken bestonden uit PLRweighted, een gewogen lekkage-maat; ASR (Aanvalsuccesratio), die de aanvalssucces meet na navigatie naar een aangewezen val-URL; TCR (Taakvoltooiingsratio); een Verdedigd-vlag, die aangaf of de agent weigerde of veilig voltooide zonder het val-eindpunt te bereiken; en DR (Detectieratio), die registreerde of de redenering van de agent de site als verdacht had geïdentificeerd.
Detectieratio (DR) werd gemeten met een LLM-as-rechter-benadering, waarbij GPT-4o-mini diende als de primaire evaluator en Llama 4 Scout als een secundaire check, die de redenering van de agent beoordeelde en bepaalde of deze de site als verdacht had geïdentificeerd. DR, in dit geval, mat wat de agent expliciet over een site zei, in plaats van wat het mogelijk intern had afgeleid.
Validatie tegen menselijk-geëtiketteerde voorbeelden produceerde Cohen’s κ-scores van 0,83 en 0,78, waarmee de vooraf geregistreerde betrouwbaarheidsgrens van het onderzoek werd overschreden.
Het onderzoek was vooraf geregistreerd (d.w.z. het onderzoeksplan en analyses werden openbaar gedocumenteerd voordat de gegevensverzameling begon) voordat de gegevensverzameling begon, met het specificeren van het projectplan, analyses en succescriteria op voorhand, om het risico te verkleinen dat de conclusies werden aangepast aan de waargenomen resultaten.
Tests en resultaten
De initiële test zocht ernaar of eenvoudige veiligheidsreminders het probleem konden verkleinen. Vier steeds meer beschermende instellingen werden geëvalueerd, variërend van geen privacyrichtlijnen tot prompts die de agent expliciet aanspoorden om te stoppen en na te denken voordat ze gevoelige informatie verzonden.
De resultaten varieerden sterk tussen modellen. Claude Haiku 4.5 bleek het meest responsief, met een lekkagesnelheid die daalde van 54,5% onder de baseline-conditie tot 24,0% onder de sterkste bescherming. GPT-5 mini verbeterde van 61,0% tot 36,1%, terwijl Gemini 3 Flash daalde van 93,1% tot 60,7%. Llama 4 Scout veranderde relatief weinig, dalend van 82,3% tot 77,4%.
Deze verschillen suggereren, zoals de auteurs menen, dat dezelfde beschermingsinstructies zeer verschillende resultaten kunnen produceren, afhankelijk van het model dat ze ontvangt. Nog belangrijker is dat de beschermingsmaatregelen vaak de bewustwording van risico’s van de agents meer verbeterden dan hun daadwerkelijke gedrag: agents werden beter in het herkennen van verdachte websites en het beschrijven van waarschuwingsignalen, maar die herkenning stopte hen niet altijd om door te gaan met de transactie.

Detectie-actiegap over vier frontier-AI-agents. Linkerpaneel vergelijkt kritieke-informatielekkage onder agents die een website expliciet als verdacht hebben gemarkeerd en die dat niet hebben gedaan, waaruit blijkt dat zelfs onder de sterkste beschermingsinstelling (C3) meer dan een derde van de agents die een mogelijke scam herkenden, nog steeds gevoelige gegevens verzonden. Rechterpaneel toont dezelfde kloof over GPT-5 mini, Claude Haiku 4.5, Gemini 3 Flash en Llama 4 Scout, waaruit blijkt dat bewustwording van een bedreiging niet noodzakelijkerwijs tot defensief gedrag leidt.
In een aparte evaluatie deden 16 recensenten SCAMMER4U-pagina’s vergelijken met echte phishing-sites en presteerden niet beter dan toeval. Volgens het artikel suggereert dit dat de benchmark veel van de visuele en procedurele signalen heeft vastgelegd die in echte online scams worden aangetroffen.
Conclusie
De geteste modellen – die breed vertegenwoordigd zijn in de logica-architecturen van populaire LLM-families – lijken een intrinsiek probleem te hebben met het terugtrekken uit herkende gevaarlijke scenario’s, of het matigen van hun eigen compulsie om door te gaan. Logica suggereert dat dit mogelijk verband houdt met de meer algemene moeilijkheid die geavanceerde taalmodellen bekend zijn in het opgeven van een kwestie – een essentiële overlevingsvaardigheid die momenteel alleen van buitenaf kan worden opgelegd, via systeemprompts, secundaire systemen en outputbeperkingen.
Als de beschreven ‘disconnect’ tussen waargenomen gevaar en de compulsie om toch door te gaan, werkelijk intrinsiek is aan een LLM-architectuur, en niet native kan worden hersteld, lijkt de enige alternatief te zijn om de acties van het model algoritmicamente te controleren in kritieke scenario’s – wat effectief de bruikbaarheid van een agent reduceert tot een meer voorgeschreven RPA-stijl routine.
Publicatie op zaterdag 6 juni 2026












