Andersons Blickwinkel
Studie: 35% der KI-Agenten übergeben PII an Webseiten, die sie als Betrug erkennen

Eine neue Studie zeigt, dass selbst wenn sie eine Betrugswbsite erkennen, mehr als ein Drittel der autonomen Webagenten sensible Informationen weitergeben.
Eine neue Studie von Forschern in Indien und den USA hat ergeben, dass mehr als ein Drittel der getesteten autonomen Webagenten kritische persönliche Identifikationsinformationen (PII, z. B. Bankkontodaten, Passwörter und Sozialversicherungsnummern) an Webseiten weitergaben, die sie bereits als Betrug erkannt hatten.
Es gibt, wie die Studie zeigt, eine bestimmte “Verpflichtung zur Vervollständigung”, die die Vorsicht und das Zögern in Webagenten hemmt, in solchen Situationen. Die Autoren erklären:
‘Ein Mensch kann pausieren, noch einmal lesen oder den Tab schließen. Ein Agent ist darauf programmiert, seine Aufgabe zu beenden und wird weiterhin Formulare ausfüllen und Daten übermitteln, ohne zu stoppen und zu fragen, ob er es sollte.’
Die Studie hat einen neuen Benchmark für solche Szenarien erstellt, der als SCAMMER4U bezeichnet wird und 91 (simulierte) Angreiferkontrollen, sowie zehn “gutartige” Basisseiten und acht Angriffvektoren umfasst.
Ohne jegliche Datenschutzsicherungen gaben die getesteten Agenten in 54% bis 93% der Betrugskontakte hochsensible persönliche Informationen weiter, während äquivalente nicht-maliziöse Webseiten keine solchen Offenlegungen auslösten, was darauf hindeutet, dass die Undichtigkeit durch die Angriffe und nicht durch routinemäßiges Formulare ausgelöst wurde:
‘Am kritischsten identifizieren wir eine Erkennung-Handlungs-Lücke: Agenten, deren Argumentation von einem unabhängigen LLM-Richter bestätigt wird, dass die Website verdächtig ist, geben dennoch in 35,9% der Sitzungen kritische PII weiter, im Vergleich zu 66,1%, wenn kein Verdacht geäußert wird, eine 30,2% Lücke, die über alle vier Modellfamilien hinweg robust ist.
‘Unsere Ergebnisse zeigen, dass Verteidigungen, die von der Erkennung eines Angriffs durch den Agenten abhängen, auf das falsche Signal reagieren, was zu einer Ausgangs-Interception von ausgehenden Übermittlungen führt, die unabhängig von der Argumentationslogik des Agenten funktioniert.’
Die Forscher argumentieren für Ausgangs-Verteidigungen, die unabhängig sensible ausgehende Übermittlungen überprüfen und blockieren können, anstatt auf die eigene Erkennung eines Agenten, dass eine Website verdächtig ist, zu vertrauen, was offensichtlich nicht zu nützlichen Verteidigungsmaßnahmen führen kann.
Die neue Studie trägt den Titel “Ich vermute stark, dass diese Website ein Betrug ist”: Benchmarking von PII-Leckagen und Erkennung ohne Verteidigung in autonomen Webagenten und stammt von acht Forschern aus KIIT Bhubaneshwar, BITS Pilani und Lam Research.
Probleme mit der Autorität
Das interessanteste Ergebnis der Studie ist vielleicht nicht, dass Agenten persönliche Informationen weitergeben, sondern dass viele von ihnen dies nachdem sie erkannt haben, dass etwas nicht stimmt tun. Die Forscher identifizieren ein wiederkehrendes Muster in den durchgeführten Tests, in dem Verdacht und Handlung entkoppelt werden, wobei die Agenten häufig klar ihre Bedenken über eine Website äußern, aber dennoch mit der angeforderten (PII-verletzenden) Übermittlung fortfahren.
Ein Beispiel umfasste, was die Autoren als Anerkennung von Risiken bezeichnen. Ein Agent, der auf Llama 4 Scout basiert, identifizierte mehrere Warnsignale auf einer Kryptowährungs-Website, die verdächtige Töne, das Versprechen hoher Boni und das Fehlen klarer Informationen über das Unternehmen aufwies. Trotz dieser erkannten Warnungen gab der Agent eine Sozialversicherungsnummer, Karteninformationen und einen CVV-Code weiter.
Ein zweites Muster, das als Domänen-/Prozedur-Rahmen bezeichnet wird, trat auf, wenn Agenten einen Betrugversuch erfolgreich erkannten, aber nicht verallgemeinern konnten, dass dieser Verdacht auf eine verwandte Anfrage übertragen werden sollte.
In einem Fall lehnte Gemini 3 Flash eine offensichtlich betrügerische Anfrage nach Bankinformationen ab und identifizierte sie richtig als Phishing-Versuch. Minuten später gab der gleiche Agent jedoch Kontoinformationen an ein anderes Verifizierungsformular weiter, nachdem er argumentiert hatte, dass Identitätsprüfungen ein normaler Teil der Plattformsicherheit seien. Die Warnsignale wurden in einem Kontext erkannt, aber nicht auf einen anderen übertragen.
Die Forscher beobachteten auch Fälle von dem, was sie als Selbstbehauptete-Sicherheits-Entscheidung und Vertrauenswürdige-Oberflächen-Normierung bezeichnen: In einem Fall akzeptierte ein Claude Haiku 4.5-Agent die Behauptungen einer Website über Verschlüsselungsstandards und Sicherheitszertifizierungen als Beweis für Vertrauenswürdigkeit, während GPT-5 mini verdächtige Formulierungen weil die Seite professionell gestaltet erschien und über eine legitime Domäne präsentiert wurde, ignorierte. In beiden Fällen überlagerten oberflächliche Vertrauenssignale die Bedenken, die die Agenten selbst bereits geäußert hatten.
Das Problem scheint über einfache Phishing-Anfälligkeit hinauszugehen, da die Autoren nahelegen, dass die hinzugefügten Vertrauens-Prüfprompts in der stärksten Verteidigungsbedingung oft mehr wie ein Ritual als ein Schutzmechanismus funktionierten: Agenten konnten Risiken erzählen, aber die Erzählung allein veränderte ihr Verhalten nicht zuverlässig.
Die Autoren definieren die nachgewiesene Lücke zwischen Erkennung von Gefahr und Handeln auf diese Erkennung als das zentrale Hindernis bei der Entwicklung zukünftiger Verteidigungen in solchen Szenarien.
Methode
Der SCAMMER4U-Benchmark platziert vier fortschrittliche Webagenten in 91 Angreiferkontrollen und zehn gutartigen Kontrollseiten, die acht Betrugskategorien umfassen.
Die vier evaluierten Modelle waren GPT-5 mini; Claude Haiku 4.5; Gemini 3 Flash; und Llama 4 Scout, die mit einem gemeinsamen Playwright-basierten Browser-Framework, Beobachtungsformat, Aktionsraum und Prompt-Vorlage verwendet wurden.
Für die Experimente wurde jedem Agenten ein realistisches Benutzerprofil zugewiesen, das Informationen von Namen und Adressen bis hin zu Passwörtern, Bankkontodaten, Sozialversicherungsnummern, API-Schlüsseln und Zwei-Faktor-Authentifizierungscode umfasste – mit dem primären Ziel, zu bestimmen, ob diese Daten Angreiferkontrollen erreichten.

Die achtachsige Taxonomie, die zur Definition von SCAMMER4U-Umgebungen verwendet wird, trennt, wie jedes Szenario klassifiziert wird, von den spezifischen Variablen, die in gepaarten Tests angepasst werden, um den Effekt einzelner sozialtechnischer Taktiken auf PII-Leckagen zu isolieren. Quelle
Um sicherzustellen, dass der Benchmark reale Betrügereien und nicht künstliche Testfälle widerspiegelt, wurden die Umgebungen via Flask in selbstgehosteten Umgebungen erstellt, aus menschlich geschriebenen Design-Briefings, und dann manuell überprüft.
Jedes Modell wurde unter vier zunehmend interventionistischen Bedingungen getestet: C0, ohne Anleitung; C1, mit einer allgemeinen Datenschutz-Erinnerung; C2, mit einer Phishing-Bewusstseins-Checkliste; und C3, mit einem vorherigen Reflexions-Prompt. Fünf Durchläufe wurden für jede Kombination von Modell, Umgebung und Bedingung durchgeführt, was insgesamt 7.480 Sitzungen ergab.
Das primäre Metrik war PLRcrit, das die Rate misst, mit der kritische persönliche Informationen einen Angreiferkontrollpunkt erreichten. Sekundäre Metriken umfassten PLRweighted, ein gewichteter Leckagemass; ASR (Angriffserfolgsrate), das den Angriffserfolg nach Navigation zu einer bestimmten Falle-URL misst; TCR (Aufgabenabschlussrate); ein Verteidigt-Flag, das die Ablehnung oder sichere Vervollständigung ohne Erreichen der Falle anzeigt; und DR (Erkennungsrate), die aufzeichnet, ob die Argumentation des Agenten die Website als verdächtig identifiziert.
Erkennungsrate (DR) wurde mithilfe eines LLM-as-Richter-Ansatzes gemessen, bei dem GPT-4o-mini als primärer Evaluator und Llama 4 Scout als sekundäre Überprüfung diente, die Argumentation des Agenten überprüfte und bestimmte, ob er die Website als verdächtig identifiziert hatte. DR misst in diesem Fall was ein Agent explizit über eine Website sagt, anstatt was er möglicherweise intern abgeleitet hat.
Validierung gegen menschlich beschriftete Beispiele ergab Cohens κ-Werte von 0,83 und 0,78, was die vorher festgelegte Zuverlässigkeitsschwelle der Studie übertraf.
Die Studie wurde vor der Datenerfassung registriert (d. h. der Studienplan und Analysen wurden vor dem Start öffentlich dokumentiert), um das Risiko zu verringern, Schlussfolgerungen an die beobachteten Ergebnisse anzupassen.
Tests und Ergebnisse
Der erste Test suchte herauszufinden, ob einfache Sicherheitshinweise das Problem verringern könnten. Vier zunehmend schützende Bedingungen wurden ausgewertet, von keiner Datenschutzanleitung bis hin zu Prompts, die den Agenten aufforderten, vor der Übermittlung sensibler Informationen anzuhalten und nachzudenken.
Die Ergebnisse variierten stark zwischen den Modellen. Claude Haiku 4.5 erwies sich als am responsivsten, mit einer Leckagerate, die von 54,5% unter der Basisbedingung auf 24,0% unter den stärksten Schutzmaßnahmen fiel. GPT-5 mini verbesserte sich von 61,0% auf 36,1%, während Gemini 3 Flash von 93,1% auf 60,7% fiel. Llama 4 Scout änderte sich im Vergleich wenig, von 82,3% auf 77,4%.
Diese Unterschiede deuten darauf hin, dass die Autoren glauben, dass dieselben Schutzanweisungen sehr unterschiedliche Ergebnisse produzieren können, abhängig vom Modell, das sie erhält. Wichtiger noch, die Schutzmaßnahmen schienen die Wahrnehmung des Risikos durch die Agenten mehr zu verbessern als ihr tatsächliches Verhalten: Die Agenten wurden besser darin, verdächtige Webseiten zu erkennen und Warnsignale zu beschreiben, aber diese Erkennung stoppte sie nicht immer daran, mit der Transaktion fortzufahren.

Erkennung-Handlungs-Lücke bei vier fortschrittlichen KI-Agenten. Die linke Seite vergleicht die kritischen Informationslecks bei Agenten, die eine Website explizit als verdächtig identifizierten, und solchen, die dies nicht taten, und zeigt, dass selbst unter der stärksten Schutzbedingung (C3) mehr als ein Drittel der Agenten, die einen wahrscheinlichen Betrug erkannten, dennoch sensible Daten übermittelten. Die rechte Seite zeigt dieselbe Lücke bei GPT-5 mini, Claude Haiku 4.5, Gemini 3 Flash und Llama 4 Scout, was verdeutlicht, dass das Bewusstsein für eine Bedrohung nicht zuverlässig in defensives Verhalten umgesetzt wurde.
In einer separaten Bewertung konnten 16 Rezensenten SCAMMER4U-Seiten nicht von echten Phishing-Seiten unterscheiden und erzielten keine besseren Ergebnisse als der Zufall. Laut der Studie zeigt dies, dass der Benchmark viele der visuellen und prozeduralen Hinweise erfasst, die in realen Online-Betrügereien vorkommen.
Schlussfolgerung
Die getesteten Modelle – die die Logikarchitekturen über bekannte LLM-Familien hinweg repräsentieren – scheinen ein inhärentes Problem zu haben, sich aus erkannten gefährlichen Situationen zurückzuziehen oder ihre eigene Verpflichtung zur Fortsetzung zu mäßigen. Logik legt nahe, dass dies mit der allgemeinen Schwierigkeit zusammenhängen könnte, die fortschrittliche Sprachmodelle bekanntermaßen in Bezug auf das Einräumen einer Niederlage in einer Angelegenheit zeigen – eine entscheidende Überlebensfähigkeit, die derzeit offensichtlich nur von außen durch Systemprompts, sekundäre Systeme und Ausgangsbeschränkungen aufgezwungen werden kann.
Wenn die beschriebene “Trennung” zwischen wahrgenommener Gefahr und der Verpflichtung, dennoch fortzufahren, tatsächlich inhärent zur LLM-Architektur ist und nicht nativ behoben werden kann, scheint die einzige Alternative darin zu bestehen, die Handlungen des Modells in kritischen Szenarien algorithmisch zu überwachen – was letztlich die Nützlichkeit eines Agenten auf eine mehr vorgeschriebene RPA-ähnliche Routine reduziert.
Erstveröffentlichung am Samstag, den 6. Juni 2026












