Vordenker

Wenn die Fähigkeiten von KI schneller ansteigen als die Sicherheitsmodelle, die entwickelt wurden, um sie zu kontrollieren

Published March 5, 2026

Updated April 1, 2026

Jon Baker, VP Threat-Informed Defense, AttackIQ

KI-Tools kommen normalerweise mit einem vertrauten Pitch. Sie versprechen, Workflows zu straffen, die Produktivität zu steigern und Aufgaben zu übernehmen, die niemand gerne ausführt. Und meistens halten sie genau das, was sie versprechen. Sie vereinfachen die Anmeldung, fassen Dokumente zusammen, automatisieren Workflows und machen Routineaktivitäten fast mühelos.

Aber unter all diesem Komfort steckt eine andere Geschichte. Diese Tools sind nicht mehr auf eine Textbox beschränkt. Sie beginnen, auf das Betriebssystem selbst zu wirken. Sie können Dateien durchsuchen, E-Mails verfassen, mit Anwendungen interagieren und Aktionen ausführen, die früher ein aufmerksamer Mensch erforderten, der die Konsequenzen verstand. Diese Veränderung bringt die KI in eine Position, die die bestehenden Sicherheitsannahmen nicht mehr bewältigen können.

Der Moment, wenn KI Systemzugriff erhält

Sobald ein KI-System reale Dateien lesen und reale Befehle ausführen kann, wird es Teil der vertrauenswürdigen Rechenbasis. Das ist der Moment, wenn langgehegte Erwartungen an die KI-Sicherheit zu brechen beginnen.

Jahrelang galt Prompt-Injection als eigenartiges Modellverhalten. Es verursachte, dass Chatbots irreführende oder unangemessene Antworten produzierten, aber der Schaden endete mit dem Gespräch. Jetzt kann dieselbe Schwachstelle Host-Level-Aktionen auslösen, nicht nur Text. Eine bösartige Anweisung, die in einer PDF-, Website- oder E-Mail-Datei versteckt ist, produziert nicht mehr eine seltsame Antwort, sondern eine Aktion, die auf dem Computer ausgeführt wird.

Dies ist nicht etwas, das die Branche als theoretisch abtun kann. Forscher an der Carnegie Mellon und der University of Washington haben wiederholt demonstriert, dass versteckte Anweisungen große Sprachmodelle dazu bringen können, Aktionen auszuführen, die die Benutzer nicht beabsichtigt haben. Währenddessen haben Forscher, die Vision-Modelle studieren, gezeigt, wie manipulierte Bilder die Wahrnehmung des Modells beeinflussen können, was das nachgelagerte Verhalten beeinflusst.

Diese Experimente wurden einst als Laborcuriositäten behandelt. Sie fühlen sich nicht mehr akademisch an, wenn die KI Zugriff auf das Betriebssystem hat.

Wenn die Fähigkeit des Agents die Kontrolle der Verteidiger überholt

Even die Unternehmen, die diese Agenten entwickeln, erkennen die Schwere der Herausforderung an. Sie haben Filter verstärkt, um Prompts zu bearbeiten, aber sie erklären offen, dass die Kontrolle der realen Aktionen eines KI-Systems ein aktives, ungelöstes Arbeitsgebiet in der gesamten Branche bleibt. Diese Lücke zwischen dem, was der Agent tun kann, und dem, was die Verteidiger kontrollieren können, führt zu einer neuen Kategorie von Risiken, die die bestehenden Sicherheitsplaybooks nicht absorbieren können.

KI-Agenten haben eine Grenze überschritten, auf die die Branche nicht vollständig vorbereitet ist. Der einzige Weg, dies zu verstehen, ist, zu sehen, wie Prompt-Injection jetzt mit den gleichen Angriffsketten zusammenhängt, die Verteidiger seit über einem Jahrzehnt verfolgen.

Wie Prompt-Injection jetzt auf die Angriffsketten abgebildet wird, die jeder kennt

Angreifer haben immer einem vorhersehbaren Muster gefolgt. Das MITRE ATT&CK-Framework legt die Stadien klar dar. Initialer Zugriff wird von Ausführung, Persistenz, Entdeckung, lateraler Bewegung, Sammlung und Exfiltration gefolgt. Die Techniken variieren, aber die Struktur ist stabil.

Was sich ändert, ist das Liefermechanismus. Anstatt einen Benutzer zu überzeugen, eine bösartige Anlage zu öffnen oder auf einen gefährlichen Link zu klicken, können Angreifer Anweisungen an Orten platzieren, an denen der KI-Agent sie lesen wird. Der Agent wird zur Ausführungsumgebung. Er führt die Schritte genau aus, wie beschrieben. Das Modell stellt nicht in Frage, ob die Anweisung schädlich ist. Es wendet kein Urteil oder keine Intuition an. Es handelt einfach.
Once ein Angreifer die Argumentation des Agents beeinflussen kann, kommt die Angriffskette schnell zusammen. Eine manipulierte Datei löst die Ausführung aus, Folgeanweisungen schaffen Persistenz, Systemsuchen liefern Entdeckung und Dateiuploads ermöglichen Sammlung und Exfiltration. Keine Malware ist erforderlich. Der Agent führt die Schritte einfach aus, wie sie geschrieben sind.

Dies ist der Teil der Geschichte, mit dem Sicherheitsteams Schwierigkeiten haben, sich anzupassen. Sie haben Jahre damit verbracht, Erkennungsregeln, Kontrollen und Reaktionsprozesse um Code-basierte Ausführung herum aufzubauen. KI-Agenten führen eine andere Art von Interpretern ein. Sie führen durch natürliche Sprache aus, nicht durch kompilierte Binaries. Bestehende Tools sind nicht darauf ausgelegt, diesen Denkprozess zu verfolgen oder zu analysieren.

Sicherheitsteams sind nicht bereit und wissen es nicht einmal

Sicherheitsprogramme gehen immer noch davon aus, dass ein Mensch zwischen Inhalt und Aktion sitzt. Menschen können getäuscht werden, aber sie zögern, wenn etwas falsch erscheint. Sie bemerken seltsame Phrasen, hinterfragen unerwartetes Verhalten und bringen Urteilskraft in die letzte Meile der Entscheidung.

KI-Agenten tun nichts dergleichen; sie sind konsequent, wörtlich und schneller als jeder Angreifer. Eine einzige Zeile versteckter Text ist ausreichend, um den Agenten anzuweisen, sensible Dateien zu lesen, durch Anwendungen zu navigieren oder einen Remote-Server zu kontaktieren. Dies bringt Verteidiger in eine Position, in der sie noch nie waren.

Sicherheitsteams haben begrenzte Sichtbarkeit in die Entscheidungsfindung des Agents und können nicht leicht bestimmen, ob eine Aktion vom Benutzer oder der KI stammt. Traditionelle Malware-Erkennung bietet keinen Hilfe, da nichts Bösartiges in herkömmlichem Sinne ausgeführt wird und es keine Garantie gibt, dass der Agent schädliche Anweisungen in normalen Inhalten in Frage stellt oder ablehnt.

Tools, die für menschliches Verhalten entwickelt wurden, übertragen sich einfach nicht auf eine Welt, in der natürliche Sprache zum Skript wird, das das Systemverhalten antreibt.

Was Compensating Controls Actually Work

Model-Härtung reicht nicht aus. Sicherheitsteams benötigen Kontrollen um den Agenten herum, die begrenzen, was die KI tun kann, auch wenn ihre Argumentation beeinflusst wird.

Related Topics:AI capability attackIQ cybersecurity security

Jon Baker, VP Threat-Informed Defense, AttackIQ

Jon Baker, VP Threat-Informed Defense at AttackIQ, bringt über 20 Jahre Erfahrung im Bereich der Innovationsführerschaft im Cyberschutz mit, mit dem Fokus darauf, die Sicherheit effizienter und effektiver im großen Maßstab zu machen. Er ist der ehemalige Direktor und Mitbegründer von MITREs Center for Threat-Informed Defense (CTID), wo er sophisticatede Sicherheitsteams vereinte, um den Stand der Technik und die Praxis der bedrohungsorientierten Verteidigung weltweit voranzutreiben. Vor der Gründung des CTID leitete Jon MITREs Abteilung für Cyber-Bedrohungsintelligence und Adversary-Emulation, wo er diese kritischen Fähigkeiten innerhalb von MITRE vorantrieb und die CALDERA- und MITRE ATT&CK®-Teams leitete. Jon leitete Teams bei der Entwicklung offener Standards, einschließlich STIX und TAXII für den Austausch von Bedrohungsintelligence, und war der Mitbegründer von OVAL, während er MITREs Sicherheitsautomatisierungsprogramm leitete.