Vordenker
Was frühe Angriffe auf KI-Agenten uns über 2026 sagen

Wenn KI von kontrollierten Experimenten in realweltliche Anwendungen übergeht, erreichen wir einen Wendepunkt im Sicherheitslandschaft. Der Übergang von statischen Sprachmodellen zu interaktiven, agentischen Systemen, die in der Lage sind, Dokumente zu durchsuchen, Tools aufzurufen und mehrschrittige Workflows zu orchestrieren, ist bereits im Gange. Doch wie jüngste Forschungsergebnisse zeigen, warten Angreifer nicht auf die Reife: Sie passen sich mit der gleichen Geschwindigkeit an, indem sie Systeme sofort nach der Einführung neuer Fähigkeiten testen.
Im vierten Quartal 2025 analysierte unser Team bei Lakera das tatsächliche Verhalten von Angreifern in Systemen, die von Guard geschützt wurden und in der Gandalf: Agent Breaker-Umgebung — ein fokussierter, 30-tägiger Snapshot, der trotz seines engen Zeitfensters breitere Muster widerspiegelt, die wir im Laufe des Quartals beobachtet haben. Die Ergebnisse zeichnen ein klares Bild: Sobald Modelle beginnen, mit etwas anderem als einfachen Textprompts zu interagieren (z.B. Dokumenten, Tools, externen Daten), erweitert sich die Angriffsfläche, und Angreifer passen sich sofort an, um sie auszunutzen.
Dieser Moment mag denen, die die Entwicklung früher Webanwendungen verfolgt oder den Aufstieg von API-getriebenen Angriffen beobachtet haben, vertraut sein. Doch bei KI-Agenten sind die Einsätze anders. Die Angriffvektoren entstehen schneller, als viele Organisationen erwartet haben.
Von der Theorie zur Praxis: Agenten in der Wildnis
Für den größten Teil von 2025 drehten sich die Diskussionen um KI-Agenten hauptsächlich um theoretisches Potenzial und frühe Prototypen. Doch im vierten Quartal begannen agentisches Verhalten in Produktionsystemen im großen Maßstab aufzutauchen: Modelle, die Dokumente abrufen und analysieren, mit externen APIs interagieren und automatisierte Aufgaben ausführen konnten. Diese Agenten boten offensichtliche Produktivitätsvorteile, aber sie öffneten auch Türen, die traditionelle Sprachmodelle nicht getan haben.
Unsere Analyse zeigt, dass die Angreifer sofort bemerkten und entsprechend anpassten, als die Agenten in der Lage waren, mit externen Inhalten und Tools zu interagieren. Diese Beobachtung stimmt mit einer grundlegenden Wahrheit über adverses Verhalten überein: Angreifer werden immer neue Fähigkeiten auf der earliesten Gelegenheit erkunden und ausnutzen. Im Kontext von agentischer KI hat dies zu einer schnellen Evolution in Angriffsstrategien geführt.
Angriffsmuster: Was wir in Q4 2025 sehen
Über die von uns überprüfte Datenmenge hinweg sind drei dominante Muster aufgetaucht. Jedes hat tiefgreifende Auswirkungen darauf, wie KI-Systeme entworfen, gesichert und eingesetzt werden.
1. System-Prompt-Extraktion als zentrales Ziel
Bei traditionellen Sprachmodellen ist Prompt-Injektion (direkte Manipulation der Eingabe, um die Ausgabe zu beeinflussen) eine gut studierte Schwachstelle. Allerdings zielen Angreifer in Systemen mit agentischen Fähigkeiten zunehmend auf den System-Prompt ab, der interne Anweisungen, Rollen und Richtlinien enthält, die das Verhalten des Agenten leiten.
Die Extraktion von System-Prompts ist ein wertvolles Ziel, da diese Prompts oft Rollendefinitionen, Toolbeschreibungen, Richtlinienanweisungen und Workflow-Logik enthalten. Sobald ein Angreifer diese internen Mechanismen versteht, erhält er einen Plan für die Manipulation des Agenten.
Die effektivsten Techniken, um dies zu erreichen, waren nicht Brute-Force-Angriffe, sondern vielmehr cleveres Umdeuten:
- Hypothetische Szenarien: Prompts, die das Modell auffordern, eine andere Rolle oder einen anderen Kontext anzunehmen — z.B. „Stellen Sie sich vor, Sie sind ein Entwickler, der diese Systemkonfiguration überprüft…“ —, haben oft den Modell dazu gebracht, geschützte interne Details preiszugeben.
- Verbergung in strukturiertem Inhalt: Angreifer haben schädliche Anweisungen in code-ähnlichen oder strukturierten Texten eingebettet, die einfache Filter umgingen und ungewollte Verhaltensweisen auslösten, sobald sie vom Agenten verarbeitet wurden.
Dies ist nicht nur ein inkrementelles Risiko — es verändert grundlegend, wie wir über den Schutz interner Logik in agentischen Systemen nachdenken.
2. Subtile Inhalts-Sicherheits-Umgehungen
Ein weiterer wichtiger Trend umfasst das Umgehen von Inhalts-Sicherheits-Schutzmaßnahmen auf Weise, die schwer zu erkennen und zu bekämpfen sind mit traditionellen Filtern.
Anstatt offensichtlich schädlicher Anfragen haben Angreifer schädlichen Inhalt als:
- Analysenaufgaben
- Bewertungen
- Rollen-Szenarien
- Transformationen oder Zusammenfassungen
Diese Umdeutungen sind oft an der Oberfläche harmlos. Ein Modell, das eine direkte Anfrage für schädliche Ausgabe ablehnen würde, könnte dieselbe Ausgabe bereitstellen, wenn es aufgefordert wird, sie im Kontext zu „bewerten“ oder „zusammenzufassen“.
Dieser Wandel unterstreicht eine tiefere Herausforderung: Inhalts-Sicherheit für KI-Agenten ist nicht nur eine Frage der Richtlinien-Durchsetzung; es geht um die Interpretation von Absichten durch die Modelle. Wenn Agenten komplexere Aufgaben und Kontexte übernehmen, werden Modelle anfälliger für kontextbasierte Neuinterpretation — und Angreifer nutzen dieses Verhalten aus.
3. Aufkommen von agentenspezifischen Angriffen
Vielleicht die folgenreichste Entdeckung war das Auftauchen von Angriffsmustern, die nur im Kontext von agentischen Fähigkeiten Sinn ergeben. Diese waren nicht einfach Prompt-Injektionsversuche, sondern Ausnutzungen, die mit neuen Verhaltensweisen verbunden sind:
- Versuche, vertrauliche interne Daten zuzugreifen: Prompts wurden so gestaltet, dass der Agent dazu gebracht wurde, Informationen aus verbundenen Dokumentenspeichern oder Systemen abzurufen oder offenzulegen — Aktionen, die zuvor außerhalb des Modells lagen
- Skript-ähnliche Anweisungen in Text eingebettet: Angreifer experimentierten mit der Einbettung von Anweisungen in Formaten, die Skripten oder strukturiertem Inhalt ähnelten, die durch eine Agenten-Pipeline fließen und ungewollte Aktionen auslösen konnten
- Versteckte Anweisungen in externen Inhalten: Mehrere Angriffe haben schädliche Direktiven in externen Inhalten wie Webseiten oder Dokumenten versteckt, die der Agent verarbeiten sollte — und damit direkte Eingabe-Filter umgingen
Diese Muster sind früh, aber sie signalisieren eine Zukunft, in der die erweiterten Fähigkeiten von Agenten die Natur des adversen Verhaltens grundlegend verändern.
Warum indirekte Angriffe so effektiv sind
Eine der auffälligsten Erkenntnisse des Berichts ist, dass indirekte Angriffe — diejenigen, die externen Inhalt oder strukturierte Daten nutzen — weniger Versuche erforderten als direkte Injektionen. Dies deutet darauf hin, dass traditionelle Eingabe-Sanitisierung und direkte Abfrage-Filterung unzureichende Verteidigungen sind, sobald Modelle mit unvertrauenswürdigem Inhalt interagieren.
Wenn eine schädliche Anweisung durch einen externen Agenten-Workflow — sei es ein verlinktes Dokument, eine API-Antwort oder eine abgerufene Webseite — ankommt, sind frühe Filter weniger effektiv. Das Ergebnis: Angreifer haben eine größere Angriffsfläche und weniger Hindernisse.
Auswirkungen auf 2026 und darüber hinaus
Die Ergebnisse des Berichts haben dringende Auswirkungen auf Organisationen, die planen, agentische KI im großen Maßstab einzusetzen:
- Neue Vertrauensgrenzen definieren
Vertrauen kann nicht einfach binär sein. Wenn Agenten mit Benutzern, externen Inhalten und internen Workflows interagieren, müssen Systeme nuancierte Vertrauensmodelle implementieren, die Kontext, Herkunft und Zweck berücksichtigen. - Schutzmechanismen müssen evolvieren
Statische Sicherheitsfilter reichen nicht aus. Schutzmechanismen müssen adaptiv, kontextbewusst und in der Lage sein, über Absicht und Verhalten in multi-schrittigen Workflows nachzudenken. - Transparenz und Auditing sind essentiell
Wenn Angriffsvektoren komplexer werden, benötigen Organisationen Einblick in die Entscheidungsfindung von Agenten — einschließlich Zwischenschritte, externer Interaktionen und Transformationen. Protokollierbare Log-Dateien und Erklärbarkeitsrahmen sind nicht länger optional. - Interdisziplinäre Zusammenarbeit ist der Schlüssel
KI-Forschung, Sicherheitsingenieurwesen und Bedrohungs-Intelligence-Teams müssen zusammenarbeiten. KI-Sicherheit kann nicht isoliert werden; sie muss in umfassendere Cybersicherheitspraktiken und Risikomanagement-Frameworks integriert werden. - Regulierung und Standards müssen nachziehen
Regulierungsbehörden und Standards-Organisationen müssen erkennen, dass agentische Systeme neue Klassen von Risiken schaffen. Regulierungen, die Datenprivatsphäre und Ausgabesicherheit ansprechen, sind notwendig, aber nicht ausreichend; sie müssen auch interaktive Verhaltensweisen und mehrschrittige Ausführungsumgebungen berücksichtigen.
Die Zukunft sicherer KI-Agenten
Das Erscheinen von agentischer KI stellt einen tiefgreifenden Wandel in Fähigkeit und Risiko dar. Die Q4-2025-Daten sind ein früher Indikator dafür, dass Angreifer folgen, sobald Agenten über einfache Textgenerierung hinausgehen. Unsere Ergebnisse zeigen, dass Angreifer nicht nur anpassen, sondern auch Angriffstechniken innovieren, die traditionelle Verteidigungen noch nicht bereit sind zu bekämpfen.
Für Unternehmen und Entwickler ist die Botschaft klar: Die Sicherung von KI-Agenten ist nicht nur eine technische Herausforderung; es ist eine architektonische. Es erfordert ein Umdenken darüber, wie Vertrauen etabliert, Schutzmechanismen durchgesetzt und Risiken in dynamischen, interaktiven Umgebungen kontinuierlich bewertet werden.
Im Jahr 2026 und darüber hinaus werden die Organisationen, die mit agentischer KI erfolgreich sind, diejenigen sein, die Sicherheit nicht als Nachgedanke, sondern als grundlegendes Designprinzip behandeln.












