Vordenker

Warum Chatbot-Sicherheitsvorkehrungen die falsche Sicherheitsgrenze sind

Published March 18, 2026

Updated April 25, 2026

Mayank Kumar, Founding AI Engineer, DeepTempo

Enterprise-AI hat die Proof-of-Concept-Phase längst überwunden. 23% der Organisationen setzen bereits agente AI-Systeme irgendwo in ihrem Unternehmen ein, und 62% experimentieren zumindest mit AI-Agents. Diese sind keine Forschungsprojekte. Sie sind Produktionsbereitstellungen, die in Workflows eingebettet sind, die Code-Repositorys, Kundendaten, interne APIs und Betriebsinfrastruktur berühren.

Die Reaktion der Branche auf dieses Wachstum hat sich größtenteils auf das konzentriert, was passiert, bevor ein Agent live geht. Anbieter und Forscher haben Energie in prädeplloyment-Sicherheitsvorkehrungen investiert: Veröffentlichung von Skalierungspolitiken, Verstärkung von Grundmodellen, Filterung von Eingaben, Sicherung der AI-Lieferkette und Durchsetzung von Ausrichtung während der Trainingszeit. Große AI-Anbieter haben erhebliche Investitionen in Sicherheits-Tooling für Entwickler getätigt, wodurch eine zentrale Annahme verstärkt wird: Wenn das Modell und seine Eingaben kontrolliert werden, kann das Downstream-Risiko eingedämmt werden.

Es ist ein vernünftiger Instinkt, aber ein zunehmend unvollständiger.

Die Prompt ist keine Sicherheitsperimeter

Sicherheitsvorkehrungen, die am Modell-Interface operieren, nutzen vor allem Teams, die die Anwendungskode, die Modellkonfiguration und die zugrunde liegende Infrastruktur kontrollieren. Sie bieten weit weniger Schutz für Verteidiger, die mit der Aufgabe betraut sind, AI-Systeme zu sichern, die sie nicht gebaut haben und nicht modifizieren können. Das ist ein erheblicher Blindpunkt, und Angreifer haben ihn bereits gefunden.

OpenAIs latestes Bedrohungs-Intelligence-Bericht dokumentiert genau diese Dynamik. Angreifer missbrauchen ChatGPT und ähnliche Tools in Produktionsumgebungen aktiv, nicht indem sie neue Angriffstechniken erfinden, sondern indem sie AI in bestehende Workflows einbetten, um schneller zu handeln. Aufklärung wird effizienter. Soziale Manipulation skaliert. Malware-Entwicklung beschleunigt sich. Die Angriffsfläche hat sich nicht grundlegend geändert; die Geschwindigkeit und das Volumen der Ausbeutung haben sich jedoch verändert.

Noch aussagekräftiger ist, wie Angreifer reagierten, als diese Tools zurückdrängten. OpenAI beobachtete, dass Angreifer ihre Prompts schnell mutierten, um die zugrunde liegende Absicht zu bewahren, während sie Oberflächen-Variationen zyklisch durchliefen, um Frontend-Steuerungen zu umgehen. Dies ist ein Muster, das Sicherheitspraktiker bereits gesehen haben. Statische Verteidigungen, ob signature-basierte Antivirus- oder Eingabe-Filter, halten nicht gegen Angreifer, die schneller iterieren als Regeln aktualisiert werden können.

Die Herausforderung verschärft sich, wenn Agenten Autonomie gewinnen. Moderne AI-Agents operieren nicht in einem einzigen Austausch. Sie führen Multi-Step-Aktionssequenzen aus, indem sie legitime Tools und Berechtigungen in Weise aufrufen, die in Isolation völlig normal erscheinen. Ein Agent, der mit gültigen Anmeldeinformationen interne APIs auflistet, löst keine Warnung aus. Ein Agent, der auf sensible Datenbestände während eines scheinbar routinemäßigen Workflows zugreift, generiert keine sofortige Flagge. Jede einzelne Aktion wird überprüft; die Gefahr lebt in der Kombination und Sequenz.

Wenn die Bedrohung nach unten wandert

Sicherheitsteams, die AI-Deployments heute verteidigen, stehen vor einem strukturellen Missverhältnis. Die ihnen zur Verfügung stehenden Tools sind größtenteils darauf ausgelegt, über das nachzudenken, was ein Modell sagen darf. Das tatsächliche Risiko, das sie verwalten müssen, ist, was ein Agent über Systeme, Netzwerke und Identitäten hinweg tut, nachdem er Berechtigungen erhalten und in einer Produktionsumgebung losgelassen wurde.

Prompt-basierte Sicherheitsvorkehrungen teilen die grundlegenden Schwächen früherer regelbasierter Sicherheitsansätze. Sie sind spröde, weil sie darauf angewiesen sind, Angriffsmuster im Voraus vorherzusagen. Sie sind reaktiv, weil sie erfordern, dass jemand die Bedrohung beobachtet und kodifiziert hat, bevor die Verteidigung funktionieren kann. Und sie werden von Angreifern überholt, die AI-gestützte Iteration als Standardpraxis angenommen haben. Ein Verteidiger, der auf Eingabe-Filtering angewiesen ist, um einen Angreifer zu fangen, der ein Sprachmodell verwendet, um frische Prompt-Variationen zu generieren, ist in einer grundlegenden Verliererposition.

Die tatsächliche Exposition tritt nach der Bereitstellung auf. Agenten-getriebene Aktionen propagieren sich durch Umgebungen in Weise, die keine vorherige Testung vollständig vorhersagen kann. Agenten stoßen auf Randfälle, interagieren mit Datenquellen, die sie nicht bearbeiten sollten, erhalten Eingaben von Systemen außerhalb der ursprünglichen Architektur und treffen Entscheidungen, die sich über die Zeit hinweg summieren. Pre-Deployment-Testung ist ein Snapshot; Produktion ist ein kontinuierlicher Strom. Die Verteidigung nur des Snapshots bedeutet, dass alles, was im Strom passiert, effektiv unüberwacht ist.

Die Sicherheitsgrenze zu Agenten-Verhalten verschieben

Der Aufbau von AI-Resilienz erfordert einen anderen Rahmen, und das Ziel sollte nicht darin bestehen, die Modell-Schnittstelle zu schützen. Es sollte darin bestehen, Angreifer-Intent durch die beobachtbaren Konsequenzen von Agenten-Aktionen zu erkennen. Das ist ein bedeutender Unterschied. Intent wird nicht immer in dem, was ein Agent sagt oder was Eingaben er erhält, sichtbar.

Die Sicherung von AI-Systemen muss über Alignment-Checks und Robustness-Evaluierungen hinausgehen und kontinuierliche Bewertung davon umfassen, wie Agenten sich verhalten, wenn sie mit realen Tools, realen APIs und realen Daten interagieren. Statische Bewertung zur Bereitstellungszeit ist notwendig, aber unzureichend. Die Bedrohungs-Umgebung, in der ein Agent operiert, ändert sich ständig. Agenten-Verhalten muss mit der gleichen Kontinuität überwacht werden.

Dies ist ein Problem, das Prompt-Härtung nicht lösen kann. Das Erkennen von bösartigem Intent, wie es durch Aktionen entsteht, erfordert Modelle, die komplexes, sequenzielles Verhalten in Betriebsumgebungen verstehen können. Deep-Learning-Grundmodelle, die speziell für Verhaltensanalyse entwickelt wurden, können dies auf Weise tun, die regelbasierte Systeme und traditionelle SIEM-Tooling nicht können. Sie lernen, was normal aussieht, über den vollen Kontext von Agenten-Aktivität, und sie zeigen Abweichungen, die darauf hindeuten, dass sich etwas geändert hat, auch wenn keine einzelne Aktion eine herkömmliche Warnung auslösen würde.

Die zugrunde liegende Logik gilt unabhängig vom Bereitstellungskontext: Sicherheit, die an der Prompt-Ebene verankert ist, wird konsistent gegen Angreifer verlieren, die auf der Aktionsebene operieren. Die Verteidigung muss dorthin ziehen, wo die Bedrohung tatsächlich lebt.

Was Sicherheitsteams jetzt tun sollten

Für Sicherheitsführer, die versuchen, dies zu überwinden, können einige praktische Verschiebungen die Lücke zwischen den Verteidigungen schließen, wo sie derzeit stehen, und wo sie sein müssen.

Bewerten Sie AI-Sicherheit über den gesamten Anwendungsstapel. Das Grundmodell ist eine Ebene. Ebenso wichtig ist, wie Agenten sich verhalten, wenn sie in die Produktion bereitgestellt werden, welche Tools sie aufrufen, welche Berechtigungen sie verwenden und wie diese Entscheidungen über die Zeit hinweg evolvieren. Sicherheitsbewertungen, die an der Modell-Grenze stoppen, lassen die Betriebsfläche größtenteils ununtersucht.

Erzwingen Sie minimale Berechtigung auf Agentenebene. AI-Agents sollten nur Zugriff auf die Tools, APIs und Daten haben, die für ihre bestimmte Funktion notwendig sind. Diese Einschränkung ist wichtig, auch wenn die Ausgaben des Agents harmlos erscheinen. Die Einschränkung des Umfangs reduziert den Schadensradius eines kompromittierten Agents und schafft klarere Verhaltensbaselines, die Anomalie-Erkennung effektiver machen.

Behandeln Sie Agenten als Identitäten, die Telemetrie erzeugen. Jede Aktion, die ein Agent ausführt, ist ein Datenpunkt. Sicherheitsteams sollten Erkennungslogik um Agenten-initiierte Aktionen aufbauen, nicht nur um die Benutzer-Prompts, die ihnen vorausgehen. Diese Umdeutung verschiebt die Überwachung von dem, was jemand dem Agenten zu tun sagt, auf das, was der Agent tatsächlich tut, wo Angreifer-Intent sichtbar wird.

Investieren Sie in kontinuierliche Verhaltensüberwachung mit Erkennungsmodellen, die speziell für diese Aufgabe entwickelt wurden. Das Erkennen von bösartigem Intent, wie es durch Aktionen entsteht, erfordert spezielle Fähigkeiten. Konventionelle Überwachungstools wurden für menschlich generierte Aktivitätsmuster entwickelt. Agenten-Verhalten, mit seiner Geschwindigkeit, seinem Volumen und seiner Multi-Step-Struktur, erfordert Erkennungs-Infrastruktur, die von Grund auf für diesen Kontext entwickelt wurde.

Priorisieren Sie kollektive Verteidigung. AI-gestützte Angriffstechniken entwickeln sich schneller, als jedes einzelne Unternehmen sie verfolgen kann. Gemeinsame Forschung, offene Zusammenarbeit und Community-Bedrohungs-Intelligence sind nicht optional; sie sind Kern-Eingaben. Die Verteidiger, die auf dem Laufenden bleiben, sind diejenigen, die zu kollektivem Wissen beitragen und daraus schöpfen.

Verhaltenssicherheit liefert tatsächlich

Für Sicherheitsteams, die diese Verschiebung vornehmen, ist der operativer Gewinn konkreter. Das Verankern der Erkennung in Agenten-Verhalten anstelle von Modell-Ausgaben ermöglicht die frühere Identifizierung von bösartigem Intent, auch wenn Angriffe heimlich, adaptiv oder verschlüsselt sind. Angreifer, die erfolgreich ihre Prompts past Input-Filter mutieren, müssen dennoch handeln. Diese Aktionen hinterlassen Spuren. Verhaltens-Erkennung findet diese Spuren, bevor Schaden propagiert.

Vielleicht am bedeutendsten ist, dass dieser Ansatz Organisationen einen glaubwürdigen Weg bietet, AI-Agents im großen Maßstab bereitzustellen, ohne proportionales Sicherheitsrisiko zu akzeptieren. Die Frage, die viele Unternehmen zurückhält, ist nicht, ob AI-Agents Wert liefern können; es ist, ob sie mit ausreichender Sicherheit bereitgestellt werden können, dass die Sicherheitspostur nicht verschlechtert, wenn die Bereitstellung wächst. Verhaltenssicherheit, die auf dem tatsächlichen Betrieb von Agenten basiert und nicht auf den Eingaben, die sie erhalten, bietet diese Sicherheit auf Weise, die prompt-basierte Kontrollen strukturell nicht können.

Die Sicherheitsgrenze wurde an der falschen Stelle gezogen, und dieser Fehler machte Sinn, als AI ein Werkzeug war, das auf Eingaben wartete. Es wartet nicht mehr, Agente-Systeme handeln, ketten, eskalieren und summieren sich über Umgebungen hinweg, die keine vorherige Testung vorhersehen konnte. Organisationen, die dies am frühesten erkennen, werden diejenigen sein, die tatsächlich AI im großen Maßstab mit Zuversicht bereitstellen. Alle anderen werden in den nächsten Jahren, Bruch für Bruch, entdecken, dass die Kontrolle dessen, was ein Modell sagt, nie dasselbe war wie die Kontrolle dessen, was es tut.

Related Topics:chatbot chatbots DeepTempo

Mayank Kumar, Founding AI Engineer, DeepTempo

Mayank Kumar ist der Founding AI Engineer bei DeepTempo, wo er die Entwicklung und das Design des grundlegenden Log Language Model (LogLM) des Unternehmens leitet. Mit einem starken akademischen und Forschungshintergrund in generativer und multimodaler KI bringt er spezialisierte Expertise zur Erstellung von domänen-spezifischen Modellen, die die Bedrohungserkennung und -reaktion in Cybersicherheitsumgebungen verbessern.