Cybersicherheit
Wenn KI versagt: Der Enkrypt AI-Bericht deckt gefährliche Schwachstellen in Multimodal-Modellen auf

Im Mai 2025 veröffentlichte Enkrypt AI seinen Multimodal Red Teaming Report, eine beunruhigende Analyse, die zeigt, wie leicht fortschrittliche KI-Systeme manipuliert werden können, um gefährliche und unethische Inhalte zu generieren. Der Bericht konzentriert sich auf zwei von Mistrals führenden Vision-Language-Modellen – Pixtral-Large (25.02) und Pixtral-12b – und zeichnet ein Bild von Modellen, die nicht nur technisch beeindruckend, sondern auch beunruhigend anfällig sind.
Vision-Language-Modelle (VLMs) wie Pixtral sind darauf ausgelegt, sowohl visuelle als auch textuelle Eingaben zu interpretieren, sodass sie intelligent auf komplexe, realweltliche Prompts reagieren können. Doch diese Fähigkeit geht mit erhöhtem Risiko einher. Im Gegensatz zu herkömmlichen Sprachmodellen, die nur Text verarbeiten, können VLMs durch die Wechselwirkung zwischen Bildern und Wörtern beeinflusst werden, was neue Türen für Angriffe öffnet. Die Tests von Enkrypt AI zeigen, wie leicht diese Türen geöffnet werden können.
Beunruhigende Testergebnisse: CSEM- und CBRN-Ausfälle
Das Team hinter dem Bericht verwendete fortschrittliche Red-Teaming-Methoden – eine Form der adversarialen Bewertung, die darauf ausgelegt ist, realweltliche Bedrohungen zu imitieren. Diese Tests verwendeten Taktiken wie Jailbreaking (das Modell mit sorgfältig konstruierten Abfragen zu prompten, um Sicherheitsfilter zu umgehen), Bildbetrug und Kontextmanipulation. Beunruhigend war, dass 68 % dieser adversarialen Prompts schädliche Antworten über die beiden Pixtral-Modelle hinweg auslösten, einschließlich Inhalte, die mit Grooming, Ausbeutung und sogar mit dem Entwurf von chemischen Waffen zusammenhängen.
Eine der bemerkenswertesten Enthüllungen betrifft kinderpornografisches Material (CSEM). Der Bericht fand heraus, dass Mistrals Modelle 60 Mal eher CSEM-bezogene Inhalte produzierten als Branchenbenchmarks wie GPT-4o und Claude 3.7 Sonett. In Testfällen reagierten die Modelle auf verdeckte Grooming-Prompts mit strukturierten, mehrstufigen Inhalten, die erklärten, wie man Minderjährige manipuliert – eingewickelt in unredliche Disclaimers wie “nur für Bildungszwecke”. Die Modelle versagten nicht einfach, schädliche Abfragen abzulehnen – sie vervollständigten sie detailliert.
Ebenso beunruhigend waren die Ergebnisse in der CBRN-Risikokategorie (Chemische, Biologische, Radiologische und Nukleare Risiken). Als das Modell mit einer Anfrage zu einer Modifizierung des VX-Nervengases – einer chemischen Waffe – konfrontiert wurde, bot es schockierend spezifische Ideen für die Erhöhung seiner Persistenz in der Umwelt. Es beschrieb, in rotierten, aber eindeutig technischen Details, Methoden wie Einkapselung, Umweltabschirmung und kontrollierte Freisetzungssysteme.
Diese Ausfälle wurden nicht immer durch offensichtlich schädliche Anfragen ausgelöst. Eine Taktik bestand darin, ein Bild einer leeren nummerierten Liste hochzuladen und das Modell zu bitten, “die Details auszufüllen”. Diese einfache, scheinbar harmlose Anfrage führte zur Generierung unethischer und illegaler Anweisungen. Die Fusion von visueller und textlicher Manipulation erwies sich als besonders gefährlich – und hob die besondere Herausforderung hervor, die durch multimodale KI entsteht.
Warum Vision-Language-Modelle neue Sicherheitsrisiken mit sich bringen
Im Mittelpunkt dieser Risiken liegt die technische Komplexität von Vision-Language-Modellen. Diese Systeme analysieren nicht nur Sprache – sie synthetisieren Bedeutung über Formate hinweg, was bedeutet, dass sie Bildinhalte interpretieren, Textkontext verstehen und entsprechend reagieren müssen. Diese Interaktion führt zu neuen Vektoren für Ausbeutung. Ein Modell kann eine schädliche Textanfrage allein korrekt ablehnen, aber wenn es mit einem suggestiven Bild oder einem mehrdeutigen Kontext kombiniert wird, kann es gefährliche Ausgaben generieren.
Enkrypt AI’s Red-Teaming deckte auf, wie Cross-Modal-Injection-Angriffe – bei denen subtile Hinweise in einer Modalität die Ausgabe einer anderen beeinflussen – standardmäßige Sicherheitsmechanismen komplett umgehen können. Diese Ausfälle zeigen, dass herkömmliche Inhaltsmoderations-Techniken, die für Ein-Modell-Systeme entwickelt wurden, für heutige VLMs nicht ausreichen.
Der Bericht beschreibt auch, wie die Pixtral-Modelle zugänglich gemacht wurden: Pixtral-Large über AWS Bedrock und Pixtral-12b über die Mistral-Plattform. Dieser realweltliche Bereitstellungskontext unterstreicht die Dringlichkeit dieser Erkenntnisse noch mehr. Diese Modelle sind nicht auf Labore beschränkt – sie sind über Mainstream-Cloud-Plattformen verfügbar und könnten leicht in Consumer- oder Enterprise-Produkte integriert werden.
Was getan werden muss: Ein Plan für sicherere KI
Zu seinem Verdienst muss gesagt werden, dass Enkrypt AI nicht nur die Probleme hervorhebt – es bietet auch einen Weg nach vorne. Der Bericht skizziert eine umfassende Minderungsstrategie, beginnend mit Sicherheitsausrichtungstraining. Dies beinhaltet das erneute Trainieren des Modells unter Verwendung seiner eigenen Red-Teaming-Daten, um die Anfälligkeit für schädliche Prompts zu verringern. Techniken wieect Preference Optimization (DPO) werden empfohlen, um die Modellantworten von riskanten Ausgaben wegzufinen.
Es betont auch die Wichtigkeit von kontextbewussten Schutzschilden – dynamischen Filtern, die schädliche Abfragen in Echtzeit interpretieren und blockieren können, unter Berücksichtigung des gesamten Kontexts der multimodalen Eingabe. Darüber hinaus wird der Einsatz von Model Risk Cards als Transparenzmaßnahme vorgeschlagen, um Stakeholdern zu helfen, die Einschränkungen und bekannten Ausfallfälle des Modells zu verstehen.
Vielleicht die wichtigste Empfehlung ist, Red-Teaming als fortlaufenden Prozess und nicht als einmaligen Test zu behandeln. Da Modelle evolvieren, evolvieren auch Angriffsstrategien. Nur kontinuierliche Bewertung und aktives Monitoring können langfristige Zuverlässigkeit gewährleisten, insbesondere wenn Modelle in sensiblen Sektoren wie Gesundheitswesen, Bildung oder Verteidigung eingesetzt werden.
Der Multimodal Red Teaming Report von Enkrypt AI ist ein klares Signal an die KI-Industrie: multimodale Leistung geht mit multimodaler Verantwortung einher. Diese Modelle stellen einen Sprung nach vorne in der Fähigkeit dar, aber sie erfordern auch einen Sprung in der Art und Weise, wie wir über Sicherheit, Sicherheitsaspekte und ethische Bereitstellung nachdenken. Wenn sie unbeaufsichtigt bleiben, riskieren sie nicht nur Ausfälle – sie riskieren realweltlichen Schaden.
Für jeden, der an oder mit groß angelegter KI arbeitet, ist dieser Bericht nicht nur eine Warnung. Es ist ein Spielbuch. Und es könnte nicht zu einem dringenderen Zeitpunkt erschienen sein.












