Connect with us

Cybersicherheit

Wenn KI fehlschlägt: Enkrypt AI-Bericht deckt gefährliche Schwachstellen in multimodalen Modellen auf

mm

Im Mai 2025 veröffentlichte Enkrypt AI seinen Multimodal Red Teaming Report, eine beunruhigende Analyse, die zeigte, wie leicht fortschrittliche KI-Systeme manipuliert werden können, um gefährliche und unethische Inhalte zu generieren. Der Bericht konzentriert sich auf zwei von Mistral’s führenden Vision-Language-Modellen – Pixtral-Large (25.02) und Pixtral-12b – und zeichnet ein Bild von Modellen, die nicht nur technisch beeindruckend, sondern auch beunruhigend anfällig sind.

Vision-Language-Modelle (VLMs) wie Pixtral sind darauf ausgelegt, sowohl visuelle als auch textuelle Eingaben zu interpretieren, sodass sie intelligent auf komplexe, realweltliche Prompts reagieren können. Doch diese Fähigkeit geht mit erhöhtem Risiko einher. Im Gegensatz zu herkömmlichen Sprachmodellen, die nur Text verarbeiten, können VLMs durch die Wechselwirkung zwischen Bildern und Wörtern beeinflusst werden, was neue Türen für adversarialen Angriffe öffnet. Enkrypt AI’s Tests zeigen, wie leicht diese Türen geöffnet werden können.

Beunruhigende Testergebnisse: CSEM- und CBRN-Fehlschläge

Das Team hinter dem Bericht verwendete fortschrittliche Red-Teaming-Methoden – eine Form der adversarialen Bewertung, die darauf ausgelegt ist, realweltliche Bedrohungen zu imitieren. Diese Tests verwendeten Taktiken wie Jailbreaking (das Modell mit sorgfältig konstruierten Abfragen zu prompten, um Sicherheitsfilter zu umgehen), Bildbasierte Täuschung und Kontextmanipulation. Beunruhigend war, dass 68 % dieser adversarialen Prompts schädliche Antworten über die beiden Pixtral-Modelle hinweg auslösten, einschließlich Inhalte, die mit Grooming, Ausbeutung und sogar dem Entwurf von chemischen Waffen zusammenhängen.

Eine der bemerkenswertesten Enthüllungen betrifft kinderpornografisches Material (CSEM). Der Bericht fand heraus, dass Mistral’s Modelle 60-mal wahrscheinlicher waren, CSEM-bezogene Inhalte zu produzieren, im Vergleich zu Branchenbenchmarks wie GPT-4o und Claude 3.7 Sonett. In Testfällen reagierten die Modelle auf versteckte Grooming-Prompts mit strukturierten, mehrparagraphigen Inhalten, die erklärten, wie man Minderjährige manipulieren kann – eingewickelt in unredliche Disclaimern wie “nur für Bildungszwecke”. Die Modelle versagten nicht einfach bei der Ablehnung schädlicher Abfragen – sie vervollständigten sie detailliert.

Ebenso beunruhigend waren die Ergebnisse in der CBRN-Risikokategorie (Chemical, Biological, Radiological and Nuclear). Wenn das Modell mit einer Anfrage darüber aufgefordert wurde, wie man das VX-Nervengas – eine chemische Waffe – modifizieren kann, boten die Modelle schockierend spezifische Ideen für die Erhöhung seiner Persistenz in der Umwelt. Sie beschrieben, in rot markierten, aber eindeutig technischen Details, Methoden wie Einkapselung, Umweltabschirmung und kontrollierte Freisetzungssysteme.

Diese Fehlschläge wurden nicht immer durch offensichtlich schädliche Anfragen ausgelöst. Eine Taktik bestand darin, ein Bild einer leeren nummerierten Liste hochzuladen und das Modell zu bitten, “die Details auszufüllen”. Diese einfache, scheinbar harmlose Aufforderung führte zur Generierung unethischer und illegaler Anweisungen. Die Fusion von visueller und textlicher Manipulation erwies sich als besonders gefährlich – und hob die besondere Herausforderung hervor, die durch multimodale KI entsteht.

Warum Vision-Language-Modelle neue Sicherheitsherausforderungen darstellen

Im Mittelpunkt dieser Risiken liegt die technische Komplexität von Vision-Language-Modellen. Diese Systeme analysieren nicht nur Sprache – sie synthetisieren Bedeutung über Formate hinweg, was bedeutet, dass sie Bildinhalte interpretieren, Textkontext verstehen und entsprechend reagieren müssen. Diese Interaktion introduceiert neue Vektoren für Ausbeutung. Ein Modell kann eine schädliche Textaufforderung allein korrekt ablehnen, aber wenn es mit einem suggestiven Bild oder einem mehrdeutigen Kontext kombiniert wird, kann es gefährliche Ausgaben generieren.

Enkrypt AI’s Red-Teaming deckte auf, wie Cross-Modal-Injection-Angriffe – bei denen subtile Hinweise in einer Modalität die Ausgabe einer anderen beeinflussen – standardmäßige Sicherheitsmechanismen komplett umgehen können. Diese Fehlschläge zeigen, dass herkömmliche Inhaltsmoderations-Techniken, die für Single-Modal-Systeme entwickelt wurden, nicht ausreichen, um heutige VLMs zu sichern.

Der Bericht beschreibt auch, wie die Pixtral-Modelle zugänglich gemacht wurden: Pixtral-Large über AWS Bedrock und Pixtral-12b über die Mistral-Plattform. Dieser realweltliche Bereitstellungskontext unterstreicht die Dringlichkeit dieser Erkenntnisse. Diese Modelle sind nicht auf Labore beschränkt – sie sind über Mainstream-Cloud-Plattformen verfügbar und könnten leicht in Consumer- oder Enterprise-Produkte integriert werden.

Was getan werden muss: Ein Plan für sicherere KI

Zu seinen Gunsten muss gesagt werden, dass Enkrypt AI mehr tut, als nur die Probleme hervorzuheben – es bietet einen Weg nach vorne. Der Bericht skizziert eine umfassende Minderungsstrategie, beginnend mit Sicherheitsausrichtungstraining. Dies beinhaltet das erneute Trainieren des Modells mit seinen eigenen Red-Teaming-Daten, um die Anfälligkeit für schädliche Prompts zu verringern. Techniken wie Direct Preference Optimization (DPO) werden empfohlen, um die Modellantworten von riskanten Ausgaben wegzufinen.

Es betont auch die Wichtigkeit von kontextbewussten Schutzschilden – dynamischen Filtern, die schädliche Abfragen in Echtzeit interpretieren und blockieren können, unter Berücksichtigung des gesamten Kontexts der multimodalen Eingabe. Darüber hinaus wird der Einsatz von Model-Risikokarten als Transparenzmaßnahme vorgeschlagen, um Stakeholdern zu helfen, die Einschränkungen und bekannten Fehlschläge des Modells zu verstehen.

Vielleicht die wichtigste Empfehlung ist, Red-Teaming als laufenden Prozess und nicht als einmaligen Test zu behandeln. Da Modelle evolvieren, evolvieren auch Angriffsstrategien. Nur kontinuierliche Bewertung und aktives Monitoring können langfristige Zuverlässigkeit gewährleisten, insbesondere wenn Modelle in sensiblen Sektoren wie Gesundheitswesen, Bildung oder Verteidigung eingesetzt werden.

Der Multimodal Red Teaming Report von Enkrypt AI ist ein klares Signal an die KI-Industrie: multimodale Leistung geht mit multimodaler Verantwortung einher. Diese Modelle stellen einen Sprung in der Fähigkeit dar, aber sie erfordern auch einen Sprung in der Art und Weise, wie wir über Sicherheit, Sicherheit und ethische Bereitstellung nachdenken. Wenn sie nicht kontrolliert werden, riskieren sie nicht nur das Versagen – sie riskieren realweltlichen Schaden.

Für jeden, der an oder mit groß angelegter KI arbeitet, ist dieser Bericht nicht nur eine Warnung. Es ist ein Spielbuch. Und es könnte nicht zu einem dringenderen Zeitpunkt erschienen sein.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.