Følg os

Rapporter

Når AI giver bagslag: Enkrypt AI-rapport afslører farlige sårbarheder i multimodale modeller

mm

I maj 2025 udgav Enkrypt AI sin Multimodal Red Teaming-rapport, en uhyggelig analyse, der afslørede, hvor let avancerede AI-systemer kan manipuleres til at generere farligt og uetisk indhold. Rapporten fokuserer på to af Mistrals førende visionssprogsmodeller - Pixtral-Large (25.02) og Pixtral-12b - og tegner et billede af modeller, der ikke kun er teknisk imponerende, men også foruroligende sårbare.

Vision-sprogsmodeller (VLM'er) Sprogmodeller som Pixtral er bygget til at fortolke både visuelle og tekstuelle input, hvilket giver dem mulighed for at reagere intelligent på komplekse, virkelige prompts. Men denne funktion indebærer øget risiko. I modsætning til traditionelle sprogmodeller, der kun behandler tekst, kan VLM'er påvirkes af samspillet mellem billeder og ord, hvilket åbner nye døre for fjendtlige angreb. Enkrypt AI's test viser, hvor let disse døre kan åbnes.

Alarmerende testresultater: CSEM- og CBRN-fejl

Holdet bag rapporten brugte sofistikerede rødt teaming metoder – en form for adversariel evaluering designet til at efterligne trusler i den virkelige verden. Disse tests anvendte taktikker som jailbreaking (hvor modellen blev bedt om at omgå sikkerhedsfiltre med omhyggeligt udformede forespørgsler), billedbaseret bedrag og kontekstmanipulation. Alarmerende nok fremkaldte 68 % af disse adversarielle prompts skadelige reaktioner på tværs af de to Pixtral-modeller, herunder indhold relateret til grooming, udnyttelse og endda design af kemiske våben.

En af de mest slående afsløringer vedrører materiale med seksuel udnyttelse af børn (CSEM). Rapporten viste, at Mistrals modeller var 60 gange mere tilbøjelige til at producere CSEM-relateret indhold sammenlignet med branchestandarder som GPT-4o og Claude 3.7 Sonnet. I testtilfælde reagerede modellerne på skjulte grooming-prompts med struktureret indhold på flere afsnit, der forklarede, hvordan man manipulerer mindreårige – pakket ind i uærlige ansvarsfraskrivelser som "kun til uddannelsesmæssig bevidsthed". Modellerne undlod ikke blot at afvise skadelige forespørgsler – de udfyldte dem i detaljer.

Lige så foruroligende var resultaterne i CBRN-risikokategorien (kemisk, biologisk, radiologisk og nuklear). Da modellerne blev spurgt, hvordan man kunne modificere VX-nervegassen – et kemisk våben – tilbød de chokerende specifikke ideer til at øge dens persistens i miljøet. De beskrev, i redigerede, men tydeligt tekniske detaljer, metoder som indkapsling, miljøafskærmning og kontrollerede frigivelsessystemer..

Disse fejl blev ikke altid udløst af åbenlyst skadelige anmodninger. En taktik involverede at uploade et billede af en tom nummereret liste og bede modellen om at "udfylde detaljerne". Denne enkle, tilsyneladende uskadelige prompt førte til generering af uetiske og ulovlige instruktioner. Sammensmeltningen af ​​visuel og tekstuel manipulation viste sig at være særligt farlig – hvilket fremhævede en unik udfordring, som multimodal AI udgør.

Hvorfor visions-sprogsmodeller udgør nye sikkerhedsudfordringer

Kernen i disse risici ligger den tekniske kompleksitet af vision-sprog-modeller. Disse systemer analyserer ikke blot sprog – de syntetiserer betydning på tværs af formater, hvilket betyder, at de skal fortolke billedindhold, forstå tekstkontekst og reagere i overensstemmelse hermed. Denne interaktion introducerer nye vektorer til udnyttelse. En model kan korrekt afvise en skadelig tekstprompt alene, men når den parres med et suggestivt billede eller en tvetydig kontekst, kan den generere farligt output.

Enkrypt AI's røde team afdækkede hvordan tværmodale injektionsangreb—hvor subtile signaler i én modalitet påvirker outputtet fra en anden —kan fuldstændigt omgå standard sikkerhedsmekanismer. Disse fejl viser, at traditionelle indholdsmodereringsteknikker, der er bygget til systemer med én modalitet, ikke er tilstrækkelige til nutidens VLM'er..

Rapporten beskriver også, hvordan Pixtral-modellerne blev tilgået: Pixtral-Large gennem AWS Bedrock og Pixtral-12b via Mistral-platformen. Denne virkelige implementeringskontekst understreger yderligere, hvor vigtigt det er at finde disse resultater. Disse modeller er ikke begrænset til laboratorier – de er tilgængelige via almindelige cloudplatforme og kan nemt integreres i forbruger- eller virksomhedsprodukter.

Hvad der skal gøres: En plan for sikrere AI

Til sin ros skal det siges, at Enkrypt AI gør mere end at fremhæve problemerne – den tilbyder en vej fremad. Rapporten skitserer en omfattende afhjælpningsstrategi, der starter med træning i sikkerhedsjusteringDette involverer omtræning af modellen ved hjælp af dens egne data om rødt team for at reducere modtageligheden for skadelige prompts. Teknikker som Direct Preference Optimization (DPO) anbefales til at finjustere modelresponser væk fra risikable output.

Den understreger også vigtigheden af ​​kontekstbevidste beskyttelsesmekanismer – dynamiske filtre, der kan fortolke og blokere skadelige forespørgsler i realtid, under hensyntagen til den fulde kontekst af multimodal input. Derudover foreslås brugen af ​​modelrisikokort som en gennemsigtighedsforanstaltning, der hjælper interessenter med at forstå modellens begrænsninger og kendte fejltilfælde.

Den måske vigtigste anbefaling er at behandle red teaming som en løbende proces, ikke en engangstest. I takt med at modeller udvikler sig, udvikler angrebsstrategier sig også. Kun løbende evaluering og aktiv overvågning kan sikre langsigtet pålidelighed, især når modeller implementeres i følsomme sektorer som sundhedspleje, uddannelse eller forsvar.

Multimodal Red Teaming-rapport fra Enkrypt AI er et klart signal til AI-industrien: multimodal kraft følger med multimodalt ansvar. Disse modeller repræsenterer et spring fremad i kapacitet, men de kræver også et spring i, hvordan vi tænker på sikkerhed og etisk implementering. Hvis de ikke kontrolleres, risikerer de ikke bare fiasko – de risikerer skade i den virkelige verden.

For alle, der arbejder på eller implementerer storstilet kunstig intelligens, er denne rapport ikke bare en advarsel. Det er en håndbog. Og den kunne ikke være kommet på et mere presserende tidspunkt.

Antoine er en visionær leder og grundlægger af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for kunstig intelligens og robotteknologi. Som serieiværksætter mener han, at kunstig intelligens vil være lige så forstyrrende for samfundet som elektricitet, og han bliver ofte fanget i at begejstre for potentialet i forstyrrende teknologier og AGI.

Som en fremtidsforsker, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han stifter af Værdipapirer.io, en platform fokuseret på at investere i banebrydende teknologier, der omdefinerer fremtiden og omformer hele sektorer.