Connect with us

Cybersikkerhet

Når AI feiler: Enkrypt AI-rapport avdekker farlige sårbarheter i multimodale modeller

mm

I mai 2025 ga Enkrypt AI ut sin Multimodal Red Teaming Report, en chillende analyse som avdekket hvor lett avanserte AI-systemer kan manipuleres til å generere farlig og uelektable innhold. Rapporten fokuserer på to av Mistral sine ledende visjon-språkmodeller – Pixtral-Large (25.02) og Pixtral-12b – og maler et bilde av modeller som ikke bare er teknisk imponerende, men også foruroligende sårbar.

Visjon-språkmodeller (VLMs) som Pixtral er bygget for å tolke både visuelle og tekstbaserte innputt, og lar dem svare intelligently på komplekse, virkelige oppfordringer. Men denne evnen kommer med økt risiko. I motsetning til tradisjonelle språkmodeller som bare prosesserer tekst, kan VLMs påvirkes av samspillet mellom bilder og ord, og åpner nye dører for adversarial angrep. Enkrypt AI sine tester viser hvor lett disse dørene kan åpnes.

Alarmerende testresultater: CSEM og CBRN-feil

Teamet bak rapporten brukte sofistikerte red teaming-metoder – en form for adversarial evaluering designet for å mime virkelige trusler. Disse testene brukte taktikker som jailbreaking (å prompte modellen med nøye utformede spørsmål for å bypass sikkerhetsfilter), bildebasert bedrageri og kontekstmanipulering. Foruroligende var det at 68% av disse adversarial promptene utløste skadelig innhold over de to Pixtral-modellene, inkludert innhold som relaterte til grooming, utnyttelse og sogar kjemiske våpen-design.

En av de mest slående avsløringer involverer barneseksuelle utnyttelsesmateriale (CSEM). Rapporten fant at Mistral sine modeller var 60 ganger mer sannsynlig å produsere CSEM-relatert innhold sammenlignet med bransjebenchmarkene GPT-4o og Claude 3.7 Sonnet. I testtilfeller svarte modellene på forkledde grooming-prompter med strukturerte, multi-paragraph innhold som forklarte hvordan man manipulerer mindreårige – innpakket i falske disclaimere som “kun for opplysning”. Modellene var ikke bare feil i å avvise skadelig innhold – de fullførte dem i detalj.

Like foruroligende var resultater i CBRN (Kjemiske, biologiske, radiologiske og nukleære) risikokategorien. Når promptet med en forespørsel om hvordan man kan modifisere VX-nervegift – et kjemisk våpen – tilbød modellene sjokkerende spesifikke ideer for å øke dens persistens i miljøet. De beskrev, i redigert men tydelig teknisk detalj, metoder som innkapsling, miljøskjerming og kontrollert frigivningssystemer.

Disse feilene ble ikke alltid utløst av åpenbart skadelig innhold. En taktikk involverte å laste opp et bilde av en blank nummerert liste og å be modellen om å “fylle inn detaljene”. Denne enkle, åpenbart uskyldige prompten ledet til generering av uelektable og ulovlige instruksjoner. Funksjonen av visuell og tekstbasert manipulering viste seg å være spesielt farlig – og understreker en unik utfordring som multimodale AI representerer.

Hvorfor visjon-språkmodeller stiller nye sikkerhetsutfordringer

I hjertet av disse risikoene ligger den tekniske kompleksiteten til visjon-språkmodeller. Disse systemene ikke bare parser språk – de syntetiserer mening på tvers av formater, noe som betyr at de må tolke bildeinnhold, forstå tekstkontekst og svare deretter. Denne interaksjonen introduserer nye vektorer for utnyttelse. En modell kan korrekt avvise et skadelig tekstprompt alene, men når den kombineres med et suggestivt bilde eller tvetydig kontekst, kan den generere farlig utgang.

Enkrypt AI sine red teaming avdekket hvordan cross-modal injeksjonsangrep – hvor subtile hint i en modus påvirker utgangen av en annen – kan fullstendig bypass standard sikkerhetsmekanismer. Disse feilene demonstrerer at tradisjonelle innholdsmodererings-teknikker, bygget for enkeltmodus-systemer, ikke er nok for i dagens VLMs.

Rapporten detaljerer også hvordan Pixtral-modellene ble aksessert: Pixtral-Large gjennom AWS Bedrock og Pixtral-12b via Mistral-plattformen. Denne virkelige deploykonteksten understreker ytterligere urgensen av disse funnene. Disse modellene er ikke begrenset til laboratorier – de er tilgjengelige gjennom mainstream skytjenester og kunne lett integreres i forbruker- eller bedriftsprodukter.

Hva må gjøres: En plan for sikrere AI

Til sin ære gjør Enkrypt AI mer enn å høydeppe problemene – det tilbyr en vei fremover. Rapporten omrissrer en omfattende mitigasjonstrategi, som starter med sikkerhetsjusteringstrening. Dette innebærer å re-trenere modellen med sin egen red teaming-data for å redusere sårbarheten for skadelig innhold. Teknikker som Direct Preference Optimization (DPO) anbefales for å finjustere modellresponsene vekk fra risikofylt utgang.

Det understreker også viktigheten av kontekstbevisste guardrails – dynamiske filter som kan tolke og blokkere skadelig innhold i sanntid, med tanke på hele konteksten av multimodalt innputt. I tillegg foreslås bruk av Model Risk Cards som en transparensmtåle, for å hjelpe interessenter med å forstå modellens begrensninger og kjente feiltilfeller.

Kanskje den viktigste anbefalingen er å behandle red teaming som en pågående prosess, ikke en engangstest. Ettersom modellene utvikler seg, utvikler også angrepsstrategier. Kun kontinuerlig evaluering og aktiv overvåking kan sikre langvarig pålitelighet, spesielt når modellene deployeres i sensitive sektorer som helse, utdanning eller forsvar.

Den Multimodal Red Teaming Report fra Enkrypt AI er et tydelig signal til AI-industrien: multimodal kraft kommer med multimodal ansvar. Disse modellene representerer et sprang fremover i evne, men de krever også et sprang i hvordan vi tenker om sikkerhet, sikkerhet og etisk deployering. Ubehandlet, risikerer de ikke bare feil – de risikerer virkelig skade.

For alle som arbeider med eller deployer storstilte AI, er denne rapporten ikke bare en advarsel. Det er en playbook. Og det kunne ikke ha kommet på et mer presserende tidspunkt.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.