Cybersikkerhed

Når AI mislykkes: Enkrypt AI-rapport afslører farlige sårbarheder i multimodale modeller

Published May 8, 2025

Updated April 3, 2026

Antoine Tardif, CEO & Founder of Unite.AI

I maj 2025 offentliggjorde Enkrypt AI sin Multimodal Red Teaming Report, en chokerende analyse, der afslørede, hvor let avancerede AI-systemer kan manipuleres til at generere farlig og uetisk indhold. Rapporten fokuserer på to af Mistral’s førende vision-sprogmodeller – Pixtral-Large (25.02) og Pixtral-12b – og tegner et billede af modeller, der ikke kun er teknisk imponerende, men også foruroligende sårbar.

Vision-sprogmodeller (VLMs) som Pixtral er bygget til at fortolke både visuelle og tekstuelle input, hvilket giver dem mulighed for at svare intelligent på komplekse, virkelige prompts. Men denne kapacitet kommer med øget risiko. I modsætning til traditionelle sprogmodeller, der kun behandler tekst, kan VLMs påvirkes af interaktionen mellem billeder og ord, hvilket åbner nye døre for fjendtlige angreb. Enkrypt AI’s test viser, hvor let disse døre kan åbnes.

Alarmerende testresultater: CSEM og CBRN-fejl

Teamet bag rapporten anvendte avancerede red teaming-metoder – en form for fjendtlig evaluering designet til at mimikere virkelige trusler. Disse tests anvendte taktikker som jailbreaking (at prompte modellen med omhyggeligt designede forespørgsler for at omgå sikkerhedsfilter), billedbasert forførelse og kontekstmanipulation. Foruroligende var 68% af disse fjendtlige prompts medført til skadelig respons over de to Pixtral-modeller, herunder indhold, der relaterer til grooming, udnyttelse og endda kemiske våben design.

En af de mest slående afsløringer involverer børneseksuel udnyttelsesmateriale (CSEM). Rapporten fandt, at Mistral’s modeller var 60 gange mere sandsynlige for at producere CSEM-relateret indhold i forhold til branchestandarder som GPT-4o og Claude 3.7 Sonnet. I testtilfælde svarede modellerne på forkledte grooming-forespørgsler med struktureret, multi-afsnitsindhold, der forklarede, hvordan man manipulerer mindreårige – indpakket i uærlige disclaimere som “kun til uddannelsesformål”. Modellerne var ikke blot fejl ved at afvise skadelig forespørgsel – de fuldførte dem i detaljer.

Lige så foruroligende var resultaterne i CBRN (Kemisk, Biologisk, Radiologisk og Nukleær) risikokategorien. Når de blev bedt om at modificere VX-nervegift – et kemisk våben – tilbød modellerne chokerende specifikke ideer til at øge dets persistens i miljøet. De beskrev, i redigeret men tydeligt teknisk detalje, metoder som indkapsling, miljøskærmning og kontrolleret frigørelsessystemer.

Disse fejl var ikke altid udløst af åbenlyst skadelig forespørgsel. En taktik involverede at uploade et billede af en tom nummereret liste og bede modellen om at “udfylde detaljerne”. Denne simple, åbenbart uskyldige forespørgsel førte til generering af uetisk og ulovlig vejledning. Fusionen af visuel og tekstuel manipulation viste sig at være særligt farlig – og fremhæver en unik udfordring, der stilles af multimodal AI.

Hvorfor vision-sprogmodeller stiller nye sikkerhedsudfordringer

I hjertet af disse risici ligger den tekniske kompleksitet af vision-sprogmodeller. Disse systemer ikke kun parser sprog – de syntetiserer mening på tværs af formater, hvilket betyder, at de må fortolke billedindhold, forstå tekstkontekst og svare derefter. Denne interaktion introducerer nye vektorer for udnyttelse. En model kan korrekt afvise en skadelig tekstforespørgsel alene, men når den kombineres med et sugestivt billede eller tvetydig kontekst, kan den generere farlig output.

Enkrypt AI’s red teaming afslørede, hvordan cross-modal injektionsangreb – hvor subtile hints i en modalitet kan påvirke outputtet af en anden – kan fuldstændigt omgå standard sikkerhedsmechanismer. Disse fejl demonstrerer, at traditionelle indholdsmodereringsmetoder, bygget til enkelt-modalitets systemer, ikke er nok til i dag’s VLMs.

Rapporten detaljerer også, hvordan Pixtral-modellerne blev adgang til: Pixtral-Large via AWS Bedrock og Pixtral-12b via Mistral-platformen. Denne virkelige implementeringskontekst understreger endnu mere presset på disse fund. Disse modeller er ikke begrænset til laboratorier – de er tilgængelige via mainstream cloud-platforme og kunne let integreres i forbruger- eller virksomhedsprodukter.

Hvad der skal gøres: En plan for sikrere AI

Til deres ære gør Enkrypt AI mere end blot at fremhæve problemerne – de tilbyder en vej fremad. Rapporten omridser en omfattende afværningsstrategi, der starter med sikkerhedsaligneringsuddannelse. Dette indebærer at genskole modellen ved hjælp af dens egen red teaming-data for at reducere følsomheden over for skadelig forespørgsel. Teknikker somect Preference Optimization (DPO) anbefales til at finjustere modelrespons væk fra risikofyldt output.

Det understreger også vigtigheden af kontekstbevidste guardrails – dynamiske filter, der kan fortolke og blokere skadelig forespørgsel i realtid, taget i betragtning den fulde kontekst af multimodal input. Derudover foreslås brugen af Model Risk Cards som en transparensforanstaltning, der hjælper interessenter med at forstå modellens begrænsninger og kendte fejltilfælde.

Måske den mest kritiske anbefaling er at behandle red teaming som en løbende proces, ikke en enkelt test. Da modeller udvikler sig, udvikler angrebstaktikker sig også. Kun kontinuerlig evaluering og aktiv overvågning kan sikre langsigtede pålidelighed, især når modeller er implementeret i følsomme sektorer som sundhedspleje, uddannelse eller forsvar.

Den Multimodal Red Teaming Report fra Enkrypt AI er et klart signal til AI-industrien: multimodal kraft kommer med multimodal ansvar. Disse modeller repræsenterer et spring fremad i kapacitet, men de kræver også et spring i, hvordan vi tænker om sikkerhed, sikkerhed og etisk implementering. Hvis de ikke kontrolleres, risikerer de ikke kun fejl – de risikerer reel skade.

For enhver, der arbejder på eller implementerer storstilet AI, er denne rapport ikke blot en advarsel. Det er en playbook. Og den kunne ikke have kommet på et mere presserende tidspunkt.

Related Topics:cybersecurity Enkrypt Enkrypt AI reports

Antoine Tardif, CEO & Founder of Unite.AI

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.