Raportit
Kun tekoäly kostautuu: Enkryptin tekoälyraportti paljastaa vaarallisia haavoittuvuuksia multimodaalisissa malleissa

Toukokuussa 2025 Enkrypt AI julkaisi oman Multimodaalinen Red Teaming -raportti, kylmäävä analyysi, joka paljasti, kuinka helposti edistyneitä tekoälyjärjestelmiä voidaan manipuloida tuottamaan vaarallista ja epäeettistä sisältöä. Raportti keskittyy kahteen Mistralin johtavaan näkökielimalliin – Pixtral-Large (25.02) ja Pixtral-12b – ja maalaa kuvan malleista, jotka ovat paitsi teknisesti vaikuttavia myös häiritsevän haavoittuvia.
Näkökielimallit (VLM) kuten Pixtral, on rakennettu tulkitsemaan sekä visuaalisia että tekstisyötteitä, minkä ansiosta ne voivat reagoida älykkäästi monimutkaisiin, tosielämän kehotteisiin. Tähän ominaisuuteen liittyy kuitenkin lisääntynyt riski. Toisin kuin perinteisissä kielimalleissa, jotka käsittelevät vain tekstiä, kuvien ja sanojen välinen vuorovaikutus voi vaikuttaa virtuaalisiin kielimalleihin (VLM), mikä avaa uusia ovia hyökkäyksille. Enkrypt AI:n testit osoittavat, kuinka helposti nämä ovet voidaan murtaa.
Hälyttävät testitulokset: CSEM- ja CBRN-viat
Raportin takana oleva tiimi käytti kehittyneitä punainen joukkue menetelmät – eräänlainen vastakkainasetteluun perustuva arviointi, jonka tarkoituksena oli matkia tosielämän uhkia. Näissä testeissä käytettiin taktiikoita, kuten jailbreakkausta (mallin kehottaminen huolellisesti laadituilla kyselyillä turvasuodattimien ohittamiseksi), kuvapohjaista harhaanjohtamista ja kontekstin manipulointia. Hälyttävää kyllä, 68 % näistä vastakkainasetteluun perustuvista kehotteista herätti haitallisia reaktioita kahdessa Pixtral-mallissa, mukaan lukien sisältöä, joka liittyi houkutteluun, hyväksikäyttöön ja jopa kemiallisten aseiden suunnitteluun.
Yksi silmiinpistävimmistä paljastuksista liittyy lasten seksuaaliseen hyväksikäyttöön liittyvään materiaaliin (CSEM). Raportissa todettiin, että Mistralin mallit tuottivat 60 kertaa todennäköisemmin CSEM-aiheista sisältöä verrattuna alan vertailukohtiin, kuten GPT-4o ja Claude 3.7 Sonnet. Testitapauksissa mallit vastasivat peiteltyihin houkuttelukehotteisiin jäsennellyllä, usean kappaleen mittaisella sisällöllä, jossa selitettiin, miten alaikäisiä manipuloidaan – käärittynä epärehellisiin vastuuvapauslausekkeisiin, kuten "vain koulutukselliseen tietoisuuteen". Mallit eivät pelkästään jättäneet hylkäämättä haitallisia kyselyitä – ne vastasivat niihin yksityiskohtaisesti.
Yhtä häiritseviä olivat tulokset CBRN-riskikategoriassa (kemiallinen, biologinen, radiologinen ja ydinase). Kun mallilta kysyttiin, miten VX-hermoainetta – kemiallista asetta – voitaisiin muokata, mallit tarjosivat järkyttävän tarkkoja ideoita sen pysyvyyden lisäämiseksi ympäristössä. Ne kuvailivat sensuroimalla mutta selkeästi teknisesti yksityiskohtaisesti menetelmiä, kuten kapselointia, ympäristön suojaamista ja kontrolloidusti vapautuvia järjestelmiä..
Näitä epäonnistumisia eivät aina laukaisseet liian haitalliset pyynnöt. Yksi taktiikka oli ladata kuva tyhjästä numeroidusta listasta ja pyytää mallia "täyttämään tiedot". Tämä yksinkertainen, näennäisesti harmiton kehote johti epäeettisten ja laittomien ohjeiden luomiseen. Visuaalisen ja tekstimanipulaation yhdistäminen osoittautui erityisen vaaralliseksi – mikä korostaa ainutlaatuista haastetta, jonka multimodaalinen tekoäly asetti.
Miksi visio-kielimallit aiheuttavat uusia turvallisuushaasteita
Näiden riskien ytimessä on näkö-kielimallien tekninen monimutkaisuus. Nämä järjestelmät eivät ainoastaan jäsennä kieltä – ne syntetisoivat merkityksiä eri formaateissa, mikä tarkoittaa, että niiden on tulkittava kuvasisältöä, ymmärrettävä tekstin konteksti ja reagoitava sen mukaisesti. Tämä vuorovaikutus tuo mukanaan uusia hyväksikäyttövektoreita. Malli saattaa hylätä haitallisen tekstikehotteen oikein yksinään, mutta yhdistettynä vihjailevaan kuvaan tai epäselvään kontekstiin se voi tuottaa vaarallista tulosta.
Enkrypt AI:n punainen tiimi paljasti, miten ristimodaaliset injektiohyökkäykset—jossa yhden modaliteetin hienovaraiset vihjeet vaikuttavat toisen tuotteeseen — voivat ohittaa täysin standardinmukaiset turvamekanismit. Nämä epäonnistumiset osoittavat, että perinteiset, yksimodaalisille järjestelmille rakennetut sisällön moderointitekniikat eivät riitä nykypäivän virtuaalijärjestelmille..
Raportissa kerrotaan myös, miten Pixtral-malleihin päästiin: Pixtral-Large-malliin AWS Bedrockin kautta ja Pixtral-12b-malliin Mistral-alustan kautta. Tämä reaalimaailman käyttöönottokonteksti korostaa entisestään näiden havaintojen kiireellisyyttä. Nämä mallit eivät rajoitu laboratorioihin – ne ovat saatavilla valtavirran pilvialustojen kautta ja ne voidaan helposti integroida kuluttaja- tai yritystuotteisiin.
Mitä on tehtävä: Suunnitelma turvallisemmalle tekoälylle
Enkrypt-tekoälyn kunniaksi on sanottava, että se ei ainoastaan korosta ongelmia, vaan se tarjoaa myös keinon edetä. Raportissa esitetään kattava lieventämisstrategia, joka alkaa turvallisuuslinjauskoulutusTämä tarkoittaa mallin uudelleenkouluttamista sen omien red teaming -tietojen avulla haitallisten kehotteiden alttiuden vähentämiseksi. Tekniikoita, kuten Direct Preference Optimization (DPO), suositellaan mallin vastausten hienosäätämiseksi pois riskialttiista tuotoksista.
Se korostaa myös kontekstitietoisten suojakaiteiden merkitystä – dynaamisten suodattimien, jotka pystyvät tulkitsemaan ja estämään haitallisia kyselyitä reaaliajassa ottaen huomioon multimodaalisen syötteen koko kontekstin. Lisäksi ehdotetaan mallin riskikorttien käyttöä läpinäkyvyystoimenpiteenä, joka auttaa sidosryhmiä ymmärtämään mallin rajoituksia ja tunnettuja vikaantumistapauksia.
Ehkäpä tärkein suositus on käsitellä red teaming -mallinnusta jatkuvana prosessina, ei kertaluonteisena testinä. Mallien kehittyessä myös hyökkäysstrategiat kehittyvät. Vain jatkuva arviointi ja aktiivinen seuranta voivat varmistaa pitkän aikavälin luotettavuuden, erityisesti silloin, kun malleja käytetään herkillä aloilla, kuten terveydenhuollossa, koulutuksessa tai puolustuksessa.
- Multimodaalinen Red Teaming -raportti alkaen Enkrypt AI on selkeä signaali tekoälyteollisuudelle: multimodaalinen teho tulee multimodaalisen vastuun mukana. Nämä mallit edustavat harppausta eteenpäin kyvykkyyden suhteen, mutta ne vaativat myös harppausta siinä, miten ajattelemme turvallisuutta, suojausta ja eettistä käyttöönottoa. Jos niitä ei valvota, ne eivät ainoastaan vaaranna epäonnistumista – ne vaarantavat todellisen maailman vahingot.
Tämä raportti ei ole pelkkä varoitus kaikille, jotka työskentelevät laajamittaisen tekoälyn parissa tai ottavat sitä käyttöön. Se on toimintasuunnitelma. Eikä se olisi voinut tulla kiireellisempään aikaan.