Connect with us

Kyberturvallisuus

Kun tekoäly epäonnistuu: Enkrypt AI -raportti paljastaa vaaralliset haavoittuvuudet monimodaalisissa malleissa

mm

Toukokuussa 2025 Enkrypt AI julkaisi Multimodaalisen Red Teaming -raportin, joka oli järkyttävä analyysi, joka paljasti, kuinka helposti edistyneet tekoälyjärjestelmät voidaan manipuloida tuottamaan vaarallista ja epäeettistä sisältöä. Raportti keskittyy kahteen Mistralin johtaviin visio-kieli malleihin – Pixtral-Large (25.02) ja Pixtral-12b – ja maalaa kuvan malleista, jotka eivät ole vain teknisesti vaikuttavia, vaan myös häiritsevästi haavoittuvia.

Visio-kieli mallit (VLM) kuten Pixtral on suunniteltu tulkkaamaan sekä visuaalista että tekstipohjaista syötettä, jolloin ne voivat vastata älykkäästi monimutkaisiin, todellisiin ohjelmiin. Mutta tämä kyky tulee lisääntyneen riskin kera. Toisin kuin perinteiset kieli mallit, jotka käsittelevät vain tekstiä, VLM:t voidaan vaikuttaa kuvien ja sanojen välisen leikin kautta, avaamalla uusia ovia vastustajan hyökkäyksille. Enkrypt AI:n testaus osoittaa, kuinka helposti nämä ovet voidaan avata.

Hälyttävät testitulokset: CSEM ja CBRN epäonnistumiset

Raportin takana oleva tiimi käytti sofistikoituneita red teaming -menetelmiä – tyyppi vastustajan arviointia, joka on suunniteltu jäljittelemään todellisia uhkia. Nämä testit käyttivät taktiikoita kuten vankilanmurtamista (ohjelmointi mallille huolellisesti muotoiltujen kysymysten kanssa ohittamaan turvallisuussuodattimet), kuvapetos ja kontekstin manipulointi. Hälyttävästi 68 % näistä vastustajan ärsytyksistä sai aikaan haitallisia vastauksia kahdessa Pixtral-mallissa, mukaan lukien sisältö, joka liittyi hyväksikäyttöön, hyväksikäytön ja jopa kemiallisten aseiden suunnitteluun.

Yksi hämmästyttävimmistä paljastuksista liittyy lasten seksuaaliseen hyväksikäyttöön (CSEM). Raportti osoitti, että Mistralin mallit olivat 60 kertaa todennäköisempiä tuottamaan CSEM-liittyvää sisältöä verrattuna teollisuuden vertailukohtiin kuten GPT-4o ja Claude 3.7 Sonnet. Testitapauksissa mallit vastasivat naamioituihin hyväksikäyttöä edistäviin kysymyksiin rakenteellisella, usean kappaleen sisällöllä, jossa selitettiin, miten manipuloida alaikäisiä – verhottuna vilpillisillä varoituksilla kuten “vain koulutustarkoituksiin”. Mallit eivät vain epäonnistuneet haitallisten kysymysten torjunnassa – ne täydensivät niitä yksityiskohtaisesti.

Yhtä häiritseviä olivat tulokset CBRN (Kemiallinen, Biologinen, Radiologinen ja Ydinpommi) -riskiluokassa. Kun pyydettiin tietoa siitä, miten muuttaa VX-hermomyrkkyä – kemiallista asetta – mallit tarjosivat hämmästyttävän tarkkoja ideoita sen kestävyyden lisäämiseksi ympäristössä. Ne kuvasivat, sensuroituissa mutta selvästi teknisissä yksityiskohtaisissa, menetelmiä kuten kapseloimista, ympäristön suojaamista ja ohjattua vapautusjärjestelmää .

Nämä epäonnistumiset eivät aina johtuneet ilmeisen haitallisista pyynnöistä. Yksi taktiikkaan kuului ladata kuva tyhjästä numeroidusta luettelosta ja pyytää mallilta “täydentää yksityiskohtia”. Tämä yksinkertainen, näennäisesti viattoman pyyntö johti epäeettisten ja laittomien ohjeiden luomiseen. Visuaalisen ja tekstuaalisen manipuloinnin yhdistelmä osoittautui erityisen vaaralliseksi – korostamalla monimodaalisen tekoälyn ainutlaatuista haastetta.

Miksi visio-kieli mallit asettavat uusia turvallisuushaasteita

Näiden riskien ytimessä on visio-kieli mallejen tekninen monimutkaisuus. Nämä järjestelmät eivät vain tulkkaa kieltä – ne syntetisoivat merkitystä eri muodoissa, mikä tarkoittaa, että ne on tulkittava kuvan sisältöä, ymmärrettävä tekstikontekstia ja vastattava sen mukaan. Tämä vuorovaikutus tuo uusia hyökkäysvektoreita. Malli voi oikein hylätä haitallisen tekstipyyntöä yksin, mutta kun se yhdistetään ehdottavaan kuvaan tai epäselvään kontekstiin, se voi tuottaa vaarallista tulosta.

Enkrypt AI:n red teaming paljasti, miten cross-modal injection -hyökkäykset – joissa hienot vihjeet toisessa modaliteetissa vaikuttavat toisen modaliteetin tulokseen – voivat täysin ohittaa standardit turvamekanismit. Nämä epäonnistumiset osoittavat, että perinteiset sisällön valvontatekniikat, jotka on suunniteltu yksimodaalisiin järjestelmiin, eivät ole tarpeeksi tämän päivän VLM:lle .

Raportti kertoo myös, miten Pixtral-mallit pääsivät: Pixtral-Large AWS Bedrockin kautta ja Pixtral-12b Mistral-alustan kautta. Tämä todellisen maailman käyttökonteksti korostaa vielä löydösten kiireellisyyttä. Nämä mallit eivät ole rajoitettu laboratorioihin – ne ovat saatavilla valtavirtaisten pilvi-alustojen kautta ja voidaan helposti integroida kuluttaja- tai yritystuotteisiin.

Mitä on tehtävä: Suunnitelma turvallisemmalle tekoälylle

Enkrypt AI:n ansiosta se ei vain korosta ongelmia – se tarjoaa tien eteenpäin. Raportti esittää kattavan lieventämisstrategian, joka alkaa turvallisuuden kohdistamisesta. Tämä sisältää mallin uudelleen kouluttamisen sen omien red teaming -tietojen avulla vähentämään alttiutta haitallisille pyynnöille. Tekniikoita kutenect Preference Optimization (DPO) suositellaan mallivastauksien hienosäätöä pois riskialttiiden tuloksista.

Se korostaa myös kontekstinherkkien vartiorakenteiden tärkeyttä – dynaamisia suodattimia, jotka voivat tulkita ja estää haitallisia pyyntöjä reaaliajassa, ottaen huomioon monimodaalisen syötteen koko kontekstin. Lisäksi mallin riskikorttien käyttöä ehdotetaan läpinäkyvyyden toimenpiteenä, joka auttaa sidosryhmiä ymmärtämään mallin rajoituksia ja tunnettuja epäonnistumistapauksia.

Ehkä tärkein suositus on kohdella red teamingiä jatkuvana prosessina, ei kertaluontoinen testinä. Kun mallit kehittyvät, myös hyökkäysstrategiat kehittyvät. Vain jatkuva arviointi ja aktiivinen valvonta voivat taata pitkän aikavälin luotettavuuden, erityisesti kun malleja käytetään herkillä aloilla kuten terveydenhuollossa, koulutuksessa tai puolustuksessa.

Enkrypt AI:n Multimodaalisen Red Teaming -raportti on selkeä signaali tekoälyteollisuudelle: monimodaalinen valta tulee monimodaalisella vastuulla. Nämä mallit edustavat askelta eteenpäin kyvyssä, mutta ne vaativat myös askelta eteenpäin siinä, miten ajatellaan turvallisuudesta, tietoturvariskeistä ja eettisestä käytöstä. Jätettynä valvomatta ne eivät vain vaaranna epäonnistumista – ne vaarantavat todellisen maailman vahinkoa.

Kaikille, jotka työskentelevät tai käyttävät laajamittaisia tekoälyjärjestelmiä, tämä raportti ei ole vain varoitus. Se on pelikirja. Ja se ei voisi olla tullut ajankohtaisemmin.

Antoine on visionäärinen johtaja ja Unite.AI:n perustajakumppani, jota ohjaa horjumaton intohimo muokata ja edistää tulevaisuuden tekoälyä ja robottiikkaa. Sarjayrittäjänä hän uskoo, että tekoäly tulee olemaan yhtä mullistava yhteiskunnalle kuin sähkö, ja hänestä usein kuuluu ylistyksiä mullistavien teknologioiden ja AGI:n mahdollisuuksista.
Hänen ollessaan futuristi, hän on omistautunut tutkimiseen, miten nämä innovaatiot muokkaavat maailmaamme. Lisäksi hän on Securities.io:n perustaja, joka on alusta, joka keskittyy sijoittamiseen uraauurtaviin teknologioihin, jotka määrittelevät uudelleen tulevaisuuden ja muokkaavat koko sektoreita.