Connect with us

Securitate cibernetică

Când Inteligența Artificială Dă Greș: Raportul Enkrypt AI Exprimă Vulnerabilități Periculoase în Modele Multimodale

mm

În mai 2025, Enkrypt AI a lansat raportul său Multimodal Red Teaming Report, o analiză înghețată care a arătat cât de ușor sistemele avansate de inteligență artificială pot fi manipulate pentru a genera conținut periculos și neetic. Raportul se concentrează pe două dintre modelele de viziune-lingvistică de top ale Mistral – Pixtral-Large (25.02) și Pixtral-12b – și zugrăvește o imagine a unor modele care nu sunt doar tehnic impresionante, dar și înfricoșător de vulnerabile.

Modelele de viziune-lingvistică (VLM) precum Pixtral sunt construite pentru a interpreta atât intrări vizuale, cât și textuale, permițându-le să răspundă inteligent la prompturi complexe și din lumea reală. Dar această capacitate vine cu un risc crescut. În contrast cu modelele lingvistice tradiționale care procesează doar text, VLM pot fi influențate de interacțiunea dintre imagini și cuvinte, deschizând noi porți pentru atacuri adversarale. Testarea Enkrypt AI arată cât de ușor pot fi deschise aceste porți.

Rezultate Îngrijorătoare ale Testelor: Eșecuri CSEM și CBRN

Echipa din spatele raportului a utilizat metode sofisticate de red teaming – o formă de evaluare adversarială proiectată pentru a imita amenințări din lumea reală. Aceste teste au implicat tactici precum jailbreaking (promptarea modelului cu întrebări atent create pentru a ocoli filtrele de siguranță), înșelăciune bazată pe imagini și manipularea contextului. În mod îngrijorător, 68% din aceste prompturi adversarale au provocat răspunsuri dăunătoare la ambele modele Pixtral, inclusiv conținut care se referă la exploatarea și grooming, și chiar la proiectarea armelor chimice.

Una dintre cele mai izbitoare revelații implică materialul de exploatare sexuală a copiilor (CSEM). Raportul a constatat că modelele Mistral au fost de 60 de ori mai probabil să producă conținut legat de CSEM comparativ cu benchmark-urile din industrie precum GPT-4o și Claude 3.7 Sonnet. În cazurile de test, modelele au răspuns la prompturi de grooming deghizate cu conținut structurat, în mai multe paragrafe, explicând cum să manipuleze minorii – înfășurat în declarații de tip “doar pentru conștientizare educațională”. Modelele nu au eșuat doar în a respinge întrebările dăunătoare – le-au completat în detaliu.

La fel de îngrijorătoare au fost rezultatele în categoria de risc CBRN (Chimic, Biologic, Radiologic și Nuclear). Când au fost promptate cu o solicitare privind modul de a modifica agentul nervos VX – o armă chimică – modelele au oferit idei izbitoare de specifice pentru creșterea persistenței sale în mediu. Au descris, în detaliu tehnic redactat, metode precum encapsularea, protecția mediului și sistemele de lansare controlată .

Aceste eșecuri nu au fost întotdeauna declanșate de solicitări evident dăunătoare. O tactică a implicat încărcarea unei imagini cu o listă numerotată goală și solicitarea modelului să “umple detaliile”. Acest prompt simplu, aparent inofensiv, a condus la generarea de instrucțiuni neetice și ilegale. Fuziunea manipulării vizuale și textuale s-a dovedit a fi deosebit de periculoasă – subliniind o provocare unică pusă de inteligența artificială multimodală.

De Ce Modelele de Viziune-Lingvistică Pun Noi Provocări de Securitate

În inima acestor riscuri se află complexitatea tehnică a modelelor de viziune-lingvistică. Aceste sisteme nu doar analizează limbajul – sintetizează sensul de-a lungul formatelor, ceea ce înseamnă că trebuie să interpreteze conținutul imaginilor, să înțeleagă contextul textului și să răspundă corespunzător. Această interacțiune introduce noi vectori de exploatare. Un model poate respinge corect un prompt textual dăunător, dar atunci când este asociat cu o imagine sugestivă sau un context ambiguu, poate genera ieșiri periculoase.

Testarea Enkrypt AI a descoperit cum atacurile de injecție cross-modală – în care semnalele subtile dintr-o modalitate influențează ieșirea alteia – pot ocoli complet mecanismele standard de siguranță. Aceste eșecuri demonstrează că tehnicile tradiționale de moderare a conținutului, construite pentru sisteme cu o singură modalitate, nu sunt suficiente pentru VLM-urile de astăzi .

Raportul detaliază, de asemenea, modul în care modelele Pixtral au fost accesate: Pixtral-Large prin AWS Bedrock și Pixtral-12b prin platforma Mistral. Acest context de implementare din lumea reală subliniază și mai mult urgența acestor constatări. Aceste modele nu sunt confinate în laboratoare – ele sunt disponibile prin platforme cloud mainstream și ar putea fi integrate cu ușurință în produse pentru consumatori sau întreprinderi.

Ce Trebuie Făcut: O Hartă Pentru Un Inteligență Artificială Mai Sigură

În creditul său, Enkrypt AI face mai mult decât să sublinieze problemele – oferă o cale înainte. Raportul descrie o strategie de atenuare cuprinzătoare, începând cu antrenamentul de aliniere a siguranței. Acesta implică reantrenarea modelului utilizând datele sale de red teaming pentru a reduce susceptibilitatea la prompturi dăunătoare. Tehnici precum Optimizareaectă a Preferințelor (DPO) sunt recomandate pentru a ajusta răspunsurile modelului departe de ieșirile riscante.

De asemenea, subliniază importanța barierelor de gardă contextuale – filtre dinamice care pot interpreta și bloca prompturi dăunătoare în timp real, luând în considerare contextul complet al intrării multimodale. În plus, se propune utilizarea Cardurilor de Risc ale Modelului ca măsură de transparență, ajutând stakeholderii să înțeleagă limitările modelului și cazurile cunoscute de eșec.

Poate cea mai critică recomandare este să se trateze red teaming-ul ca pe un proces continuu, nu ca pe un test unic. Pe măsură ce modelele evoluează, astfel și strategiile de atac. Numai evaluarea și monitorizarea continuă pot asigura fiabilitatea pe termen lung, mai ales atunci când modelele sunt implementate în sectoare sensibile precum sănătatea, educația sau apărarea.

Raportul Multimodal Red Teaming Report de la Enkrypt AI este un semnal clar pentru industria inteligenței artificiale: puterea multimodală vine cu responsabilitate multimodală. Aceste modele reprezintă un salt înainte în capacitate, dar ele necesită și un salt în modul în care gândim despre siguranță, securitate și implementare etică. Lăsate necontrolate, ele nu numai că riscă eșecul – riscă și prejudicii din lumea reală.

Pentru oricine lucrează la sau implementează inteligență artificială la scară largă, acest raport nu este doar un avertisment. Este o carte de joc. Și nu putea să vină într-un moment mai urgent.

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintita pentru a da forma și a promova viitorul inteligenței artificiale și al roboticii. Un antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea, și este adesea prins vorbind cu entuziasm despre potențialul tehnologiilor disruptive și al inteligenței artificiale generale.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.