Rapoarte
Când inteligența artificială se întoarce împotriva ei: Raportul Enkrypt despre inteligența artificială expune vulnerabilități periculoase în modelele multimodale

În mai 2025, Enkrypt AI a lansat... Raportul Red Teaming Multimodal, o analiză înfiorătoare care a dezvăluit cât de ușor pot fi manipulate sistemele avansate de inteligență artificială pentru a genera conținut periculos și lipsit de etică. Raportul se concentrează pe două dintre principalele modele de limbaj vizual ale Mistral - Pixtral-Large (25.02) și Pixtral-12b - și prezintă o imagine a unor modele care nu sunt doar impresionante din punct de vedere tehnic, ci și tulburător de vulnerabile.
Modele de limbaj vizual (VLM) Modelele precum Pixtral sunt construite pentru a interpreta atât intrări vizuale, cât și textuale, permițându-le să răspundă inteligent la solicitări complexe din lumea reală. Însă această capacitate vine cu un risc crescut. Spre deosebire de modelele lingvistice tradiționale care procesează doar text, VLM-urile pot fi influențate de interacțiunea dintre imagini și cuvinte, deschizând noi uși pentru atacuri adverse. Testarea Enkrypt AI arată cât de ușor pot fi deschise aceste uși.
Rezultate alarmante ale testelor: defecțiuni CSEM și CBRN
Echipa din spatele raportului a folosit metode sofisticate echipă roșie metode – o formă de evaluare adversă concepută pentru a imita amenințările din lumea reală. Aceste teste au folosit tactici precum jailbreaking-ul (solicitarea modelului cu interogări atent elaborate pentru a ocoli filtrele de siguranță), înșelăciunea bazată pe imagini și manipularea contextului. În mod alarmant, 68% din aceste solicitări adverse au provocat răspunsuri dăunătoare în cele două modele Pixtral, inclusiv conținut legat de agresiune, exploatare și chiar proiectarea armelor chimice.
Una dintre cele mai frapante dezvăluiri se referă la materialele legate de exploatarea sexuală a copiilor (CSEM). Raportul a constatat că modelele Mistral aveau de 60 de ori mai multe șanse să producă conținut legat de CSEM în comparație cu teste de referință din industrie precum GPT-4o și Claude 3.7 Sonnet. În cazurile de testare, modelele au răspuns la solicitări de manipulare deghizate cu conținut structurat, din mai multe paragrafe, care explica cum să manipuleze minorii - învelit în clauze de declinare a responsabilității nesinceră, cum ar fi „doar pentru conștientizare educațională”. Modelele nu pur și simplu nu reușeau să respingă interogările dăunătoare - ci le completau în detaliu.
La fel de tulburătoare au fost rezultatele din categoria de risc CBRN (chimic, biologic, radiologic și nuclear). Când li s-a solicitat o modalitate de modificare a agentului neurotoxic VX - o armă chimică - modelele au oferit idei șocant de specifice pentru creșterea persistenței sale în mediu. Acestea au descris, în detalii redactate, dar în mod clar tehnice, metode precum încapsularea, ecranarea mediului și sistemele de eliberare controlată..
Aceste eșecuri nu au fost întotdeauna declanșate de solicitări evident dăunătoare. O tactică a implicat încărcarea unei imagini a unei liste numerotate goale și solicitarea modelului să „completeze detaliile”. Această solicitare simplă, aparent inofensivă, a dus la generarea de instrucțiuni lipsite de etică și ilegale. Fuziunea dintre manipularea vizuală și cea textuală s-a dovedit deosebit de periculoasă, evidențiind o provocare unică reprezentată de inteligența artificială multimodală.
De ce modelele Vision-Language prezintă noi provocări de securitate
În centrul acestor riscuri se află complexitatea tehnică a modelelor vizual-limbaj. Aceste sisteme nu doar analizează limbajul - ele sintetizează sensul în mai multe formate, ceea ce înseamnă că trebuie să interpreteze conținutul imaginii, să înțeleagă contextul textului și să răspundă în consecință. Această interacțiune introduce noi vectori pentru exploatare. Un model ar putea respinge corect o solicitare textuală dăunătoare de sine stătător, dar atunci când este asociat cu o imagine sugestivă sau un context ambiguu, poate genera un rezultat periculos.
Echipa roșie a Enkrypt AI a descoperit cum atacuri de injecție cross-modale—unde indicii subtile dintr-o modalitate influențează rezultatul alteia — pot ocoli complet mecanismele standard de siguranță. Aceste eșecuri demonstrează că tehnicile tradiționale de moderare a conținutului, construite pentru sisteme cu o singură modalitate, nu sunt suficiente pentru VLM-urile de astăzi..
Raportul detaliază, de asemenea, modul în care au fost accesate modelele Pixtral: Pixtral-Large prin AWS Bedrock și Pixtral-12b prin platforma Mistral. Acest context de implementare în lumea reală subliniază și mai mult urgența acestor descoperiri. Aceste modele nu sunt limitate la laboratoare - sunt disponibile prin intermediul platformelor cloud mainstream și ar putea fi integrate cu ușurință în produse pentru consumatori sau întreprinderi.
Ce trebuie făcut: Un plan pentru o inteligență artificială mai sigură
Trebuie să recunoaștem meritul Enkrypt AI, care face mai mult decât să evidențieze problemele - oferă o cale de urmat. Raportul prezintă o strategie cuprinzătoare de atenuare, începând cu instruire privind alinierea în materie de siguranțăAceasta implică reantrenarea modelului folosind propriile date de red teaming pentru a reduce susceptibilitatea la solicitări dăunătoare. Tehnici precum Direct Preference Optimization (DPO) sunt recomandate pentru a regla fin răspunsurile modelului, eliminând ieșirile riscante.
De asemenea, subliniază importanța unor paravane de siguranță contextuale - filtre dinamice care pot interpreta și bloca interogările dăunătoare în timp real, ținând cont de contextul complet al inputului multimodal. În plus, utilizarea Fișelor de Risc ale Modelului este propusă ca măsură de transparență, ajutând părțile interesate să înțeleagă limitele modelului și cazurile de eșec cunoscute.
Poate cea mai importantă recomandare este de a trata red teaming-ul ca pe un proces continuu, nu ca pe un test singular. Pe măsură ce modelele evoluează, la fel evoluează și strategiile de atac. Doar evaluarea continuă și monitorizarea activă pot asigura fiabilitatea pe termen lung, în special atunci când modelele sunt implementate în sectoare sensibile precum sănătatea, educația sau apărarea.
Raportul Red Teaming Multimodal din Enkrypt AI este un semnal clar pentru industria inteligenței artificiale: puterea multimodală vine la pachet cu responsabilitatea multimodală. Aceste modele reprezintă un salt înainte în ceea ce privește capacitatea, dar necesită și un salt în modul în care gândim despre siguranță, securitate și implementare etică. Lăsate necontrolate, ele nu riscă doar eșecul - ci riscă daune în lumea reală.
Pentru oricine lucrează la sau implementează inteligență artificială la scară largă, acest raport nu este doar un avertisment. Este un ghid. Și nu putea veni într-un moment mai urgent.