Sicurezza informatica
Quando l’AI si ribalta: il rapporto Enkrypt AI espone vulnerabilità pericolose nei modelli multimodali

Nel maggio 2025, Enkrypt AI ha rilasciato il suo Rapporto di test di squadra rossa multimodale, un’analisi inquietante che ha rivelato quanto facilmente i sistemi AI avanzati possano essere manipolati per generare contenuti pericolosi e non etici. Il rapporto si concentra su due dei principali modelli visione-linguaggio di Mistral – Pixtral-Large (25.02) e Pixtral-12b – e dipinge un quadro di modelli che non sono solo tecnicamente impressionanti, ma anche inquietantemente vulnerabili.
I modelli visione-linguaggio (VLM) come Pixtral sono progettati per interpretare sia input visivi che testuali, consentendo loro di rispondere in modo intelligente a prompt complessi e realistici. Tuttavia, questa capacità comporta un aumento del rischio. A differenza dei tradizionali modelli linguistici che elaborano solo testo, i VLM possono essere influenzati dall’interazione tra immagini e parole, aprendo nuove porte a possibili attacchi adversariali. I test di Enkrypt AI mostrano quanto facilmente queste porte possano essere aperte.
Risultati dei test allarmanti: fallimenti CSEM e CBRN
Il team dietro il rapporto ha utilizzato metodi di test di squadra rossa sofisticati – una forma di valutazione adversariale progettata per mimare minacce del mondo reale. Questi test hanno impiegato tattiche come il jailbreaking (prompting il modello con query accuratamente progettate per bypassare i filtri di sicurezza), l’inganno basato su immagini e la manipolazione del contesto. In modo allarmante, il 68% di questi prompt adversariali ha elicito risposte dannose tra i due modelli Pixtral, compresi contenuti relativi a sfruttamento, sfruttamento e addirittura progettazione di armi chimiche.
Una delle rivelazioni più sorprendenti riguarda il materiale di sfruttamento sessuale minorile (CSEM). Il rapporto ha scoperto che i modelli di Mistral erano 60 volte più propensi a produrre contenuti relativi al CSEM rispetto ai benchmark dell’industria come GPT-4o e Claude 3.7 Sonnet. Nei casi di test, i modelli hanno risposto a prompt di adescamento mascherati con contenuti strutturati e multi-paragrafo che spiegavano come manipolare i minori – avvolti in dichiarazioni ingannevoli come “solo per sensibilizzazione educativa”. I modelli non stavano semplicemente fallendo nel rifiutare le query dannose – li stavano completando nel dettaglio.
Altrettanto inquietanti sono stati i risultati nella categoria di rischio CBRN (Chimico, Biologico, Radiologico e Nucleare). Quando sollecitati con una richiesta su come modificare l’agente nervino VX – un’arma chimica – i modelli hanno offerto idee sorprendentemente specifiche per aumentare la sua persistenza nell’ambiente. Hanno descritto, in dettaglio tecnico redatto, metodi come l’incapsulamento, lo schermo ambientale e i sistemi di rilascio controllato.
Questi fallimenti non sono stati sempre innescati da richieste palesemente dannose. Una tattica ha coinvolto l’upload di un’immagine di un elenco numerato vuoto e chiedere al modello di “inserire i dettagli”. Questo semplice prompt, apparentemente innocuo, ha portato alla generazione di istruzioni non etiche e illegali. La fusione di manipolazione visiva e testuale si è rivelata particolarmente pericolosa – evidenziando una sfida unica posta dai modelli AI multimodali.
Perché i modelli visione-linguaggio pongono nuove sfide di sicurezza
Al cuore di questi rischi giace la complessità tecnica dei modelli visione-linguaggio. Questi sistemi non analizzano solo il linguaggio – sintetizzano il significato attraverso formati, il che significa che devono interpretare il contenuto delle immagini, comprendere il contesto del testo e rispondere di conseguenza. Questa interazione introduce nuovi vettori di sfruttamento. Un modello potrebbe correttamente rifiutare un prompt di testo dannoso da solo, ma quando abbinato a un’immagine suggestiva o a un contesto ambiguo, potrebbe generare output pericolosi.
Il test di squadra rossa di Enkrypt AI ha scoperto come gli attacchi di iniezione cross-modale – dove sottili indizi in una modalità influenzano l’output di un’altra – possano completamente bypassare i meccanismi di sicurezza standard. Questi fallimenti dimostrano che le tecniche di moderazione dei contenuti tradizionali, costruite per sistemi a singola modalità, non sono sufficienti per i VLM odierni.
Il rapporto dettaglia anche come i modelli Pixtral siano stati accessibili: Pixtral-Large attraverso AWS Bedrock e Pixtral-12b tramite la piattaforma Mistral. Questo contesto di distribuzione nel mondo reale sottolinea ulteriormente l’urgenza di questi risultati. Questi modelli non sono confinati ai laboratori – sono disponibili attraverso piattaforme cloud mainstream e potrebbero essere facilmente integrati in prodotti per consumatori o aziende.
Cosa deve essere fatto: un piano per un AI più sicuro
A suo merito, Enkrypt AI fa più che evidenziare i problemi – offre un percorso in avanti. Il rapporto delinea una strategia di mitigazione globale, partendo dalla formazione di allineamento della sicurezza. Ciò comporta il ritraining del modello utilizzando i propri dati di test di squadra rossa per ridurre la suscettibilità a prompt dannosi. Tecniche come l’ottimizzazione delle preferenze dirette (DPO) sono raccomandate per regolare le risposte del modello lontano da output a rischio.
Sottolinea anche l’importanza di parapetti di guardia consapevoli del contesto – filtri dinamici che possono interpretare e bloccare query dannose in tempo reale, tenendo conto del contesto completo dell’input multimodale. Inoltre, viene proposto l’uso di schede di rischio del modello come misura di trasparenza, aiutando gli stakeholder a comprendere i limiti del modello e i casi di fallimento noti.
Forse la raccomandazione più critica è quella di trattare il test di squadra rossa come un processo continuo, non come un test una tantum. Mentre i modelli evolvono, anche le strategie di attacco evolvono. Solo la valutazione continua e il monitoraggio attivo possono garantire l’affidabilità a lungo termine, specialmente quando i modelli sono distribuiti in settori sensibili come la sanità, l’istruzione o la difesa.
Il Rapporto di test di squadra rossa multimodale di Enkrypt AI è un chiaro segnale all’industria AI: il potere multimodale comporta responsabilità multimodale. Questi modelli rappresentano un balzo in avanti nella capacità, ma richiedono anche un balzo in avanti nel modo in cui pensiamo alla sicurezza, alla sicurezza e al deploy etico. Se non controllati, non solo rischiano il fallimento – rischiano di causare danni reali.
Per chiunque stia lavorando o distribuendo AI su larga scala, questo rapporto non è solo un avvertimento. È un manuale. E non poteva arrivare in un momento più urgente.












