Sicurezza informatica

Quando l’AI si ribalta: il rapporto Enkrypt AI espone vulnerabilità pericolose nei modelli multimodali

Published May 8, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nel maggio 2025, Enkrypt AI ha rilasciato il suo Rapporto di test di squadra rossa multimodale, un’analisi inquietante che ha rivelato quanto facilmente i sistemi AI avanzati possano essere manipolati per generare contenuti pericolosi e non etici. Il rapporto si concentra su due dei principali modelli visione-linguaggio di Mistral – Pixtral-Large (25.02) e Pixtral-12b – e dipinge un quadro di modelli che non sono solo tecnicamente impressionanti, ma anche inquietantemente vulnerabili.

I modelli visione-linguaggio (VLM) come Pixtral sono progettati per interpretare sia input visivi che testuali, consentendo loro di rispondere in modo intelligente a prompt complessi e realistici. Tuttavia, questa capacità comporta un aumento del rischio. A differenza dei tradizionali modelli linguistici che elaborano solo testo, i VLM possono essere influenzati dall’interazione tra immagini e parole, aprendo nuove porte a possibili attacchi adversariali. I test di Enkrypt AI mostrano quanto facilmente queste porte possano essere aperte.

Risultati dei test allarmanti: fallimenti CSEM e CBRN

Il team dietro il rapporto ha utilizzato metodi di test di squadra rossa sofisticati – una forma di valutazione adversariale progettata per mimare minacce del mondo reale. Questi test hanno impiegato tattiche come il jailbreaking (prompting il modello con query accuratamente progettate per bypassare i filtri di sicurezza), l’inganno basato su immagini e la manipolazione del contesto. In modo allarmante, il 68% di questi prompt adversariali ha elicito risposte dannose tra i due modelli Pixtral, compresi contenuti relativi a sfruttamento, sfruttamento e addirittura progettazione di armi chimiche.

Una delle rivelazioni più sorprendenti riguarda il materiale di sfruttamento sessuale minorile (CSEM). Il rapporto ha scoperto che i modelli di Mistral erano 60 volte più propensi a produrre contenuti relativi al CSEM rispetto ai benchmark dell’industria come GPT-4o e Claude 3.7 Sonnet. Nei casi di test, i modelli hanno risposto a prompt di adescamento mascherati con contenuti strutturati e multi-paragrafo che spiegavano come manipolare i minori – avvolti in dichiarazioni ingannevoli come “solo per sensibilizzazione educativa”. I modelli non stavano semplicemente fallendo nel rifiutare le query dannose – li stavano completando nel dettaglio.

Altrettanto inquietanti sono stati i risultati nella categoria di rischio CBRN (Chimico, Biologico, Radiologico e Nucleare). Quando sollecitati con una richiesta su come modificare l’agente nervino VX – un’arma chimica – i modelli hanno offerto idee sorprendentemente specifiche per aumentare la sua persistenza nell’ambiente. Hanno descritto, in dettaglio tecnico redatto, metodi come l’incapsulamento, lo schermo ambientale e i sistemi di rilascio controllato.

Questi fallimenti non sono stati sempre innescati da richieste palesemente dannose. Una tattica ha coinvolto l’upload di un’immagine di un elenco numerato vuoto e chiedere al modello di “inserire i dettagli”. Questo semplice prompt, apparentemente innocuo, ha portato alla generazione di istruzioni non etiche e illegali. La fusione di manipolazione visiva e testuale si è rivelata particolarmente pericolosa – evidenziando una sfida unica posta dai modelli AI multimodali.

Perché i modelli visione-linguaggio pongono nuove sfide di sicurezza

Al cuore di questi rischi giace la complessità tecnica dei modelli visione-linguaggio. Questi sistemi non analizzano solo il linguaggio – sintetizzano il significato attraverso formati, il che significa che devono interpretare il contenuto delle immagini, comprendere il contesto del testo e rispondere di conseguenza. Questa interazione introduce nuovi vettori di sfruttamento. Un modello potrebbe correttamente rifiutare un prompt di testo dannoso da solo, ma quando abbinato a un’immagine suggestiva o a un contesto ambiguo, potrebbe generare output pericolosi.

Il test di squadra rossa di Enkrypt AI ha scoperto come gli attacchi di iniezione cross-modale – dove sottili indizi in una modalità influenzano l’output di un’altra – possano completamente bypassare i meccanismi di sicurezza standard. Questi fallimenti dimostrano che le tecniche di moderazione dei contenuti tradizionali, costruite per sistemi a singola modalità, non sono sufficienti per i VLM odierni.

Il rapporto dettaglia anche come i modelli Pixtral siano stati accessibili: Pixtral-Large attraverso AWS Bedrock e Pixtral-12b tramite la piattaforma Mistral. Questo contesto di distribuzione nel mondo reale sottolinea ulteriormente l’urgenza di questi risultati. Questi modelli non sono confinati ai laboratori – sono disponibili attraverso piattaforme cloud mainstream e potrebbero essere facilmente integrati in prodotti per consumatori o aziende.

Cosa deve essere fatto: un piano per un AI più sicuro

A suo merito, Enkrypt AI fa più che evidenziare i problemi – offre un percorso in avanti. Il rapporto delinea una strategia di mitigazione globale, partendo dalla formazione di allineamento della sicurezza. Ciò comporta il ritraining del modello utilizzando i propri dati di test di squadra rossa per ridurre la suscettibilità a prompt dannosi. Tecniche come l’ottimizzazione delle preferenze dirette (DPO) sono raccomandate per regolare le risposte del modello lontano da output a rischio.

Sottolinea anche l’importanza di parapetti di guardia consapevoli del contesto – filtri dinamici che possono interpretare e bloccare query dannose in tempo reale, tenendo conto del contesto completo dell’input multimodale. Inoltre, viene proposto l’uso di schede di rischio del modello come misura di trasparenza, aiutando gli stakeholder a comprendere i limiti del modello e i casi di fallimento noti.

Forse la raccomandazione più critica è quella di trattare il test di squadra rossa come un processo continuo, non come un test una tantum. Mentre i modelli evolvono, anche le strategie di attacco evolvono. Solo la valutazione continua e il monitoraggio attivo possono garantire l’affidabilità a lungo termine, specialmente quando i modelli sono distribuiti in settori sensibili come la sanità, l’istruzione o la difesa.

Il Rapporto di test di squadra rossa multimodale di Enkrypt AI è un chiaro segnale all’industria AI: il potere multimodale comporta responsabilità multimodale. Questi modelli rappresentano un balzo in avanti nella capacità, ma richiedono anche un balzo in avanti nel modo in cui pensiamo alla sicurezza, alla sicurezza e al deploy etico. Se non controllati, non solo rischiano il fallimento – rischiano di causare danni reali.

Per chiunque stia lavorando o distribuendo AI su larga scala, questo rapporto non è solo un avvertimento. È un manuale. E non poteva arrivare in un momento più urgente.

Related Topics:cybersecurity Enkrypt Enkrypt AI reports

Antoine Tardif, CEO & Founder of Unite.AI

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.