Seguici sui social

L'imminente ondata di attacchi multimodali: quando gli strumenti di intelligenza artificiale diventano la nuova superficie di exploit

Leader del pensiero

L'imminente ondata di attacchi multimodali: quando gli strumenti di intelligenza artificiale diventano la nuova superficie di exploit

mm

Man mano che i modelli linguistici di grandi dimensioni (LLM) si evolvono in sistemi multimodali In grado di gestire testo, immagini, voce e codice, stanno anche diventando potenti orchestratori di strumenti e connettori esterni. Questa evoluzione comporta un'ampia superficie di attacco di cui le organizzazioni devono essere consapevoli.

Un esempio lampante è l'ingegneria sociale, di cui gli agenti possono cadere vittima perché sono stati addestrati ad agire come esseri umani e sono ancora meno scettici. Ad esempio, è improbabile che un agente sia in grado di distinguere un'email falsificata da una proveniente da un rivenditore legittimo.

La convergenza tra multimodalità e accesso agli strumenti trasforma l'IA da assistente a mezzo di attacco. Gli aggressori possono ora utilizzare semplici prompt di testo per attivare l'uso improprio degli strumenti, eseguire azioni non autorizzate o esfiltrare dati sensibili attraverso canali legittimi. Poiché queste funzionalità sono progettate per l'accessibilità, non per la difesa, anche gli avversari meno esperti possono sfruttare i sistemi di IA per eseguire operazioni complesse senza scrivere una sola riga di codice.

Come l'intelligenza artificiale multimodale diventa una catena di exploit

Gli LLM stanno diventando sempre più orchestratori di sistemi esterni, con integrazioni che oggi includono di tutto, dalle API alla posta elettronica, dall'archiviazione cloud agli strumenti di esecuzione del codice. Questi connettori sono spesso progettati per l'accessibilità, non per la difesa.

Lo svantaggio è che può dare origine a un'ondata di nuovi exploit.

Uno è l'uso improprio di strumenti basati su prompt. Ad esempio, un aggressore potrebbe utilizzare un'immagine con istruzioni di iniezione prompt inserite in un'e-mail. riconoscimento ottico dei caratteri (OCR) È necessario uno strumento per estrarre il testo da un'immagine. L'agente viene incaricato di rispondere all'email e di allegare una mappa di Google all'indirizzo di casa della vittima, rendendo così anonima la sua posizione.

Un altro meccanismo è l'evasione del guardrail cross-modale. Questo riguarda i guardrail che si trovano tra i punti di ingresso e di uscita degli utensili. Ad esempio, analizzando l'output di un estrattore OCR, potrebbe non esserci un guardrail sufficientemente robusto attorno alle iniezioni rapide rilevate dal suo output.

Esistono anche debolezze strutturali che possono essere sfruttate. Una di queste è rappresentata dai vincoli eccessivamente flessibili e permissivi tra il modello e gli strumenti esterni che può richiamare, il che significa che un semplice prompt in linguaggio naturale può innescare azioni reali come l'esecuzione di codice, l'accesso a file o l'interazione con la posta elettronica. Inoltre, molti di questi sistemi non dispongono di controlli di accesso rigorosi, quindi l'IA potrebbe avere la capacità di scrivere, eliminare o modificare i dati ben oltre quanto un essere umano autorizzerebbe. Il problema si aggrava ulteriormente se si considerano i connettori e le estensioni in stile MCP, che spesso non presentano praticamente alcuna barriera di sicurezza; una volta collegati, estendono la portata dell'IA a storage personali, caselle di posta e piattaforme cloud con pochissima supervisione. Insieme, queste debolezze strutturali creano un ambiente in cui i classici problemi di sicurezza – esfiltrazione, escape sandbox e persino avvelenamento della memoria – possono essere innescati semplicemente da un prompt sapientemente creato.

Minacce emergenti: cosa succederà ora?

In questa nuova normalità, gli attacchi di ingegneria sociale e via e-mail basati sull'intelligenza artificiale sono imminenti. Phishing Il volume aumenterà a causa dell'utilizzo di LLM da parte dell'attaccante; il punto critico è bypassare i normali filtri antispam dei provider di posta elettronica come Google. Gli agenti di intelligenza artificiale connessi alla posta in arrivo aumentano la probabilità di successo degli attacchi di phishing. È probabile che si verifichi un aumento delle minacce basate sulla posta elettronica man mano che gli utenti connettono gli agenti a Gmail o Outlook.

Gli aggressori possono indirizzare l'IA verso campagne di spam o spear-phishing complete. In questo scenario,

Il phishing AI-to-AI diventa plausibile.

I sistemi multimodali offrono sempre più funzionalità di esecuzione del codice. I percorsi di fuga consentono agli aggressori di violare l'infrastruttura sottostante. E le vie di fuga sandbox rappresentano il più grande incubo reputazionale per i fornitori.

L'avvelenamento della memoria a lungo termine e i trigger differiti rappresentano ulteriori minacce. La memoria persistente consente l'attivazione di payload nascosti in caso di richieste future. I trigger multimodali (ad esempio, immagini o frammenti di testo) potrebbero innescare comportamenti a orologeria.

Perché gli attacchi multimodali sono così accessibili e così pericolosi

L'intelligenza artificiale ha democratizzato le capacità di attacco. Gli utenti non hanno più bisogno di competenze di programmazione o di sviluppo di malware; il linguaggio naturale diventa l'interfaccia per la creazione di malware o l'esfiltrazione di dati. Ciò significa che anche chi non ha competenze tecniche può generare malware o lanciare campagne tramite prompt.

L'intelligenza artificiale consente inoltre di accelerare e scalare le operazioni dannose. Gli agenti multimodali possono automatizzare attività che un tempo richiedevano l'intervento di esperti. Codice, e-mail, ricerche e ricognizioni possono essere prodotti istantaneamente.

L'eccessiva fiducia degli utenti e l'esposizione involontaria contribuiscono al potenziale dannoso dell'IA. Spesso gli utenti non capiscono a cosa l'IA può accedere e le impostazioni predefinite abilitano sempre più automaticamente le integrazioni con l'IA. Molte persone non si rendono conto di aver concesso all'IA un accesso eccessivo a email o documenti.

Principi e controlli per la sicurezza multimodale

Le organizzazioni devono implementare misure di sicurezza contro gli attacchi multimodali. I team di sicurezza dovranno limitare l'accesso agli strumenti per impostazione predefinita. I controlli di opt-in dovrebbero sostituire le integrazioni abilitate automaticamente. Dovrebbero inoltre applicare l'accesso con privilegi minimi a tutti i sistemi connessi all'IA e rimuovere l'accesso in scrittura/cancellazione. Ciò dovrebbe includere regole multi-origine e whitelisting dei domini (whitelisting dell'infrastruttura e non whitelisting a livello di LLM).

Un altro passaggio fondamentale è la creazione di barriere di sicurezza esplicite per l'invocazione degli strumenti. Sostituire i trigger in linguaggio naturale con una validazione strutturata e tipizzata dei comandi. Le barriere di sicurezza dovrebbero rappresentare punti di strozzatura sia in input che in output.

Altri principi e controlli importanti includono:

  • Applicare flussi di lavoro di approvazione rigorosi per le operazioni sensibili.
  • Evitare di inserire i dati utente nella memoria persistente del modello. Applicare controlli automatici di sanificazione della memoria e di provenienza.
  • Rafforzare e isolare gli ambienti di esecuzione del codice.
  • Monitorare comportamenti sospetti e tentativi di fuga.
  • Rafforzare la formazione e la trasparenza degli utenti.
  • Aggiungere ulteriore conferma all'utente quando l'agente esegue attività rischiose.
  • Chiarisci quando gli strumenti di intelligenza artificiale accedono a e-mail, file o risorse cloud.
  • Avvisare gli utenti sui connettori ad alto rischio.

Riuscire a contrastare gli attacchi multimodali

Le tecnologie di intelligenza artificiale si sono rapidamente trasformate in agenti delle operazioni aziendali, creando una situazione in cui il linguaggio naturale stesso diventa una forma di exploit. La convergenza tra multimodalità e accesso agli strumenti apre la superficie di attacco, trasformando l'intelligenza artificiale da assistente a mezzo per attacchi. Gli attacchi multimodali sfruttano la scarsa integrazione tra i LLM e i sistemi esterni che controllano, come API, archiviazione di file e piattaforme di automazione.

Con l'evolversi delle minacce, le organizzazioni devono adottare strategie che tengano conto esplicitamente dei percorsi di attacco multimodali. Rafforzare le difese utilizzando le best practice sopra descritte è essenziale per impedire che gli strumenti di intelligenza artificiale servano involontariamente come anelli nella catena di exploit di un aggressore.

Amanda Rousseau è una ricercatrice principale sulla sicurezza dell'intelligenza artificiale presso Straiker e un veterano reverse engineer di malware che in precedenza ha fatto parte del Red Team di Facebook e del team Offensive Research & Security Engineering (MORSE) di Microsoft, dopo aver ricoperto ruoli precedenti presso Endgame, FireEye e l'US DoD Cyber ​​Crime Center.