Sicurezza informatica

OpenAI ammette che i browser AI potrebbero non essere mai completamente sicuri

mm

OpenAI ha pubblicato un post di blog sulla sicurezza il 22 dicembre contenente un’ammissione sorprendente: gli attacchi di iniezione di prompt contro i browser AI “potrebbero non essere mai completamente risolti”. La concessione arriva solo due mesi dopo che la società ha lanciato ChatGPT Atlas, il suo browser con capacità di agente autonomo.

La società ha paragonato l’iniezione di prompt a “truffe e ingegneria sociale sul web” – minacce persistenti che i difensori gestiscono piuttosto che eliminare. Per gli utenti che si affidano agli agenti AI per navigare su Internet per loro conto, questo inquadramento solleva questioni fondamentali su quanto autonomia sia appropriata.

Cosa ha rivelato OpenAI

Il post di blog descrive l’architettura difensiva di OpenAI per Atlas, inclusa una funzionalità di apprendimento per rinforzo che consente a un “attaccante automatizzato” di cercare vulnerabilità prima che gli attaccanti malintenzionati le trovino. La società afferma che questo team interno rosso ha scoperto “nuove strategie di attacco che non sono apparse nella nostra campagna di test rosso o nei rapporti esterni”.

Una dimostrazione ha mostrato come un’e-mail maligna potrebbe dirottare un agente AI che controlla la casella di posta di un utente. Invece di redigere una risposta automatica come istruito, l’agente compromesso ha inviato un messaggio di dimissioni. OpenAI afferma che il suo ultimo aggiornamento di sicurezza ora blocca questo attacco – ma l’esempio illustra le poste in gioco quando gli agenti AI agiscono in modo autonomo in contesti sensibili.

L’attaccante automatizzato “può guidare un agente nell’esecuzione di workflow dannosi sofisticati e a lungo termine che si sviluppano in decine (o addirittura centinaia) di passaggi”, ha scritto OpenAI. Questa capacità aiuta OpenAI a trovare più velocemente le vulnerabilità rispetto agli attaccanti esterni, ma rivela anche quanto gli attacchi di iniezione di prompt possano diventare complessi e dannosi.

Immagine: OpenAI

Il problema di sicurezza fondamentale

L’iniezione di prompt sfrutta una limitazione di base dei grandi modelli linguistici: non possono distinguere in modo affidabile tra istruzioni legittime e contenuto maligno incorporato nei dati che elaborano. Quando un browser AI legge una pagina web, qualsiasi testo su quella pagina potrebbe potenzialmente influenzare il suo comportamento.

I ricercatori sulla sicurezza hanno dimostrato questo ripetutamente. I browser AI combinano un’autonomia moderata con un accesso molto elevato – una posizione impegnativa nello spazio della sicurezza.

Gli attacchi non richiedono tecniche sofisticate. Testo nascosto su pagine web, e-mail accuratamente create o istruzioni invisibili in documenti possono tutti manipolare gli agenti AI per eseguire azioni non intenzionali. Alcuni ricercatori hanno mostrato che prompt maligni nascosti in screenshot possono eseguire quando un AI scatta una foto dello schermo di un utente.

Come risponde OpenAI

Le difese di OpenAI includono modelli addestrati in modo avversario, classificatori di iniezione di prompt e “ostacoli” che richiedono la conferma dell’utente prima di azioni sensibili. La società consiglia agli utenti di limitare l’accesso di Atlas – limitando l’accesso con login, richiedendo conferme prima dei pagamenti o dei messaggi e fornendo istruzioni strette piuttosto che mandati ampi.

Questo consiglio è rivelatore. OpenAI consiglia essenzialmente di trattare il proprio prodotto con sospetto, limitando l’autonomia che rende i browser agentici attraenti in primo luogo. Gli utenti che desiderano che i browser AI gestiscano l’intera casella di posta o gestiscano le loro finanze stanno assumendo rischi che la società stessa non approva.

L’aggiornamento di sicurezza riduce gli attacchi di iniezione riusciti. Questo miglioramento è importante, ma significa anche che la superficie di attacco rimane – e gli attaccanti si adatteranno a qualsiasi difesa che OpenAI dispieghi.

Implicazioni a livello di settore

OpenAI non è l’unico a confrontarsi con queste sfide. L’architettura di sicurezza di Google per le funzionalità agentiche di Chrome include più strati di difesa, inclusa un modello di intelligenza artificiale separato che valuta ogni azione proposta. Il browser Comet di Perplexity ha affrontato un’analisi simile da parte di ricercatori sulla sicurezza di Brave, che hanno scoperto che la navigazione verso una pagina web maligna poteva attivare azioni dannose di intelligenza artificiale.

Il settore sembra convergere su una comprensione condivisa: l’iniezione di prompt è una limitazione fondamentale, non un bug da correggere. Ciò ha implicazioni significative per la visione di agenti di intelligenza artificiale che gestiscono compiti complessi e sensibili in modo autonomo.

Cosa gli utenti dovrebbero considerare

La valutazione onesta è scomoda: i browser AI sono strumenti utili con limitazioni di sicurezza innate che non possono essere eliminate attraverso una migliore ingegneria. Gli utenti si trovano di fronte a un compromesso tra convenienza e rischio che nessun fornitore può risolvere completamente.

I consigli di OpenAI – limitare l’accesso, richiedere conferme, evitare mandati ampi – equivalgono a consigli per utilizzare versioni meno potenti del prodotto. Ciò non è una posizione cinica; è un riconoscimento realistico delle limitazioni attuali. Gli assistenti di intelligenza artificiale che possono fare di più possono anche essere manipolati per fare di più.

Il parallelo con la sicurezza web tradizionale è istruttivo. Gli utenti continuano a cadere vittime di attacchi di phishing decenni dopo la loro comparsa. I browser continuano a bloccare milioni di siti web maligni ogni giorno. La minaccia si adatta più velocemente delle difese che possono risolverla in modo permanente.

I browser AI aggiungono una nuova dimensione a questa dinamica familiare. Quando gli esseri umani navigano, portano con sé il giudizio su cosa sembra sospetto. Gli agenti AI elaborano tutto con la stessa fiducia, rendendoli più suscettibili alla manipolazione anche mentre diventano più capaci.

La strada in avanti

La trasparenza di OpenAI merita riconoscimento. La società avrebbe potuto spedire gli aggiornamenti di sicurezza in silenzio senza riconoscere la persistenza del problema di base. Invece, ha pubblicato un’analisi dettagliata dei vettori di attacco e delle architetture difensive – informazioni che aiutano gli utenti a prendere decisioni informate e i concorrenti a migliorare le proprie protezioni.

Ma la trasparenza non risolve la tensione fondamentale. Più gli agenti AI diventano potenti, più presentano bersagli attraenti. Le stesse capacità che consentono ad Atlas di gestire workflow complessi creano anche opportunità per attacchi sofisticati.

Per ora, gli utenti dei browser AI dovrebbero approcciare questi strumenti come potenti strumenti con limitazioni significative – e non come assistenti digitali completamente autonomi pronti a gestire compiti sensibili senza supervisione. OpenAI è stata insolitamente franca su questa realtà. La domanda è se il marketing del settore si adeguerà a ciò che già sanno i team di sicurezza.

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.