Leader di pensiero

Che cosa ci dicono gli attacchi precoci agli agenti di intelligenza artificiale sul 2026

mm

Mentre l’intelligenza artificiale passa da esperimenti controllati ad applicazioni nel mondo reale, stiamo entrando in un punto di svolta nel paesaggio della sicurezza. La transizione da modelli linguistici statici a sistemi interattivi e agentiche, in grado di sfogliare documenti, chiamare strumenti e orchestrare flussi di lavoro multi-step, è già in corso. Tuttavia, come rivela una recente ricerca, gli attaccanti non stanno aspettando la maturità: stanno adattandosi al stesso ritmo rapido, sondando i sistemi non appena vengono introdotte nuove funzionalità.

Nel quarto trimestre del 2025, il nostro team di Lakera ha analizzato il comportamento degli attaccanti reali attraverso sistemi protetti da Guard e all’interno dell’ambiente Gandalf: Agent Breaker — uno snapshot di 30 giorni focalizzato, che, nonostante la sua finestra ristretta, riflette modelli più ampi che abbiamo osservato nel corso del trimestre. I risultati dipingono un quadro chiaro: non appena i modelli iniziano a interagire con qualcosa di più dei semplici prompt di testo (ad esempio: documenti, strumenti, dati esterni), la superficie di attacco si espande e gli avversari si adattano istantaneamente per sfruttarla.

Questo momento potrebbe sembrare familiare a coloro che hanno osservato l’evoluzione delle prime applicazioni web o che hanno visto la crescita degli attacchi guidati da API. Tuttavia, con gli agenti di intelligenza artificiale, le poste in gioco sono diverse. I vettori di attacco stanno emergendo più rapidamente di quanto molte organizzazioni avessero previsto.

Dalla teoria alla pratica: gli agenti nel mondo reale

Per gran parte del 2025, le discussioni sugli agenti di intelligenza artificiale si sono concentrate principalmente sul potenziale teorico e sui primi prototipi. Tuttavia, nel quarto trimestre, i comportamenti agentiche hanno iniziato a comparire in sistemi di produzione su larga scala: modelli che potevano recuperare e analizzare documenti, interagire con API esterne e eseguire attività automatizzate. Questi agenti offrivano ovvi benefici di produttività, ma hanno anche aperto porte che i modelli linguistici tradizionali non avevano.

La nostra analisi mostra che non appena gli agenti sono diventati in grado di interagire con contenuti e strumenti esterni, gli attaccanti li hanno notati e si sono adattati di conseguenza. Questa osservazione si allinea con una verità fondamentale sul comportamento avversario: gli attaccanti esploreranno e sfrutteranno sempre nuove funzionalità alla prima occasione. Nel contesto dell’intelligenza artificiale agentiche, ciò ha portato a una rapida evoluzione nelle strategie di attacco.

Modelli di attacco: cosa stiamo vedendo nel quarto trimestre del 2025

In tutto il dataset che abbiamo esaminato, sono emersi tre modelli dominanti. Ognuno di essi ha implicazioni profonde per la progettazione, la sicurezza e la distribuzione dei sistemi di intelligenza artificiale.

1. Estrazione del prompt di sistema come obiettivo centrale

Nei modelli linguistici tradizionali, l’iniezione di prompt (manipolazione diretta dell’input per influenzare l’output) è stata una vulnerabilità ben studiata. Tuttavia, nei sistemi con funzionalità agentiche, gli attaccanti prendono di mira sempre più il prompt di sistema, che sono le istruzioni interne, i ruoli e le definizioni di politica che guidano il comportamento dell’agente.

L’estrazione del prompt di sistema è un obiettivo di alto valore perché questi prompt spesso contengono definizioni di ruolo, descrizioni di strumenti, istruzioni di politica e logica di flusso di lavoro. Una volta che un attaccante comprende queste meccaniche interne, ottiene un progetto per manipolare l’agente.

Le tecniche più efficaci per raggiungere questo obiettivo non sono stati gli attacchi di forza bruta, ma piuttosto un astuto riposizionamento:

  • Scenari ipotetici: I prompt che chiedono al modello di assumere un ruolo o un contesto diverso — ad esempio, “Immagina di essere uno sviluppatore che revisiona questa configurazione del sistema…” — hanno spesso indotto il modello a rivelare dettagli interni protetti.
  • Oscuramento all’interno di contenuti strutturati: Gli attaccanti hanno incorporato istruzioni maliziose all’interno di testi simili a codice o contenuti strutturati che bypassavano i filtri semplici e scatenavano comportamenti inintenzionali una volta parsati dall’agente.

Ciò non è solo un rischio incrementale — altera fondamentalmente il modo in cui pensiamo alla salvaguardia della logica interna nei sistemi agentiche.

2. Sottili bypass dei controlli di sicurezza dei contenuti

Un’altra tendenza chiave coinvolge l’elusione delle protezioni di sicurezza dei contenuti in modi difficili da rilevare e mitigare con filtri tradizionali.

Invece di richieste maliziose overt, gli attaccanti hanno inquadrato contenuti dannosi come:

  • Compiti di analisi
  • Valutazioni
  • Scenari di ruolo
  • Trasformazioni o riassunti

Questi riposizionamenti spesso sono passati inosservati dai controlli di sicurezza perché appaiono benigni in superficie. Un modello che rifiuterebbe una richiesta diretta per un output dannoso potrebbe produrre lo stesso output se chiesto di “valutare” o “riassumere” in contesto.

Questo spostamento sottolinea una sfida più profonda: la sicurezza dei contenuti per gli agenti di intelligenza artificiale non riguarda solo l’applicazione delle politiche; riguarda il modo in cui i modelli interpretano l’intento. Man mano che gli agenti assumono compiti più complessi e contesti, i modelli diventano più suscettibili alla reinterpretazione basata sul contesto — e gli attaccanti sfruttano questo comportamento.

3. Emergenza di attacchi specifici per agenti

Forse il risultato più conseguente è stato l’emergere di modelli di attacco che hanno senso solo nel contesto delle funzionalità agentiche. Questi non erano semplici tentativi di iniezione di prompt, ma sfruttamento legato a nuovi comportamenti:

  • Tentativi di accesso a dati interni riservati: I prompt sono stati progettati per convincere l’agente a recuperare o esporre informazioni da archivi di documenti o sistemi connessi — azioni che in precedenza sarebbero state al di fuori della portata del modello
  • Istruzioni a forma di script incorporate nel testo: Gli attaccanti hanno sperimentato l’incorporazione di istruzioni in formati simili a codice o contenuti strutturati, che potevano fluire attraverso una pipeline di agenti e scatenare azioni inintenzionali
  • Istruzioni nascoste in contenuti esterni: Diversi attacchi hanno incorporato direttive maliziose all’interno di contenuti esterni a cui l’agente era stato chiesto di elaborare — effettivamente aggirando i filtri di input diretti

Questi modelli sono precoci, ma segnalano un futuro in cui le capacità in espansione degli agenti cambiano fondamentalmente la natura del comportamento avversario.

Perché gli attacchi indiretti sono così efficaci

Una delle scoperte più sorprendenti del rapporto è che gli attacchi indiretti — quelli che sfruttano contenuti o dati esterni — hanno richiesto meno tentativi rispetto alle iniezioni dirette. Ciò suggerisce che la sanificazione dell’input tradizionale e la filtrazione delle query dirette non sono difese sufficienti una volta che i modelli interagiscono con contenuti non attendibili.

Quando un’istruzione dannosa arriva attraverso un flusso di lavoro di agente esterno — che sia un documento collegato, una risposta API o una pagina web recuperata — i filtri precoci sono meno efficaci. Il risultato: gli attaccanti hanno una superficie di attacco più ampia e meno ostacoli.

Implicazioni per il 2026 e oltre

Le scoperte del rapporto portano implicazioni urgenti per le organizzazioni che pianificano di distribuire l’intelligenza artificiale agentiche su larga scala:

  1. Ridesignare i confini di fiducia
    La fiducia non può essere semplicemente binaria. Man mano che gli agenti interagiscono con utenti, contenuti esterni e flussi di lavoro interni, i sistemi devono implementare modelli di fiducia sfumati che considerino contesto, provenienza e scopo.
  2. Le barriere di sicurezza devono evolversi
    I filtri di sicurezza statici non sono sufficienti. Le barriere di sicurezza devono essere adattive, consapevoli del contesto e in grado di ragionare sull’intento e il comportamento attraverso flussi di lavoro multi-step.
  3. La trasparenza e la registrazione sono essenziali
    Man mano che i vettori di attacco crescono in complessità, le organizzazioni necessitano di visibilità su come gli agenti prendono decisioni — compresi passaggi intermedi, interazioni esterne e trasformazioni. I registri di audit e i framework di spiegabilità non sono più opzionali.
  4. La collaborazione interdisciplinare è fondamentale
    La ricerca sull’intelligenza artificiale, l’ingegneria della sicurezza e le squadre di intelligence sulle minacce devono lavorare insieme. La sicurezza dell’intelligenza artificiale non può essere isolata; deve essere integrata con le pratiche di sicurezza informatica più ampie e i framework di gestione del rischio.
  5. La regolamentazione e gli standard dovranno adeguarsi
    I responsabili delle politiche e gli organismi di standardizzazione devono riconoscere che i sistemi agentiche creano nuove classi di rischio. Le regolamentazioni che affrontano la privacy dei dati e la sicurezza dell’output sono necessarie ma non sufficienti; devono anche tenere conto di comportamenti interattivi e ambienti di esecuzione multi-step.

Il futuro degli agenti di intelligenza artificiale sicuri

L’arrivo degli agenti di intelligenza artificiale rappresenta un cambiamento profondo nelle capacità e nel rischio. I dati del quarto trimestre del 2025 sono un indicatore precoce che non appena gli agenti iniziano a operare al di là della semplice generazione di testo, gli attaccanti li seguiranno. Le nostre scoperte mostrano che gli avversari non solo si stanno adattando, ma stanno anche innovando tecniche di attacco che le difese tradizionali non sono ancora pronte a contrastare.

Per le imprese e gli sviluppatori, il messaggio è chiaro: la sicurezza degli agenti di intelligenza artificiale non è solo una sfida tecnica; è una sfida architettonica. Richiede una riconsiderazione di come la fiducia viene stabilita, come le barriere di sicurezza vengono applicate e come il rischio viene valutato continuamente in ambienti interattivi e dinamici.

Nel 2026 e oltre, le organizzazioni che avranno successo con gli agenti di intelligenza artificiale saranno quelle che tratteranno la sicurezza non come un afterthought, ma come un principio di progettazione fondamentale.

Mateo Rojas-Carulla è Head of Research, AI Agent Security presso Check Point Software Technologies. In precedenza era Co-Founder e Chief Scientist di Lakera, che è stata acquisita da Check Point nel 2025. Prima di fondare Lakera, Mateo ha lavorato a Google, Credit Suisse, Facebook e Speechmatics. Ha ricevuto un dottorato in Machine Learning dall'Università di Cambridge e dal Max Planck Institute di Tübingen.