Leader del pensiero

Perché le protezioni per i chatbot rappresentano il confine di sicurezza sbagliato

Pubblicato il 18 Marzo 2026

Mayank Kumar, Ingegnere AI fondatore di DeepTempo

L'intelligenza artificiale in ambito aziendale ha superato da tempo la fase di dimostrazione di fattibilità. Il 23% delle organizzazioni sta già implementando su larga scala sistemi di intelligenza artificiale agentiva. da qualche parte nella loro azienda, e Il 62% sta almeno sperimentando con agenti di intelligenza artificiale.Non si tratta di progetti di ricerca. Si tratta di implementazioni in produzione, integrate in flussi di lavoro che coinvolgono repository di codice, dati dei clienti, API interne e infrastrutture operative.

La risposta del settore a questa crescita si è concentrata principalmente su ciò che accade prima che un agente entri in funzione. Fornitori e ricercatori hanno profuso energie nello sviluppo di misure di sicurezza pre-implementazione: politiche di ridimensionamento della pubblicazione, rafforzando i modelli di base, filtrando gli input, proteggendo la catena di fornitura dell'IA e imponendo l'allineamento in fase di addestramento. I principali fornitori di IA hanno fatto investimenti sostanziali negli strumenti di sicurezza rivolti agli sviluppatori, rafforzando un presupposto fondamentale: se il modello e i suoi input sono controllati, il rischio a valle può essere contenuto.

È un istinto ragionevole, ma sempre più incompleto.

Il prompt non costituisce un perimetro di sicurezza

Le misure di sicurezza che operano a livello dell'interfaccia del modello avvantaggiano principalmente i team che controllano il codice dell'applicazione, la configurazione del modello e l'infrastruttura sottostante. Offrono una protezione molto minore ai difensori incaricati di proteggere sistemi di intelligenza artificiale che non hanno creato e che non possono modificare. Si tratta di un punto debole significativo, che gli avversari hanno già individuato.

L'ultimo rapporto di OpenAI sull'intelligence delle minacce Questo studio documenta esattamente questa dinamica. Gli autori delle minacce stanno abusando attivamente di ChatGPT e strumenti simili negli ambienti di produzione, non inventando nuove tecniche di attacco, ma integrando l'intelligenza artificiale nei flussi di lavoro esistenti per accelerare le operazioni. La ricognizione diventa più efficiente. L'ingegneria sociale si diffonde su larga scala. Lo sviluppo di malware accelera. La superficie di attacco non è cambiata in modo sostanziale; ciò che è cambiato è la velocità e il volume degli attacchi.

Ancora più significativo è il modo in cui gli aggressori hanno reagito quando questi strumenti hanno cercato di contrastarli. OpenAI ha osservato che gli autori delle minacce modificavano rapidamente i loro messaggi, preservando l'intento di fondo ma alternando variazioni superficiali per aggirare i controlli front-end. Si tratta di uno schema già visto dagli esperti di sicurezza. Le difese statiche, siano esse antivirus basati su firme o filtri di input, non reggono contro avversari che iterano più velocemente di quanto gli aggiornamenti delle regole possano seguire.

La sfida si complica man mano che gli agenti acquisiscono autonomia. I moderni agenti di intelligenza artificiale non operano in un singolo scambio. Eseguono sequenze di azioni in più fasi, richiamando strumenti e autorizzazioni legittimi in modi che, presi singolarmente, appaiono del tutto normali. Un agente che utilizza credenziali valide per enumerare le API interne non fa scattare un allarme. Un agente che accede a database sensibili durante quello che sembra un flusso di lavoro di routine non genera alcun segnale di allarme immediato. Ogni singola azione supera il controllo; il pericolo risiede nella combinazione e nella sequenza.

Quando la minaccia si sposta a valle

I team di sicurezza che oggi si occupano della protezione delle implementazioni di intelligenza artificiale si trovano di fronte a una discrepanza strutturale. Gli strumenti a loro disposizione sono in gran parte progettati per ragionare su ciò che un modello è autorizzato a dire. Il rischio reale che devono gestire, invece, riguarda ciò che un agente fa attraverso sistemi, reti e identità una volta che gli sono state concesse le autorizzazioni ed è stato rilasciato in un ambiente di produzione.

Le misure di sicurezza basate su prompt condividono le debolezze fondamentali dei precedenti approcci di sicurezza basati su regole. Sono fragili perché dipendono dalla previsione anticipata dei modelli di attacco. Sono reattive perché richiedono che qualcuno abbia osservato e codificato la minaccia prima che la difesa possa funzionare. E vengono superate dagli avversari che hanno adottato l'iterazione assistita dall'IA come prassi standard. Un difensore che si affida al filtraggio degli input per catturare un attore della minaccia che utilizza un modello linguistico per generare nuove varianti di prompt si trova in una posizione fondamentalmente svantaggiata.

La vera vulnerabilità emerge dopo l'implementazione. Le azioni guidate dagli agenti si propagano negli ambienti in modi che nessun test pre-lancio può prevedere completamente. Gli agenti incontrano casi limite, interagiscono con fonti di dati per le quali non sono stati progettati, ricevono input da sistemi esterni all'architettura originale e prendono decisioni che si accumulano nel tempo. Il test pre-implementazione è un'istantanea; la produzione è un flusso continuo. Proteggere solo l'istantanea significa accettare che tutto ciò che accade nel flusso non sia effettivamente monitorato.

Spostare il confine della sicurezza sul comportamento dell'agente

Costruire la resilienza dell'IA richiede un approccio diverso e l'obiettivo non dovrebbe essere proteggere l'interfaccia del modello. Dovrebbe essere rilevare l'intento dell'attaccante attraverso le conseguenze osservabili delle azioni dell'agente. Questa è una distinzione significativa. L'intento non sempre emerge da ciò che un agente dice o dagli input che riceve.

La sicurezza dei sistemi di intelligenza artificiale deve andare oltre i controlli di allineamento e le valutazioni di robustezza, includendo una valutazione continua del comportamento degli agenti una volta che interagiscono con strumenti, API e dati reali. Una valutazione statica al momento dell'implementazione è necessaria, ma insufficiente. L'ambiente di minaccia in cui opera un agente cambia costantemente. Il comportamento dell'agente deve essere monitorato con la stessa continuità.

Questo è un problema che la semplice protezione preventiva non può risolvere. Rilevare le intenzioni malevole man mano che emergono attraverso sequenze di azioni richiede modelli in grado di comprendere comportamenti complessi e sequenziali in ambienti operativi. I modelli di deep learning, specificamente progettati per l'analisi comportamentale, possono farlo in modi che i sistemi basati su regole e i tradizionali strumenti SIEM non possono. Essi apprendono cosa si intende per comportamento normale nell'intero contesto dell'attività degli agenti e individuano le deviazioni che indicano un cambiamento, anche quando nessuna singola azione attiverebbe un allarme convenzionale.

La logica di fondo rimane valida indipendentemente dal contesto di implementazione: la sicurezza ancorata al livello di prompt sarà sempre inefficace contro gli aggressori che operano al livello di azione. La difesa deve spostarsi dove risiede effettivamente la minaccia.

Cosa dovrebbero fare ora i team di sicurezza

Per i responsabili della sicurezza che cercano di anticipare questi problemi, alcuni accorgimenti pratici possono colmare il divario tra il livello attuale delle difese e quello desiderato.

Valutare la sicurezza dell'IA sull'intera architettura applicativa. Il modello di base rappresenta solo un livello. Altrettanto importante è il comportamento degli agenti una volta implementati in produzione, gli strumenti che utilizzano, le autorizzazioni che richiedono e come queste scelte si evolvono nel tempo. Le valutazioni di sicurezza che si fermano al confine del modello lasciano la superficie operativa in gran parte inesplorata.

Applicare il principio del minimo privilegio a livello di agente. Gli agenti di intelligenza artificiale dovrebbero avere accesso solo agli strumenti, alle API e ai dati necessari per la loro funzione specifica. Questa limitazione è importante anche quando gli output dell'agente appaiono innocui. Limitare l'ambito di azione riduce il raggio d'azione di un agente compromesso e crea parametri di riferimento comportamentali più chiari che rendono più efficace il rilevamento delle anomalie.

Considera gli agenti come identità che generano dati di telemetria. Ogni azione compiuta da un agente rappresenta un dato. I team di sicurezza dovrebbero sviluppare logiche di rilevamento basate sulle sequenze di azioni avviate dagli agenti, non solo sui prompt dell'utente che le precedono. Questo nuovo approccio sposta il monitoraggio da ciò che qualcuno ha chiesto all'agente di fare a ciò che l'agente ha effettivamente fatto, ed è qui che l'intento dell'attaccante diventa visibile.

Investite nel monitoraggio continuo del comportamento con modelli di rilevamento specificamente progettati per questo scopo. Identificare le intenzioni malevole man mano che emergono attraverso sequenze di azioni richiede capacità specializzate. Gli strumenti di monitoraggio convenzionali sono stati creati per modelli di attività generati dagli esseri umani. Il comportamento degli agenti, con la sua velocità, il suo volume e la sua struttura a più fasi, richiede un'infrastruttura di rilevamento progettata da zero tenendo conto di questo contesto.

Dare priorità alla difesa collettiva. Le tecniche di attacco basate sull'intelligenza artificiale si evolvono più rapidamente di quanto qualsiasi singola organizzazione possa monitorare. La ricerca condivisa, la collaborazione aperta e l'intelligence sulle minacce a livello di comunità non sono elementi opzionali di una strategia di sicurezza basata sull'IA, bensì componenti fondamentali. Chi si tiene aggiornato in materia di sicurezza è colui che contribuisce alla conoscenza collettiva e ne trae vantaggio.

La sicurezza comportamentale funziona davvero

Per i team di sicurezza che adottano questo approccio, i vantaggi operativi sono concreti. Ancorare il rilevamento al comportamento degli agenti anziché agli output dei modelli consente di identificare precocemente le intenzioni malevole, anche quando gli attacchi sono furtivi, adattivi o crittografati. Gli aggressori che riescono a eludere i filtri di input devono comunque agire. Queste azioni lasciano tracce. Il rilevamento comportamentale individua queste tracce prima che il danno si propaghi.

Forse l'aspetto più significativo è che questo approccio offre alle organizzazioni un percorso credibile per implementare agenti di intelligenza artificiale su larga scala senza accettare un rischio di sicurezza proporzionale. La questione che frena molte aziende non è se gli agenti di intelligenza artificiale possano apportare valore, ma se possano essere implementati con sufficiente sicurezza, in modo che il livello di sicurezza non si degradi con l'aumentare dell'implementazione. La sicurezza comportamentale, basata sul modo in cui gli agenti operano effettivamente piuttosto che sugli input che ricevono, fornisce tale sicurezza in un modo che i controlli basati su prompt non possono strutturalmente garantire.

Il confine di sicurezza è stato tracciato nel punto sbagliato, e questo errore aveva senso quando l'IA era uno strumento che attendeva un input. Ora non lo fa più: i sistemi agentici agiscono, si concatenano, si intensificano e si moltiplicano in ambienti senza alcun test preliminare previsto. Le organizzazioni che lo comprenderanno per prime saranno quelle che riusciranno a implementare l'IA su larga scala con sicurezza. Tutti gli altri passeranno i prossimi anni a scoprire, violazione dopo violazione, che controllare ciò che un modello dice non è mai stato la stessa cosa che controllare ciò che fa.

Argomenti correlati:chatbot chatbots Tempo Profondo

Mayank Kumar, Ingegnere AI fondatore di DeepTempo

Mayank Kumar è l'ingegnere AI fondatore di Tempo Profondodove dirige la progettazione e lo sviluppo del Log Language Model (LogLM), il modello fondamentale dell'azienda. Grazie a una solida formazione accademica e di ricerca nell'IA generativa e multimodale, apporta competenze specialistiche alla creazione di modelli specifici per settore che migliorano il rilevamento e la risposta alle minacce negli ambienti di sicurezza informatica.