Leader di pensiero

Chi controlla gli agenti? La nuova era della supervisione dell’IA

mm

Quando si discute di agenti di intelligenza artificiale, la maggior parte delle persone immagina sistemi superintelligenti che agiscono da soli, facendo cose imprevedibili. Quindi, un giorno, l’agente-segreteria potrebbe essere incredibilmente utile, e il giorno successivo potrebbe dare le credenziali bancarie a una persona casuale.

La parte “superintelligente” non è realmente importante in questa preoccupazione. Il problema chiave non è quanto “intelligente” sia un agente di intelligenza artificiale, ma piuttosto quanto libertà e accesso all’infrastruttura abbia.

Nella pratica, il valore di un agente è definito meno dal suo livello di intelligenza e più dai confini della sua autorità. Anche un agente relativamente semplice, una volta concesso l’accesso a set di dati, sistemi aziendali, operazioni finanziarie o API esterne, acquisisce la capacità di influenzare processi su una scala che richiede un’attenzione e una supervisione speciali.

È per questo che i sistemi di monitoraggio e contenimento stanno diventando sempre più vitali, non solo a livello di modello, ma anche a livello di comportamento all’interno dell’infrastruttura.

Non è una coincidenza che le iniziative volte a osservare e controllare l’attività degli agenti stiano guadagnando slancio negli ultimi anni. Queste soluzioni pratiche stanno già essere implementate dalle principali aziende tecnologiche.

Come funziona un agente

Per capire come funziona la supervisione, dobbiamo prima esaminare cosa costituisce un agente. In termini semplificati, può essere visto come una combinazione di un nucleo cognitivo, il “cervello” e degli strumenti.

Gli strumenti sono servizi esterni e integrazioni che l’agente può accedere. Ad esempio, per un agente di viaggio, ciò potrebbe includere Booking.com o Airbnb per trovare hotel, aggregatori di biglietti aerei per acquistare biglietti e sistemi di pagamento o carte di credito per effettuare pagamenti. Da soli, questi strumenti non sono intelligenti; semplicemente consentono all’agente di agire nel mondo reale.

Il nucleo cognitivo è un modello linguistico (LLM). Consente all’agente di lavorare in modo significativo con le richieste formulate dagli esseri umani. Ad esempio, la richiesta “Voglio volare in Europa per tre giorni nel prossimo mese, dove il tempo sarà bello” è troppo vaga. L’agente chiede all’LLM di “dividere la richiesta in categorie”. In risposta, riceve parametri strutturati: dove, quando, per quanto tempo e in quali condizioni.

In precedenza, ChatGPT generava solo risposte testuali. Ora, incorporato in un agente, diventa una combinazione di “cervello + strumenti”, in grado non solo di spiegare, ma anche di agire. L’LLM struttura il compito e gli strumenti consentono all’agente di eseguire azioni specifiche.

Come funziona la supervisione

A questo punto, entra in gioco un sistema di controllo. Io lo chiamo una soluzione di sicurezza “cane da guardia” (un po’ di tempo fa, stavo anche pensando di creare una startup focalizzata su questo), una sorta di cane da guardia incorporato nell’agente. Il suo lavoro è monitorare le azioni dell’agente e verificarle rispetto alla richiesta originale. L’obiettivo è assicurarsi che l’agente operi all’interno dei confini previsti.

Ritornando all’esempio di viaggio: supponiamo che l’utente voglia prenotare un viaggio di tre giorni in Europa. L’agente interagisce con i servizi meteorologici, i biglietti aerei e il conto bancario per il pagamento. Tutto sembra normale. Ma improvvisamente, il “cane da guardia” nota che l’agente richiede l’accesso a un database aziendale o a un conto bancario non correlato al pagamento del viaggio. Ciò scatena un allarme di sicurezza e segnala un comportamento sospetto.

È importante capire la scala: un agente può servire migliaia di utenti al giorno, con ogni richiesta che scatena centinaia di operazioni, risultando in milioni di azioni. Il “cane da guardia” analizza tutte le azioni e genera statistiche. I rapporti potrebbero indicare: “Il 13% delle azioni sono state ridondanti, il 7% è relativo alla sicurezza finanziaria”. Ulteriori dettagli spiegano quali azioni specifiche sono apparse sospette.

Questo strumento consente agli sviluppatori di vedere l’intero quadro e di rispondere prontamente alle anomalie, formando una soluzione di controllo dell’IA pratica che combina monitoraggio in tempo reale, rilevamento di anomalie e responsabilità.

Chi beneficia del “cane da guardia”: gli sviluppatori o gli utenti?

In primo luogo, il “cane da guardia” è destinato agli sviluppatori per assicurarsi che il sistema funzioni correttamente. Tuttavia, si può anche immaginare una versione esterna: un agente di osservazione separato che monitora l’agente principale. Ciò aggiunge un altro livello di sicurezza dell’IA, estendendo la supervisione oltre il sistema interno.

C’è un limite importante: il processo interno dell’agente rimane “chiuso”. Possiamo solo osservare il suo comportamento, non i suoi processi cognitivi. Un’analogia con gli esseri umani: posso vedere qualcuno prendere il telefono, comporre un numero e parlare. Ma non so quale numero sia stato composto, quale sia l’intenzione o cosa sia stato detto. Allo stesso modo, un osservatore esterno vede le azioni dell’agente, ma non il suo nucleo cognitivo.

Un’altra considerazione intrigante: gli agenti potrebbero tentare di eludere o disabilitare tali osservatori in futuro, proprio come gli esseri umani spesso resistono alla sorveglianza costante. Sebbene ciò possa sembrare fantascienza oggi, è possibile. Integrare soluzioni di sicurezza dell’IA interne, rilevamento di anomalie e supervisione stratificata può aiutare a mitigare questi rischi e a mantenere il controllo su sistemi sempre più autonomi.

Regole primitive o analisi consapevole del contesto?

Oggi, tali sistemi “cane da guardia” operano su un principio semplice: “consentito” o “non consentito”. Ad esempio, se la regola dice “l’accesso ad Amazon è vietato” e l’agente va lì, viene registrata una violazione. Ma questo approccio non comprende il contesto.

Un sistema più avanzato dovrebbe analizzare la violazione e il suo motivo. Perché l’agente è andato su Amazon? Era giustificato in termini di compito? Qui stiamo parlando di una supervisione consapevole del contesto, simile al lavoro di uno psicologo.

Al momento, tali soluzioni esistono solo come concetti. I sistemi esistenti sono limitati a un controllo rigoroso in bianco e nero. Ma in futuro, man mano che gli agenti diventano più complessi, emergerà un “cane da guardia” in grado di considerare il contesto.

Oggi, stiamo assistendo a una crescita di iniziative per il monitoraggio degli agenti. Stanno attivamente sviluppando soluzioni a livello delle più grandi aziende tecnologiche. Ad esempio, ActiveFence lavora con grandi player come NVIDIA e Amazon.

Inoltre, è sicuro supporre che Google, OpenAI, Anthropic e Amazon utilizzino già i propri sistemi “cane da guardia” interni, analisi e telemetria.

Ho notato questa domanda tra i clienti aziendali di Keymakr – la supervisione e il monitoraggio stanno diventando una parte fondamentale dell’infrastruttura dell’IA. Senza di essi, la distribuzione su larga scala degli agenti sarebbe impossibile.

Michael Abramov è il fondatore e CEO di Introspector, portando oltre 15+ anni di esperienza nel campo dell'ingegneria del software e dei sistemi di intelligenza artificiale della visione computerizzata per la costruzione di strumenti di etichettatura di livello aziendale.

Michael ha iniziato la sua carriera come ingegnere del software e dirigente R&D, costruendo sistemi di dati scalabili e gestendo team di ingegneria cross-funzionali. Fino al 2025, ha ricoperto il ruolo di CEO di Keymakr, un'azienda di servizi di etichettatura dei dati, dove ha sviluppato workflow human-in-the-loop, sistemi di controllo qualità avanzati e strumenti personalizzati per supportare le esigenze dei dati di visione computerizzata e autonomia su larga scala.

Possiede una laurea in Scienze informatiche e una formazione in ingegneria e arti creative, portando una lente multidisciplinare per risolvere problemi difficili. Michael vive all'intersezione dell'innovazione tecnologica, della leadership del prodotto strategico e dell'impatto nel mondo reale, spingendo in avanti la prossima frontiera dei sistemi autonomi e dell'automazione intelligente.