Connect with us

Quanto sono bravi gli agenti di intelligenza artificiale nella ricerca reale? All’interno del rapporto Deep Research Bench

Intelligenza artificiale

Quanto sono bravi gli agenti di intelligenza artificiale nella ricerca reale? All’interno del rapporto Deep Research Bench

mm

Mentre i modelli linguistici di grandi dimensioni (LLM) evolvono rapidamente, anche la loro promessa come potenti assistenti di ricerca si evolve. Sempre più spesso, non si limitano a rispondere a semplici domande fattuali, ma affrontano anche compiti di “ricerca approfondita”, che richiedono ragionamenti multi-step, valutazione di informazioni contraddittorie, individuazione di dati da tutto il web e sintesi in un output coerente.

Questa capacità emergente è ora commercializzata con nomi di marca diversi dai principali laboratori: OpenAI la chiama “Deep Research”, Anthropic la definisce “Extended Thinking”, Google’s Gemini offre funzionalità “Search + Pro” e Perplexity etichetta la propria come “Pro Search” o “Deep Research”. Ma quanto sono efficaci queste offerte nella pratica? Un nuovo rapporto di FutureSearch, intitolato Deep Research Bench (DRB): Valutazione degli agenti di ricerca web, offre la valutazione più rigorosa fino ad oggi e i risultati rivelano sia capacità impressionanti che carenze critiche.

Cosa è Deep Research Bench?

Creato dal team di FutureSearch, Deep Research Bench è un benchmark costruito con cura per valutare le prestazioni degli agenti di intelligenza artificiale in compiti di ricerca basati sul web e multi-step. Queste non sono semplici domande con risposte dirette: riflettono le sfide confuse e aperte affrontate da analisti, responsabili delle politiche e ricercatori in ambienti del mondo reale.

Il benchmark include 89 compiti distinti in 8 categorie, come ad esempio:

  • Trova Numero: ad esempio, “Quanti richiami di dispositivi medici di classe II della FDA sono stati effettuati?”
  • Convalida Affermazione: ad esempio, “ChatGPT è 10 volte più energivoro di Google Search?”
  • Compila Dataset: ad esempio, “Tendenze lavorative per gli sviluppatori di software negli Stati Uniti dal 2019 al 2023”

Ogni tipo di compito è strutturato con cura con risposte verificate dall’uomo e valutato utilizzando un set di dati congelato di pagine web raschiate, noto come RetroSearch. Ciò garantisce la coerenza tra le valutazioni dei modelli, evitando lo stato fluttuante del web live.

L’architettura dell’agente: ReAct e RetroSearch

Al cuore di Deep Research Bench si trova l’architettura ReAct, abbreviazione di “Reason + Act”. Questo metodo imita il modo in cui un ricercatore umano potrebbe affrontare un problema: pensando al compito, eseguendo un’azione come una ricerca web, osservando i risultati e decidendo se iterare o concludere.

Mentre i modelli precedenti seguono questo ciclo esplicitamente, i modelli “pensanti” più recenti spesso semplificano il processo, incorporando il ragionamento in modo più fluido nelle loro azioni. Per garantire la coerenza tra le valutazioni, DRB introduce RetroSearch: una versione statica e personalizzata del web. Invece di affidarsi al web live, che cambia costantemente, gli agenti attingono a un archivio curato di pagine web, raschiate utilizzando strumenti come Serper, Playwright e ScraperAPI. La scala è impressionante: per compiti ad alta complessità come “Raccogliere prove”, RetroSearch può fornire l’accesso a oltre 189.000 pagine, tutte congelate nel tempo, garantendo un ambiente di test equo e ripetibile.

Quali agenti di intelligenza artificiale si esibiscono meglio?

Tra tutti i concorrenti, o3 di OpenAI è emerso come il miglior performer, con un punteggio di 0,51 su un massimo di 1,0 nel Deep Research Bench. Anche se potrebbe sembrare modesto, è importante capire la difficoltà del benchmark: a causa dell’ambiguità nelle definizioni dei compiti e della valutazione, anche un agente perfetto probabilmente raggiungerebbe al massimo 0,8: ciò che i ricercatori chiamano il “soffitto del rumore”. In altre parole, anche i migliori modelli di oggi sono ancora lontani da ricercatori umani ben informati e metodici.

Tuttavia, la classifica offre intuizioni rivelatrici. o3 non solo ha guidato il gruppo, ma lo ha fatto con velocità e coerenza, mostrando prestazioni forti in quasi tutti i tipi di compiti. Claude 3.7 Sonnet di Anthropic ha seguito da vicino, dimostrando versatilità sia nella modalità “pensante” che in quella “non pensante”. Gemini 2.5 Pro, il modello di punta di Google, si è distinto per la sua capacità di gestire compiti che richiedono pianificazione strutturata e ragionamento passo dopo passo. Nel frattempo, il modello open-weight DeepSeek-R1 ha offerto una piacevole sorpresa, tenendo il passo con GPT-4 Turbo e riducendo il divario di prestazioni tra modelli aperti e chiusi.

In generale, è emerso un modello chiaro: i modelli “pensanti” più recenti hanno superato costantemente i loro predecessori, e i modelli a codice chiuso hanno mantenuto un vantaggio significativo rispetto alle alternative open-weight.

Dove gli agenti lottano?

Leggere i modelli di fallimento evidenziati nel rapporto Deep Research Bench mi ha fatto sentire sorprendentemente familiare. Uno degli aspetti più frustranti che ho incontrato personalmente, specialmente durante lunghe sessioni di ricerca o creazione di contenuti, è quando un agente di intelligenza artificiale semplicemente dimentica cosa stavamo facendo. Man mano che la finestra di contesto si allunga, il modello spesso inizia a perdere il filo: i dettagli chiave svaniscono, gli obiettivi si confondono e le risposte sembrano disgiunte o senza scopo. A un certo punto, ho imparato che è spesso meglio tagliare le perdite e ricominciare da capo, anche se significa gettare via tutto ciò che è stato generato fino a quel momento.

Quel tipo di dimenticanza non è solo aneddotico: è il principale predittore di fallimento nella valutazione di Deep Research Bench. Ma non è l’unico problema ricorrente. Il rapporto evidenzia anche come alcuni modelli cadano nell’uso ripetitivo di strumenti, eseguendo la stessa ricerca più e più volte come se fossero bloccati in un ciclo. Altri mostrano una scarsa capacità di creare query, utilizzando la corrispondenza delle parole chiave in modo pigro invece di pensare criticamente a come cercare efficacemente. E troppo spesso, gli agenti cadono vittime di conclusioni premature: forniscono una risposta a metà, che tecnicamente soddisfa il requisito, ma manca di vera comprensione.

Anche tra i migliori modelli, le differenze sono nette. GPT-4 Turbo, ad esempio, ha mostrato una tendenza significativa a dimenticare i passaggi precedenti, mentre DeepSeek-R1 era più propenso a allucinare o inventare informazioni plausibili ma errate. In generale, i modelli fallivano spesso nel verificare le fonti o convalidare i risultati prima di finalizzare l’output. Per chiunque abbia fatto affidamento sull’intelligenza artificiale per lavori seri, questi problemi sembreranno fin troppo familiari e sottolineano quanto dobbiamo ancora percorere per costruire agenti che possano veramente pensare e condurre ricerche come gli esseri umani.

Cosa riguarda le prestazioni basate sulla memoria?

In modo interessante, Deep Research Bench ha anche valutato ciò che definisce “agenti senza strumenti”: modelli linguistici che operano senza accesso a strumenti esterni, come la ricerca web o il recupero di documenti. Questi agenti si affidano interamente ai loro dati di training interni e alla memoria, generando risposte basate solo su ciò che hanno appreso durante il training. Nella pratica, ciò significa che non possono cercare nulla o verificare le informazioni: stanno indovinando in base a ciò che “ricordano”.

Sorprendentemente, questi agenti senza strumenti hanno ottenuto risultati quasi altrettanto buoni quanto gli agenti di ricerca completi in alcuni compiti. Ad esempio, nel compito di convalida dell’affermazione, dove l’obiettivo è valutare la plausibilità di una dichiarazione, hanno ottenuto un punteggio di 0,61, quasi uguale alla media di 0,62 degli agenti abilitati per gli strumenti. Ciò suggerisce che modelli come o3 e Claude hanno forti priori interni e possono spesso riconoscere la veridicità di affermazioni comuni senza dover cercare sul web.

Tuttavia, in compiti più impegnativi, come Derivare Numero, che richiede di combinare più valori da diverse fonti, o Raccogliere Prove, che dipende dal trovare e valutare fatti diversi nel contesto, questi modelli senza strumenti sono completamente crollati. Senza informazioni fresche o capacità di ricerca in tempo reale, semplicemente mancavano dei mezzi per produrre risposte accurate o complete.

Questo contrasto evidenzia una sfumatura importante: mentre i modelli linguistici di grandi dimensioni di oggi possono simulare “conoscenze” approfondite, la ricerca approfondita dipende non solo dal richiamo, ma anche dal ragionamento con informazioni aggiornate e verificabili: qualcosa che solo gli agenti con strumenti possono veramente offrire.

Considerazioni finali

Il rapporto DRB rende chiaro un punto: mentre gli agenti di intelligenza artificiale di oggi possono superare gli esseri umani medi in compiti definiti in modo ristretto, sono ancora in ritardo rispetto a ricercatori generalisti esperti, specialmente quando si tratta di pianificazione strategica, adattamento durante il processo e ragionamento con sfumature.

Questo divario diventa particolarmente evidente durante sessioni lunghe o complesse, qualcosa che ho sperimentato personalmente, dove un agente gradualmente perde traccia dello scopo del compito, portando a un frustrante crollo della coerenza e dell’utilità.

Ciò che rende Deep Research Bench così prezioso è che non testa solo la conoscenza di superficie, ma esamina l’intersezione dell’uso degli strumenti, della memoria, del ragionamento e dell’adattamento, offrendo un analogo più vicino alla ricerca nel mondo reale rispetto a benchmark come MMLU o GSM8k.

Mentre i modelli linguistici di grandi dimensioni continuano a integrarsi nel lavoro della conoscenza seria, gli strumenti di FutureSearch come DRB saranno essenziali per valutare non solo cosa sappiano questi sistemi, ma anche come funzionino effettivamente.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.