Intelligenza Artificiale
Quanto sono bravi gli agenti di intelligenza artificiale nella ricerca reale? All'interno del rapporto "Deep Research Bench"

As modelli linguistici di grandi dimensioni (LLM) Con la rapida evoluzione, cresce anche la loro promessa di potenti assistenti alla ricerca. Sempre più spesso, non si limitano a rispondere a semplici domande di fatto, ma affrontano compiti di "ricerca approfondita", che implicano ragionamenti articolati, la valutazione di informazioni contrastanti, la ricerca di dati dal web e la loro sintesi in un output coerente.
Questa capacità emergente viene ora commercializzata con diversi nomi commerciali da importanti laboratori: OpenAI la chiama "Deep Research", Anthropic la chiama "Extended Thinking", Gemini di Google offre funzionalità "Search + Pro" e Perplexity le etichetta come "Pro Search" o "Deep Research". Ma quanto sono efficaci queste offerte nella pratica? Un nuovo rapporto di Ricerca futura, dal titolo Deep Research Bench (DRB): valutazione degli agenti di ricerca web, offre la valutazione più rigorosa fino ad oggi e i risultati rivelano sia capacità impressionanti che carenze critiche.
Che cos'è Deep Research Bench?
Creato dal team di FutureSearch, Deep Research Bench è un benchmark meticolosamente progettato per valutare le prestazioni degli agenti di intelligenza artificiale in attività di ricerca multi-step basate sul web. Non si tratta di domande semplici con risposte dirette: riflettono le sfide complesse e aperte che analisti, decisori politici e ricercatori devono affrontare in contesti reali.
Il benchmark comprende 89 attività distinte suddivise in 8 categorie, tra cui:
- Trova numero: ad esempio "Quanti richiami di dispositivi medici di classe II della FDA si sono verificati?"
- Convalida la richiesta: ad esempio "ChatGPT consuma 10 volte più energia di Google Search?"
- Compila il set di dati: ad esempio "Tendenze occupazionali per gli sviluppatori di software statunitensi dal 2019 al 2023"
Ogni tipo di attività è attentamente strutturato con risposte verificate da esseri umani e valutato utilizzando un dataset congelato di pagine web recuperate, noto come RetroSearch. Questo garantisce la coerenza tra le valutazioni del modello, evitando le fluttuazioni del web live.
L'architettura dell'agente: ReAct e RetroSearch
Al centro di Deep Research Bench si trova l'architettura ReAct, abbreviazione di "Reason + Act". Questo metodo imita il modo in cui un ricercatore umano affronterebbe un problema: riflettendo sul compito, eseguendo un'azione come una ricerca sul web, osservando i risultati e decidendo se iterare o concludere.
Mentre i modelli precedenti seguono esplicitamente questo ciclo, i modelli "pensanti" più recenti spesso semplificano il processo, integrando il ragionamento in modo più fluido nelle loro azioni. Per garantire la coerenza tra le valutazioni, DRB introduce RetroSearch, una versione statica e personalizzata del web. Anziché affidarsi a internet in tempo reale, in continua evoluzione, gli agenti attingono a un archivio curato di pagine web estratte tramite strumenti come Serper, Drammaturgoe API raschiettoLa portata è impressionante: per attività di elevata complessità come "Raccogliere prove", RetroSearch può fornire accesso a oltre 189,000 pagine, tutte congelate nel tempo, garantendo un ambiente di test equo e replicabile.
Quali agenti di intelligenza artificiale hanno le prestazioni migliori?
Tra tutti i contendenti, o3 di OpenAI è emerso come il migliore, ottenendo un punteggio di 0.51 su un massimo di 1.0 nel Deep Research Bench. Sebbene possa sembrare modesto, è importante comprendere la difficoltà del benchmark: a causa dell'ambiguità nelle definizioni e nei punteggi dei task, anche un agente impeccabile otterrebbe probabilmente un punteggio massimo di circa 0.8, quello che i ricercatori chiamano "soglia di rumore". In altre parole, anche i migliori modelli odierni sono ancora insufficienti rispetto a ricercatori umani ben informati e metodici.
Tuttavia, la classifica offre spunti rivelatori. o3 non solo ha guidato il gruppo, ma lo ha fatto con velocità e costanza, mostrando ottime prestazioni in quasi tutti i tipi di attività. Claude 3.7 Sonnet di Anthropic lo ha seguito da vicino, dimostrando versatilità sia in modalità "pensante" che "non pensante". Gemini 2.5 Pro, il modello di punta di Google, si è distinto per la sua capacità di gestire attività che richiedono una pianificazione strutturata e un ragionamento passo-passo. Nel frattempo, il DeepSeek-R1 open-weight ha offerto una piacevole sorpresa, tenendo il passo con GPT-4 Turbo e riducendo il divario prestazionale tra i modelli aperti e chiusi.
In generale, è emerso un modello chiaro: i modelli più recenti, "abilitati al pensiero", hanno costantemente superato in prestazioni le loro controparti precedenti e i modelli closed-source hanno mantenuto un vantaggio notevole rispetto alle alternative open-weight.
Dove sono in difficoltà gli agenti?
Leggere i modelli di errore evidenziati nel report di Deep Research Bench mi è sembrato sorprendentemente familiare. Uno degli aspetti più frustranti che ho riscontrato personalmente, soprattutto durante lunghe sessioni di ricerca o creazione di contenuti, è quando un agente di intelligenza artificiale dimentica semplicemente cosa stavamo facendo. Con l'allungarsi della finestra di contesto, il modello inizia spesso a perdere il filo: i dettagli chiave svaniscono, gli obiettivi si confondono e, improvvisamente, le risposte sembrano sconnesse o prive di scopo. A un certo punto, ho imparato che spesso è meglio tagliare le perdite e ricominciare da zero, anche se ciò significa buttare via tutto ciò che è stato generato finora.
Questo tipo di dimenticanza non è solo aneddotica: è il fattore predittivo di fallimento più significativo nella valutazione di Deep Research Bench. Ma non è l'unico problema ricorrente. Il rapporto evidenzia anche come alcuni modelli ricadano nell'uso ripetitivo degli strumenti, eseguendo la stessa ricerca più e più volte come se fossero bloccati in un loop. Altri mostrano una scarsa elaborazione delle query, un pigro abbinamento di parole chiave invece di pensare criticamente a come effettuare la ricerca in modo efficace. E troppo spesso, gli agenti cadono vittime di conclusioni premature, fornendo una risposta a metà che tecnicamente soddisfa i requisiti ma non fornisce una visione d'insieme reale.
Anche tra i modelli di punta, le differenze sono evidenti. GPT-4 Turbo, ad esempio, ha mostrato una notevole tendenza a dimenticare i passaggi precedenti, mentre DeepSeek-R1 era più propenso a allucinazioni o inventare informazioni apparentemente plausibili, ma errate. In generale, i modelli spesso non sono riusciti a verificare le fonti o a convalidare i risultati prima di finalizzare il loro output. Per chiunque si sia affidato all'IA per un lavoro serio, questi problemi risulteranno fin troppo familiari e sottolineano quanta strada ci sia ancora da fare per costruire agenti in grado di pensare e fare ricerca come gli esseri umani.
E le prestazioni basate sulla memoria?
È interessante notare che Deep Research Bench ha valutato anche quelli che definisce agenti "toolless", ovvero modelli linguistici che operano senza alcun accesso a strumenti esterni, come la ricerca web o il recupero di documenti. Questi agenti si affidano interamente ai propri dati di addestramento e alla memoria interna, generando risposte basate esclusivamente su ciò che hanno appreso in precedenza durante l'addestramento. In pratica, ciò significa che non possono cercare nulla o verificare le informazioni: si limitano a indovinare in base a ciò che "ricordano".
Sorprendentemente, questi agenti senza strumenti hanno ottenuto risultati quasi pari a quelli degli agenti di ricerca completi in determinati compiti. Ad esempio, nel compito "Convalida affermazione" – il cui obiettivo è valutare la plausibilità di un'affermazione – hanno ottenuto un punteggio di 0.61, quasi in linea con la media di 0.62 degli agenti dotati di strumenti. Ciò suggerisce che modelli come o3 e Claude hanno solide priorità interne e spesso riescono a riconoscere la veridicità di affermazioni comuni senza dover effettuare ricerche sul web.
Ma in compiti più impegnativi – come "Deriva Numero", che richiede di mettere insieme più valori da diverse fonti, o "Raccogliere Prove", che si basa sulla ricerca e valutazione di fatti diversi nel contesto – questi modelli privi di strumenti si sono rivelati completamente inefficaci. Senza informazioni aggiornate o funzionalità di ricerca in tempo reale, semplicemente non avevano i mezzi per produrre risposte accurate o esaustive.
Questo contrasto evidenzia una sfumatura importante: mentre gli LLM odierni possono simulare molto la "conoscenza", la ricerca approfondita non dipende solo dal ricordo, ma anche dal ragionamento con informazioni aggiornate e verificabili, qualcosa che solo gli agenti potenziati dagli strumenti possono realmente fornire.
Considerazioni finali
Il rapporto DRB chiarisce una cosa: sebbene i migliori agenti di intelligenza artificiale di oggi possano superare gli esseri umani medi in compiti strettamente definiti, sono ancora indietro rispetto ai ricercatori generalisti qualificati, soprattutto quando si tratta di pianificare strategicamente, adattarsi a metà processo e ragionare con sfumature.
Questa lacuna diventa particolarmente evidente durante sessioni lunghe o complesse, un fenomeno che ho sperimentato in prima persona, quando un agente perde gradualmente di vista lo scopo del compito, con conseguente frustrante perdita di coerenza e utilità.
Cosa rende Banco di ricerca profonda Il suo valore è tale che non si limita a testare le conoscenze superficiali, ma esplora l'intersezione tra utilizzo degli strumenti, memoria, ragionamento e adattamento, offrendo un'analogia più vicina alla ricerca nel mondo reale rispetto a parametri di riferimento come MMLU o GSM8k.
Mentre gli LLM continuano a integrarsi in un lavoro di conoscenza serio, Ricerca futura Strumenti come DRB saranno essenziali per valutare non solo cosa sanno questi sistemi, ma anche quanto bene funzionano effettivamente.










