Intelligenza artificiale

La ricerca rivela che gli LLM ricorrono a un ragionamento semplice quando aumenta la complessità

Published November 25, 2025

Updated April 1, 2026

Alex McFarland

Un team di ricercatori ha pubblicato uno studio completo il 20 novembre analizzando oltre 192.000 tracce di ragionamento da modelli linguistici di grandi dimensioni (LLM), rivelando che i sistemi di intelligenza artificiale si affidano a strategie lineari e superficiali piuttosto che ai processi cognitivi gerarchici che gli esseri umani utilizzano naturalmente.

Il team di ricerca ha esaminato 18 modelli diversi in compiti di ragionamento su testo, visione e audio, confrontando i loro approcci con 54 tracce di pensiero ad alta voce di esseri umani raccolte specificamente per lo studio. L’analisi ha stabilito una tassonomia di 28 elementi cognitivi che comprendono vincoli computazionali, controlli metacognitivi, rappresentazioni della conoscenza e operazioni di trasformazione – fornendo un framework per valutare non solo se i modelli producono risposte corrette, ma anche come arrivano a quelle conclusioni.

Differenze fondamentali nell’architettura cognitiva

Il ragionamento umano dimostra costantemente un annidamento gerarchico e un monitoraggio metacognitivo – la capacità di riflettere e regolare i propri processi di pensiero. Gli esseri umani organizzano fluidamente le informazioni in strutture annidate mentre tengono traccia attivamente del loro progresso attraverso problemi complessi.

Gli LLM utilizzano prevalentemente una catena in avanti superficiale, muovendosi passo dopo passo attraverso i problemi senza l’organizzazione gerarchica o l’autoriflessione che caratterizza la cognizione umana. Questa divergenza diventa più pronunciata quando i compiti sono mal strutturati o ambigui, dove l’adattabilità umana supera notevolmente gli approcci dell’intelligenza artificiale.

Lo studio ha scoperto che i modelli linguistici possiedono i componenti comportamentali associati a un ragionamento di successo, ma spesso non li utilizzano spontaneamente. Le prestazioni variano notevolmente in base al tipo di problema: il ragionamento dilemma ha mostrato la varianza più alta, con modelli più piccoli che lottano notevolmente, mentre il ragionamento logico ha mostrato prestazioni moderate con modelli più grandi che superano in generale i modelli più piccoli. I modelli mostrano debolezze controintuitive, riuscendo in compiti complessi mentre falliscono in varianti più semplici.

Miglioramenti delle prestazioni attraverso il ragionamento guidato

Il team di ricerca ha sviluppato una guida al ragionamento durante il test che scaffalda automaticamente strutture cognitive di successo, dimostrando miglioramenti delle prestazioni fino al 66,7% in problemi complessi quando i modelli sono invitati ad adottare approcci di ragionamento più simili a quelli umani. Questo risultato suggerisce che gli LLM possiedono capacità latenti per un ragionamento più sofisticato, ma necessitano di una guida esplicita per utilizzarle efficacemente.

Il divario tra il ragionamento umano e quello dell’intelligenza artificiale si allarga ulteriormente man mano che aumenta la complessità del compito. Mentre i modelli possono gestire problemi semplici attraverso la catena in avanti da sola, lottano con le strategie ricorsive e di auto-monitoraggio che gli esseri umani utilizzano naturalmente quando affrontano sfide ambigue o multilivello.

Il dataset pubblicamente disponibile dello studio fornisce un punto di riferimento per future ricerche che confrontano l’intelligenza artificiale e umana. Mappando 28 elementi cognitivi distinti, il framework consente ai ricercatori di individuare esattamente dove il ragionamento dell’intelligenza artificiale si rompe, anziché semplicemente misurare i punteggi di accuratezza.