Intelligenza artificiale

Perché i LLMs sovrappensano ai puzzle facili ma si arrendono con quelli difficili

Pubblicato il 12 giugno 2025

Aggiornato il 18 maggio 2026

Dr. Tehseen Zia

L’intelligenza artificiale ha fatto notevoli progressi, con i Large Language Model (LLM) e i loro avanzati omologhi, i Large Reasoning Model (LRM), che ridisegnano il modo in cui le macchine elaborano e generano testi simili a quelli umani. Questi modelli possono scrivere saggi, rispondere a domande e persino risolvere problemi matematici. Tuttavia, nonostante le loro impressionanti capacità, questi modelli mostrano un comportamento curioso: spesso complicano eccessivamente i problemi semplici mentre lottano con quelli complessi. Uno studio recente condotto da ricercatori Apple fornisce preziosi insight su questo fenomeno. Questo articolo esplora il motivo per cui i LLM e i LRM si comportano in questo modo e cosa ciò significhi per il futuro dell’intelligenza artificiale.

Comprendere i LLM e i LRM

Per capire perché i LLM e i LRM si comportano in questo modo, dobbiamo prima chiarire cosa sono questi modelli. I LLM, come GPT-3 o BERT, sono addestrati su vasti set di dati testuali per prevedere la parola successiva in una sequenza. Ciò li rende eccellenti in compiti come la generazione di testi, la traduzione e la sintesi. Tuttavia, non sono progettati per il ragionamento, che coinvolge la deduzione logica o la risoluzione di problemi.

I LRM sono una nuova classe di modelli progettati per colmare questa lacuna. Incorporano tecniche come il Chain-of-Thought (CoT) prompting, dove il modello genera passaggi intermedi di ragionamento prima di fornire una risposta finale. Ad esempio, quando si risolve un problema matematico, un LRM potrebbe scomporlo in passaggi, proprio come farebbe un essere umano. Questo approccio migliora le prestazioni in compiti complessi, ma affronta sfide quando si tratta di problemi di complessità variabile, come rivela lo studio Apple.

Lo studio di ricerca

Il team di ricerca Apple ha adottato un approccio diverso per valutare le capacità di ragionamento dei LLM e dei LRM. Invece di affidarsi a benchmark tradizionali come test di matematica o coding, che possono essere influenzati dalla contaminazione dei dati (dove i modelli memorizzano le risposte), hanno creato ambienti di puzzle controllati. Questi includevano puzzle noti come la Torre di Hanoi, il Salto degli Scacchi, il Passaggio del Fiume e il Mondo dei Blocchi. Ad esempio, la Torre di Hanoi consiste nel spostare dischi tra pioli seguendo regole specifiche, con una complessità che aumenta man mano che si aggiungono più dischi. Regolando sistematicamente la complessità di questi puzzle mentre si mantiene una struttura logica coerente, i ricercatori osservano come i modelli si esibiscono su una gamma di difficoltà. Questo metodo ha loro permesso di analizzare non solo le risposte finali, ma anche i processi di ragionamento, che forniscono uno sguardo più approfondito su come questi modelli “pensano”.

Risultati sull’eccesso di pensiero e sulla resa

Lo studio ha identificato tre regimi di prestazioni distinti in base alla complessità del problema:

A bassi livelli di complessità, i LLM standard spesso si esibiscono meglio dei LRM perché i LRM tendono a sovrappensare, generando passaggi extra non necessari, mentre i LLM standard sono più efficienti.
Per problemi di complessità media, i LRM mostrano prestazioni superiori grazie alla loro capacità di generare tracce di ragionamento dettagliate che li aiutano ad affrontare efficacemente queste sfide.
Per problemi di alta complessità, sia i LLM che i LRM falliscono completamente; i LRM, in particolare, sperimentano un crollo totale nell’accuratezza e riducono lo sforzo di ragionamento nonostante l’aumento della difficoltà.

Per puzzle semplici, come la Torre di Hanoi con uno o due dischi, i LLM standard erano più efficienti nel fornire risposte corrette. I LRM, tuttavia, spesso sovrappensavano questi problemi, generando tracce di ragionamento lunghe anche quando la soluzione erastraightforward. Ciò suggerisce che i LRM potrebbero mimare spiegazioni esagerate dai loro dati di addestramento, il che potrebbe portare a inefficienza.

In scenari moderatamente complessi, i LRM si esibirono meglio. La loro capacità di produrre passaggi di ragionamento dettagliati consentì loro di affrontare problemi che richiedevano più passaggi logici. Ciò consente loro di superare i LLM standard, che lottavano per mantenere la coerenza.

Tuttavia, per puzzle estremamente complessi, come la Torre di Hanoi con molti dischi, entrambi i modelli fallirono completamente. Sorprendentemente, i LRM ridussero lo sforzo di ragionamento man mano che la complessità aumentava oltre un certo punto, nonostante avessero risorse computazionali sufficienti. Questo comportamento di “resa” indica una limitazione fondamentale nella loro capacità di scalare le capacità di ragionamento.

Perché accade questo

Il sovrappensiero dei puzzle semplici deriva probabilmente da come i LLM e i LRM sono addestrati. Questi modelli apprendono da vasti set di dati che includono sia spiegazioni concise che dettagliate. Per problemi facili, potrebbero defaultare alla generazione di tracce di ragionamento verbosi, mimando gli esempi lunghi nei loro dati di addestramento, anche quando una risposta diretta sarebbe sufficiente. Questo comportamento non è necessariamente un difetto, ma una riflessione del loro addestramento, che priorizza il ragionamento sull’efficienza.

Il fallimento nei puzzle complessi riflette l’incapacità dei LLM e dei LRM di apprendere a generalizzare regole logiche. Man mano che la complessità del problema aumenta, la loro dipendenza dal riconoscimento di pattern si rompe, portando a un ragionamento incoerente e a un crollo delle prestazioni. Lo studio ha scoperto che i LRM non utilizzano algoritmi espliciti e ragionano in modo incoerente tra puzzle diversi. Ciò evidenzia che, sebbene questi modelli possano simulare il ragionamento, non comprendono veramente la logica sottostante nel modo in cui fanno gli esseri umani.

Prospettive diverse

Questo studio ha scatenato discussioni nella comunità dell’intelligenza artificiale. Alcuni esperti sostengono che questi risultati potrebbero essere fraintesi. Suggeriscono che, sebbene i LLM e i LRM non ragionino come gli esseri umani, dimostrano comunque un’efficace risoluzione dei problemi all’interno di certi limiti di complessità. Sottolineano che il “ragionamento” nell’IA non deve necessariamente riflettere la cognizione umana per essere prezioso. Allo stesso modo, discussioni su piattaforme come Hacker News elogiano l’approccio rigoroso dello studio, ma evidenziano la necessità di ulteriori ricerche per migliorare il ragionamento dell’IA. Queste prospettive enfatizzano il dibattito in corso su cosa costituisce il ragionamento nell’IA e su come dovrebbe essere valutato.

Implicazioni e direzioni future

I risultati dello studio hanno implicazioni significative per lo sviluppo dell’IA. Sebbene i LRM rappresentino un progresso nel mimare il ragionamento umano, le loro limitazioni nel gestire problemi complessi e nel scalare gli sforzi di ragionamento suggeriscono che i modelli attuali sono lontani dal raggiungere un ragionamento generalizzabile. Ciò evidenzia la necessità di nuovi metodi di valutazione che si concentrino sulla qualità e sull’adattabilità dei processi di ragionamento, e non solo sull’accuratezza delle risposte finali.

La ricerca futura dovrebbe mirare a migliorare la capacità dei modelli di eseguire passaggi logici in modo accurato e di adattare lo sforzo di ragionamento in base alla complessità del problema. Sviluppare benchmark che riflettano compiti di ragionamento del mondo reale, come la diagnosi medica o l’argomentazione legale, potrebbe fornire insight più significativi sulle capacità dell’IA. Inoltre, affrontare la dipendenza eccessiva dei modelli dal riconoscimento di pattern e migliorare la loro capacità di generalizzare regole logiche sarà cruciale per avanzare nel ragionamento dell’IA.

Il punto fondamentale

Lo studio fornisce un’analisi critica delle capacità di ragionamento dei LLM e dei LRM. Dimostra che, sebbene questi modelli sovrappensino i puzzle semplici, lottano con quelli più complessi, esponendo sia le loro forze che le loro limitazioni. Sebbene si esibiscano bene in certe situazioni, la loro incapacità di affrontare problemi estremamente complessi evidenzia il divario tra il ragionamento simulato e la vera comprensione. Lo studio sottolinea la necessità di sviluppare un sistema di IA che possa ragionare in modo adattivo su vari livelli di complessità, consentendogli di affrontare problemi con complessità variabili, proprio come fanno gli esseri umani.

Dr. Tehseen Zia

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.

Unite.AI

Perché i LLMs sovrappensano ai puzzle facili ma si arrendono con quelli difficili

Comprendere i LLM e i LRM

Lo studio di ricerca

Risultati sull’eccesso di pensiero e sulla resa

Perché accade questo

Prospettive diverse

Implicazioni e direzioni future

Il punto fondamentale

You may like