Intelligenza artificiale

Come gli LLM ci costringono a ridefinire l’intelligenza

Published September 7, 2025

Updated April 26, 2026

Dr. Tehseen Zia

C’è un vecchio detto: Se sembra un’anatra, nuota come un’anatra e fa “quack” come un’anatra, allora probabilmente è un’anatra. Questo semplice modo di ragionare, spesso collegato al poeta dell’Indiana James Whitcomb Riley, ha plasmato il nostro modo di pensare all’intelligenza artificiale per decenni. L’idea che il comportamento sia sufficiente per identificare l’intelligenza ha ispirato il famoso “Gioco di imitazione” di Alan Turing, ora chiamato Turing Test.

Turing suggeriva che se un essere umano non può dire se sta conversando con una macchina o un altro essere umano, allora la macchina può essere considerata intelligente. Sia il test dell’anatra che il test di Turing suggeriscono che ciò che conta non è ciò che si trova all’interno di un sistema, ma come si comporta. Per decenni, questo test ha guidato i progressi nell’IA. Ma, con l’arrivo dei grandi modelli linguistici (LLM), la situazione è cambiata. Questi sistemi possono scrivere testi fluenti, condurre conversazioni e risolvere compiti in modi che sembrano sorprendentemente umani. La domanda non è più se le macchine possano imitare la conversazione umana, ma se questa imitazione è vera intelligenza. Se un sistema può scrivere come noi, ragionare come noi e anche creare come noi, dovremmo chiamarlo intelligente? O il comportamento da solo non è più sufficiente per misurare l’intelligenza?

L’evoluzione dell’intelligenza delle macchine

I grandi modelli linguistici hanno cambiato il nostro modo di pensare all’IA. Questi sistemi, un tempo limitati a generare risposte di testo di base, possono ora risolvere problemi logici, scrivere codice per computer, stendere storie e anche assistere con compiti creativi come la stesura di sceneggiature. Uno dei principali sviluppi in questo progresso è la loro capacità di risolvere problemi complessi attraverso un ragionamento passo dopo passo, un metodo noto come Chain-of-thought reasoning. Suddividendo un problema in parti più piccole, un LLM può risolvere problemi matematici complessi o puzzle logici in un modo che sembra simile al problema umano. Questa capacità gli ha permesso di eguagliare o addirittura superare le prestazioni umane su benchmark avanzati come MATH o GSM8K. Oggi, gli LLM possiedono anche capacità multimodali. Possono lavorare con immagini, interpretare scansioni mediche, spiegare puzzle visivi e descrivere diagrammi complessi. Con questi progressi, la domanda non è più se gli LLM possano imitare il comportamento umano, ma se questo comportamento riflette una vera comprensione.

Tracce di pensiero simile a quello umano

Il successo degli LLM sta ridefinendo il nostro modo di comprendere l’intelligenza. L’attenzione si sta spostando dall’allineamento del comportamento dell’IA con gli esseri umani, come suggerito dal test di Turing, all’esplorazione di come gli LLM riflettono il pensiero umano nel modo in cui elaborano le informazioni (cioè un vero pensiero simile a quello umano). Ad esempio, in uno studio recente, i ricercatori hanno confrontato il funzionamento interno dei modelli di IA con l’attività del cervello umano. Lo studio ha scoperto che gli LLM con oltre 70 miliardi di parametri non solo hanno raggiunto la precisione umana, ma hanno anche organizzato le informazioni internamente in modi che corrispondono ai modelli del cervello umano.

Quando sia gli esseri umani che i modelli di IA hanno lavorato su compiti di riconoscimento di pattern, le scansioni del cervello hanno mostrato modelli di attività simili nei partecipanti umani e modelli computazionali corrispondenti nei modelli di IA. I modelli hanno raggruppato concetti astratti nei loro strati interni in modi che corrispondono direttamente all’attività delle onde cerebrali umane. Ciò suggerisce che un ragionamento di successo potrebbe richiedere strutture organizzative simili, sia in sistemi biologici che artificiali.

Tuttavia, i ricercatori sono cauti nel notare i limiti di questo lavoro. Lo studio ha coinvolto un numero relativamente piccolo di partecipanti umani e gli esseri umani e le macchine hanno affrontato i compiti in modi diversi. Gli esseri umani hanno lavorato con pattern visivi, mentre i modelli di IA hanno elaborato descrizioni di testo. La correlazione tra l’elaborazione umana e quella della macchina è intrigante, ma non dimostra che le macchine comprendono i concetti nello stesso modo degli esseri umani.

Ci sono anche chiare differenze nelle prestazioni. Mentre i migliori modelli di IA hanno raggiunto la precisione umana su pattern semplici, hanno mostrato cali di prestazioni più drammatici sui compiti più complessi rispetto ai partecipanti umani. Ciò suggerisce che nonostante le somiglianze nell’organizzazione, potrebbero ancora esserci differenze fondamentali nel modo in cui gli esseri umani e le macchine elaborano concetti astratti complessi.

La prospettiva scettica

Nonostante questi risultati impressionanti, un forte argomento suggerisce che gli LLM sono nulla più che abili imitatori. Questa visione deriva dall’esperimento di pensiero del filosofo John Searle della “Chinese Room“, che illustra perché il comportamento potrebbe non essere uguale alla comprensione.

In questo esperimento di pensiero, Searle ci chiede di immaginare una persona chiusa in una stanza e che parla solo inglese. La persona riceve simboli cinesi e utilizza un libro di regole in inglese per manipolare questi simboli e produrre risposte. Dall’esterno della stanza, le sue risposte sembrano esattamente come quelle di un madrelingua cinese. Tuttavia, Searle sostiene che la persona non capisce nulla del cinese. Segue semplicemente le regole senza una vera comprensione.

I critici applicano la stessa logica agli LLM. Sostengono che questi sistemi sono “stochastic parrots” che generano risposte in base a modelli statistici nei loro dati di training, non a una vera comprensione. Il termine “stocastico” si riferisce alla loro natura probabilistica, mentre “pappagallo” enfatizza il loro comportamento imitativo senza vera comprensione.

Diverse limitazioni tecniche degli LLM sostengono questo argomento. Gli LLM generano frequentemente “allucinazioni“; risposte che sembrano plausibili ma sono completamente errate, fuorvianti e insensate. Ciò accade perché selezionano parole statisticamente plausibili invece di consultare una base di conoscenze interna o capire la verità e la falsità. Questi modelli riproducono anche errori e pregiudizi umani. Si confondono con informazioni irrilevanti che gli esseri umani ignorerebbero facilmente. Esibiscono stereotipi razziali e di genere perché hanno appreso da dati che contengono questi pregiudizi. Un’altra limitazione rivelatrice è il “bias di posizione”, dove i modelli enfatizzano eccessivamente le informazioni all’inizio o alla fine di lunghi documenti mentre trascurano il contenuto centrale. Questo fenomeno “perso nel mezzo” suggerisce che questi sistemi elaborano le informazioni in modo molto diverso dagli esseri umani, che possono mantenere l’attenzione su interi documenti.

Queste limitazioni evidenziano una sfida centrale: mentre gli LLM eccellono nel riconoscere e riprodurre modelli linguistici, ciò non significa che comprendano veramente il significato o il contesto del mondo reale. Si comportano bene nel gestire la sintassi ma rimangono limitati quando si tratta di semantica.

Cosa conta come intelligenza?

La discussione alla fine si riduce a come definiamo l’intelligenza. Se l’intelligenza è la capacità di generare linguaggio coerente, risolvere problemi e adattarsi a nuove situazioni, allora gli LLM già soddisfano questo standard. Tuttavia, se l’intelligenza richiede autoconsapevolezza, vera comprensione o esperienza soggettiva, questi sistemi sono ancora carenti.

La difficoltà è che non abbiamo un modo chiaro o oggettivo per misurare qualità come la comprensione o la coscienza. Sia negli esseri umani che nelle macchine, le inferiamo dal comportamento. Il test dell’anatra e il test di Turing un tempo fornivano risposte eleganti, ma nell’era degli LLM, potrebbero non essere più sufficienti. Le loro capacità ci costringono a riconsiderare cosa conta veramente come intelligenza e se le nostre definizioni tradizionali stanno tenendo il passo con la realtà tecnologica.

Il punto fondamentale

I grandi modelli linguistici sfidano il nostro modo di definire l’intelligenza dell’IA. Possono imitare il ragionamento, generare idee e svolgere compiti un tempo considerati esclusivamente umani. Eppure, mancano della consapevolezza e della base che plasmano il vero pensiero simile a quello umano. La loro ascesa ci costringe a chiedere non solo se le macchine agiscono in modo intelligente, ma cosa significa veramente l’intelligenza.

Dr. Tehseen Zia

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.