Intelligenza Artificiale
Come gli LLM ci stanno costringendo a ridefinire l'intelligenza

C'è un vecchio detto: Se sembra un'anatra, nuota come un'anatra e starnazza come un'anatra, allora probabilmente è un'anatra. Questo semplice modo di ragionare, spesso associato al poeta dell'Indiana James Whitcomb Riley, ha plasmato il nostro modo di pensare all'intelligenza artificiale per decenni. L'idea che il comportamento sia sufficiente per identificare l'intelligenza ha ispirato il famoso "Gioco dell'imitazione" di Alan Turing, ora chiamato Test di Turing.
Turing suggerì che se un essere umano non è in grado di dire se sta conversando con una macchina o con un altro essere umano, allora la macchina può essere definita intelligente. Sia il test dell'anatra che il test di Turing suggeriscono che ciò che conta non è ciò che si trova all'interno di un sistema, ma come si comporta. Per decenni, questo test ha guidato i progressi dell'intelligenza artificiale. Ma, con l'avvento dei modelli linguistici di grandi dimensioni (LLM), la situazione è cambiata. Questi sistemi possono scrivere testi fluenti, sostenere conversazioni e risolvere compiti in modi che risultano straordinariamente umani. La domanda non è più se le macchine possano imitare la conversazione umana, ma se questa imitazione sia vera intelligenza. Se un sistema può scrivere come noi, ragionare come noi e persino creare come noi, dovremmo definirlo intelligente? O il comportamento da solo non è più sufficiente per misurare l'intelligenza?
L'evoluzione dell'intelligenza artificiale
I modelli linguistici di grandi dimensioni hanno cambiato il nostro modo di concepire l'intelligenza artificiale. Questi sistemi, un tempo limitati alla generazione di semplici risposte testuali, ora possono risolvere problemi logici, scrivere codice informatico, abbozzare storie e persino supportare attività creative come la sceneggiatura. Uno sviluppo chiave in questo progresso è la loro capacità di risolvere problemi complessi attraverso il ragionamento passo dopo passo, un metodo noto come Catena di pensieri Ragionamento. Scomponendo un problema in parti più piccole, un LLM può risolvere complessi problemi matematici o enigmi logici in un modo che assomiglia alla risoluzione dei problemi umana. Questa capacità ha permesso loro di eguagliare o addirittura superare le prestazioni umane in parametri avanzati come MATEMATICA or GSM8KOggi, gli LLM possiedono anche capacità multimodaliPossono lavorare con immagini, interpretare scansioni mediche, spiegare enigmi visivi e descrivere diagrammi complessi. Con questi progressi, la questione non è più se gli LLM possano imitare il comportamento umano, ma se questo comportamento rifletta una comprensione autentica.
Tracce di pensiero umano
Il successo degli LLM sta ridefinendo il nostro modo di intendere l'intelligenza. L'attenzione si sta spostando dall'allineamento del comportamento dell'IA con quello umano, come suggerito dal test di Turing, all'esplorazione di quanto gli LLM rispecchino il pensiero umano nel modo in cui elaborano le informazioni (ovvero un pensiero realmente simile a quello umano). Ad esempio, in un recente studioI ricercatori hanno confrontato il funzionamento interno dei modelli di intelligenza artificiale con l'attività cerebrale umana. Lo studio ha scoperto che i LLM con oltre 70 miliardi di parametri non solo raggiungevano un'accuratezza pari a quella umana, ma organizzavano anche le informazioni internamente in modo da rispecchiare gli schemi cerebrali umani.
Quando sia gli esseri umani che i modelli di intelligenza artificiale hanno lavorato su compiti di riconoscimento di pattern, le scansioni cerebrali hanno mostrato schemi di attività simili nei partecipanti umani e corrispondenti schemi computazionali nei modelli di intelligenza artificiale. I modelli hanno raggruppato i concetti astratti nei loro livelli interni in modi che corrispondevano direttamente all'attività delle onde cerebrali umane. Ciò suggerisce che un ragionamento efficace potrebbe richiedere strutture organizzative simili, sia nei sistemi biologici che in quelli artificiali.
Tuttavia, i ricercatori sono attenti a sottolineare i limiti di questo lavoro. Lo studio ha coinvolto un numero relativamente piccolo di partecipanti umani, e uomini e macchine hanno affrontato i compiti in modo diverso. Gli esseri umani hanno lavorato con schemi visivi, mentre i modelli di intelligenza artificiale elaboravano descrizioni testuali. La correlazione tra l'elaborazione umana e quella delle macchine è intrigante, ma non dimostra che le macchine comprendano i concetti allo stesso modo degli esseri umani.
Ci sono anche chiare differenze nelle prestazioni. Mentre i migliori modelli di intelligenza artificiale si avvicinavano all'accuratezza umana su pattern semplici, hanno mostrato cali di prestazioni più drastici nei compiti più complessi rispetto ai partecipanti umani. Ciò suggerisce che, nonostante le somiglianze nell'organizzazione, potrebbero esserci ancora differenze fondamentali nel modo in cui esseri umani e macchine elaborano concetti astratti complessi.
La prospettiva scettica
Nonostante questi risultati impressionanti, un'argomentazione convincente suggerisce che gli LLM non siano altro che imitatori molto abili. Questa visione deriva dal filosofo John Searle: "Stanza cinese” esperimento mentale che illustra perché il comportamento potrebbe non essere sinonimo di comprensione.
In questo esperimento mentale, Searle ci chiede di immaginare una persona chiusa in una stanza e in grado di parlare solo inglese. La persona riceve simboli cinesi e usa un manuale di regole in inglese per manipolarli e produrre risposte. Dall'esterno della stanza, le sue risposte sembrano esattamente quelle di un madrelingua cinese. Tuttavia, Searle sostiene che la persona non capisce nulla di cinese. Si limita a seguire le regole senza alcuna reale comprensione.
I critici applicano la stessa logica agli LLM. Sostengono che questi sistemi sono "pappagalli stocastici" che generano risposte basate su modelli statistici nei loro dati di addestramento, non su una comprensione genuina. Il termine "stocastico" si riferisce alla loro natura probabilistica, mentre "a pappagallo" enfatizza il loro comportamento imitativo senza una reale comprensione.
Anche diverse limitazioni tecniche degli LLM supportano questa argomentazione. Gli LLM generano spesso “allucinazioni"; risposte che sembrano plausibili ma completamente errate, fuorvianti e prive di senso. Questo accade perché selezionano parole statisticamente plausibili anziché consultare una base di conoscenza interna o comprendere il vero e il falso. Questi modelli riproducono anche errori e pregiudizi simili a quelli umani. Si confondono con informazioni irrilevanti che gli esseri umani ignorerebbero facilmente. Presentano stereotipi razziali e di genere perché hanno imparato da dati che contengono questi pregiudizi. Un altro limite rivelatore è il "bias di posizione", in cui i modelli enfatizzano eccessivamente le informazioni all'inizio o alla fine di documenti lunghi, trascurando il contenuto centrale. Questo "perso nel mezzo” Il fenomeno suggerisce che questi sistemi elaborano le informazioni in modo molto diverso dagli esseri umani, che riescono a mantenere l'attenzione su interi documenti.
Questi limiti evidenziano una sfida fondamentale: sebbene gli LLM eccellano nel riconoscere e riprodurre modelli linguistici, ciò non significa che ne comprendano veramente il significato o il contesto del mondo reale. Hanno buone capacità nella gestione della sintassi, ma rimangono limitati in termini di semantica.
Cosa si intende per intelligenza?
Il dibattito, in ultima analisi, si riduce a come definiamo l'intelligenza. Se l'intelligenza è la capacità di generare un linguaggio coerente, risolvere problemi e adattarsi a nuove situazioni, allora gli LLM soddisfano già questo standard. Tuttavia, se l'intelligenza richiede consapevolezza di sé, comprensione autentica o esperienza soggettiva, questi sistemi risultano comunque insufficienti.
La difficoltà sta nel fatto che non disponiamo di un metodo chiaro e oggettivo per misurare qualità come la comprensione o la coscienza. Sia negli esseri umani che nelle macchine, le deduciamo dal comportamento. Il test dell'anatra e il test di Turing un tempo fornivano risposte eleganti, ma nell'era degli LLM potrebbero non essere più sufficienti. Le loro capacità ci costringono a riconsiderare cosa si intenda veramente per intelligenza e se le nostre definizioni tradizionali siano al passo con la realtà tecnologica.
Conclusione
I grandi modelli linguistici mettono in discussione il nostro modo di definire l'intelligenza artificiale. Possono imitare il ragionamento, generare idee e svolgere compiti un tempo considerati prettamente umani. Eppure mancano della consapevolezza e del fondamento che plasmano il vero pensiero umano. La loro ascesa ci costringe a chiederci non solo se le macchine agiscano in modo intelligente, ma anche cosa significhi realmente l'intelligenza stessa.












