Intelligenza artificiale
La Fine della Catena di Pensiero? CoreThink e Ricercatori dell’Università della California Propongono un Cambiamento di Paradigma nel Ragionamento dell’Intelligenza Artificiale

Per anni, la corsa nell’intelligenza artificiale è stata caratterizzata dalla scalabilità. Modelli più grandi, più GPU, prompt più lunghi. OpenAI, Anthropic e Google hanno guidato la carica con enormi modelli di linguaggio (LLM), tecniche di fine-tuning del reinforcement learning e prompt di catena di pensiero – tecniche progettate per simulare il ragionamento scrivendo risposte passo dopo passo.
Ma un nuovo documento tecnico intitolato CoreThink: Un Livello di Ragionamento Simbolico per Ragionare su Compiti a Lungo Termine con LLM dei ricercatori di CoreThink AI e dell’Università della California sostiene che questo paradigma potrebbe aver raggiunto il suo limite. Gli autori avanzano una richiesta provocatoria: gli LLM sono potenti generatori di testo statistico, ma non sono motori di ragionamento. E la catena di pensiero, il metodo più utilizzato per suggerire il contrario, è più un teatro delle prestazioni che una logica genuina.
In risposta, il team introduce General Symbolics, un livello di ragionamento neuro-simbolico progettato per essere integrato nei modelli esistenti. Le loro valutazioni mostrano miglioramenti drammatici in una vasta gamma di benchmark di ragionamento – ottenuti senza dover riaddestrare o aggiungere costi di GPU. Se validato, questo approccio potrebbe segnare un punto di svolta nel modo in cui i sistemi di intelligenza artificiale sono progettati per la logica e la decisione.
Cos’è la Catena di Pensiero – e Perché è Importante
La tecnica di catena di pensiero (CoT) è diventata una delle tecniche più ampiamente adottate nell’intelligenza artificiale moderna. Chiedendo a un modello di scrivere i passaggi del suo ragionamento prima di fornire una risposta, i ricercatori hanno scoperto di poter migliorare i punteggi dei benchmark in aree come la matematica, la codifica e la pianificazione. In superficie, sembrava una svolta.
Eppure, il rapporto sottolinea i limiti di questo approccio. Le spiegazioni di CoT possono sembrare convincenti, ma gli studi mostrano che sono spesso infedeli a ciò che il modello ha effettivamente calcolato, razionalizzando gli output dopo il fatto anziché rivelare la vera logica. Ciò crea rischi nel mondo reale. In medicina, una narrazione plausibile può mascherare la dipendenza da correlazioni spurie, portando a pericolose diagnosi errate. In legge, razionalizzazioni fabbricate potrebbero essere scambiate per giustificazioni genuine, minacciando il processo dovuto e la responsabilità.
Il documento mette inoltre in evidenza l’inefficienza: le catene di CoT spesso crescono eccessivamente lunghe su problemi semplici, mentre si riducono a un ragionamento superficiale su quelli complessi. Il risultato è un calcolo sprecato e, in molti casi, una precisione ridotta. Gli autori concludono che la catena di pensiero è “performatica, non meccanica” – una rappresentazione di superficie che crea l’illusione di interpretazione senza fornirla.
Intelligenza Artificiale Simbolica: Dai Sogni Iniziali ai Nuovi Risvegli
La critica alla CoT invita a guardare indietro alla storia dell’intelligenza artificiale simbolica. Nei suoi primi decenni, la ricerca sull’intelligenza artificiale ruotava attorno a sistemi basati su regole che codificavano la conoscenza in forma logica esplicita. Sistemi di esperti come MYCIN tentavano di diagnosticare malattie applicando regole create a mano, e i sistemi di rilevamento delle frodi si basavano su vasti insiemi di logica per rilevare anomalie.
L’intelligenza artificiale simbolica aveva punti di forza indiscussi: ogni passaggio del suo ragionamento era trasparente e tracciabile. Tuttavia, questi sistemi erano fragili. Codificare decine di migliaia di regole richiedeva un immenso lavoro, e lottavano quando si trovavano di fronte a situazioni nuove. Critici come Hubert Dreyfus sostenevano che l’intelligenza umana dipende da una conoscenza tacita e contestuale che nessun insieme di regole poteva catturare. Negli anni ’90, gli approcci simbolici cedettero il passo alle reti neurali guidate dai dati.
Negli ultimi anni, c’è stato un rinnovato sforzo per combinare i punti di forza di entrambi i mondi attraverso l’intelligenza artificiale neuro-simbolica. L’idea è semplice: lasciare che le reti neurali gestiscano input percettivi confusi come immagini o testo, mentre i moduli simbolici forniscono ragionamento strutturato e garanzie logiche. Tuttavia, la maggior parte di questi ibridi ha lottato con l’integrazione. Le spine dorsali simboliche erano troppo rigide, mentre i moduli neurali spesso minavano la coerenza. Il risultato era costituito da sistemi complessi e pesanti che non riuscivano a fornire l’interpretazione promessa.
General Symbolics: Un Nuovo Livello di Ragionamento
Il General Symbolics Reasoner (GSR) di CoreThink mira a superare questi limiti con un approccio diverso. Invece di tradurre il linguaggio in strutture formali rigide o embedding ad alta dimensionalità, GSR opera interamente all’interno del linguaggio naturale stesso. Ogni passaggio del ragionamento è espresso in parole, garantendo che il contesto, la sfumatura e la modalità siano preservati. Ciò significa che differenze come “deve” versus “dovrebbe” sono trasportate attraverso il processo di ragionamento, anziché essere astratte.
La struttura funziona analizzando gli input in linguaggio naturale, applicando vincoli logici attraverso trasformazioni linguistiche e producendo tracce di ragionamento verbatim che rimangono interamente leggibili dall’uomo. Quando appaiono contraddizioni o errori, vengono esposti direttamente nel percorso di ragionamento, consentendo la trasparenza e il debug. Per rimanere efficienti, il sistema pota i passaggi non necessari, consentendo un ragionamento stabile a lungo termine senza scalare la GPU.
Poiché agisce come un livello e non richiede un riaddestramento, GSR può essere applicato ai modelli di base esistenti. Nelle valutazioni, ha consegnato costantemente miglioramenti di precisione tra il 30 e il 60 percento in compiti di ragionamento, tutto senza aumentare i costi di addestramento.
Risultati dei Benchmark
I miglioramenti sono meglio illustrati attraverso i benchmark. Su LiveCodeBench v6, che valuta problemi di codifica di livello competitivo, CoreThink ha raggiunto un tasso di passaggio del 66,6 percento – sostanzialmente più alto dei modelli leader nella sua categoria. In SWE-Bench Lite, un benchmark per la risoluzione di bug nel mondo reale tratto da repository GitHub, il sistema ha raggiunto una precisione del 62,3 percento, il risultato più alto finora segnalato. E su ARC-AGI-2, uno dei test più impegnativi di ragionamento astratto, ha segnato il 24,4 percento, superando ampiamente modelli all’avanguardia come Claude e Gemini, che rimangono al di sotto del 6 percento.
Questi numeri riflettono più della precisione grezza. Negli studi di caso dettagliati, il livello simbolico ha consentito ai modelli di agire in modo diverso. Ad esempio, in ColumnTransformer di scikit-learn, un modello di base ha proposto una patch superficiale che mascherava l’errore. Il sistema CoreThink-augmentato ha invece identificato il problema di sincronizzazione alla radice e lo ha risolto in modo completo. Su una sfida difficile di LeetCode, il modello di base ha applicato in modo errato la programmazione dinamica e ha fallito completamente, mentre il livello di ragionamento simbolico ha corretto la rappresentazione dello stato difettosa e ha prodotto una soluzione funzionante.
Come Si Inserisce nel Risveglio Simbolico
General Symbolics si unisce a un movimento crescente di tentativi di riportare la struttura nel ragionamento dell’intelligenza artificiale. L’intelligenza artificiale simbolica classica ha mostrato il valore della trasparenza, ma non poteva adattarsi alla novità. Gli ibridi neuro-simbolici tradizionali promettevano un equilibrio, ma spesso diventavano ingombranti. Le pile di pianificazione che fissavano la ricerca ai modelli di linguaggio hanno offerto una prima speranza, ma sono crollate sotto la complessità man mano che i compiti aumentavano.
I progressi recenti puntano al potenziale di nuovi ibridi. Ad esempio, AlphaGeometry di DeepMind ha dimostrato che le strutture simboliche possono superare i modelli neurali puri nei problemi di geometria. L’approccio di CoreThink estende questa tendenza. Nella sua pipeline ARC-AGI, la rilevazione degli oggetti deterministica e l’astrazione dei pattern simbolici sono combinati con l’esecuzione neurale, producendo risultati ben al di là di quelli dei sistemi LLM-only. Nell’uso degli strumenti, il livello simbolico aiuta a mantenere il contesto e a imporre vincoli, consentendo una pianificazione multi-turno più affidabile.
La chiave di distinzione è che General Symbolics non si basa su logica rigida o un riaddestramento massiccio. Ragionando direttamente nel linguaggio, rimane flessibile mentre preserva l’interpretazione. Ciò lo rende più leggero degli ibridi precedenti e, in modo cruciale, pratico per l’integrazione nelle applicazioni aziendali.
Perché è Importante
Se la catena di pensiero è un’illusione di ragionamento, allora l’industria dell’intelligenza artificiale si trova di fronte a una sfida pressante. Le imprese non possono fare affidamento su sistemi che sembrano ragionare solo in superficie, specialmente in ambienti ad alto rischio come la medicina, la legge e la finanza. Il documento suggerisce che i veri progressi verranno non dall’aumentare ulteriormente i modelli, ma dal rivedere le fondamenta stesse del ragionamento.
General Symbolics è una di queste fondamenta. Offre un livello leggero e interpretabile che può migliorare i modelli esistenti senza riaddestramento, producendo miglioramenti genuini del ragionamento anziché narrazioni di superficie. Per la comunità più ampia dell’intelligenza artificiale, segna un possibile cambiamento di paradigma: il ritorno del ragionamento simbolico, non come insiemi di regole fragili, ma come un compagno flessibile dell’apprendimento neurale.
Come affermano gli autori: “Non dobbiamo aggiungere più parametri per ottenere un miglior ragionamento – dobbiamo rivedere le fondamenta.”












