Intelligenza artificiale

Dalle prove di matematica alla ragione macchina: le ultime lotte dell’AI

Pubblicato il 12 ottobre 2025

Aggiornato il 17 maggio 2026

Dr. Assad Abbas

From Math Exams to Machine Reasoning: AI’s Latest Struggles

Recentemente, l’Intelligenza Artificiale (AI) ha raggiunto un importante traguardo in una delle competizioni matematiche più difficili del mondo, l’Olimpiade Matematica Internazionale (IMO). Il modello sperimentale Gemini Deep Think di Google DeepMind e un modello OpenAI hanno risolto cinque dei sei problemi impegnativi, ottenendo 35 punti su 42, che era la soglia per una medaglia d’oro. Il risultato di DeepMind è stato ufficialmente valutato dai giudici dell’IMO, mentre ex vincitori di medaglie d’oro dell’IMO hanno convalidato il modello OpenAI sotto le stesse restrizioni di tempo e strumenti dei concorrenti umani. Entrambi i sistemi hanno generato prove dettagliate in linguaggio naturale, dimostrando un notevole progresso nella ragione matematica dell’AI.

Nonostante abbia ottenuto buoni risultati in tali competizioni, l’AI fatica con compiti che richiedono creatività, pensiero astratto e analisi logica approfondita. Questi sistemi possono gestire con successo tipi di problemi familiari, ma spesso falliscono su compiti poco familiari o molto complessi che richiedono insight originali. Questa limitazione mette in luce le attuali limitazioni delle capacità di ragionamento dell’AI e identifica aree chiave per future ricerche.

Dalle calcolatrici di base ai contendenti cognitivi dell’AI in matematica

L’AI nella matematica è iniziata con strumenti basati su regole semplici. Le prime calcolatrici digitali erano limitate a eseguire solo operazioni aritmetiche di base. Successivamente, software come Wolfram Alpha e risolutori simbolici hanno automatizzato l’algebra e il calcolo. Questi sistemi aderivano a regole strette e fornivano risposte esatte. Non potevano spiegare il loro ragionamento in linguaggio naturale.

I grandi modelli linguistici (LLM) hanno cambiato questo approccio. A differenza dei sistemi simbolici, gli LLM apprendono da grandi raccolte di testi. Inizialmente, le loro capacità matematiche erano limitate. Spesso fallivano su problemi fondamentali di parole. La fine-tuning graduale ha migliorato le prestazioni. L’addestramento su set di dati come GSM8K e MATH li ha aiutati a seguire un approccio di risoluzione dei problemi passo dopo passo. Inoltre, la tecnica di prompting della catena di pensieri ha incoraggiato il ragionamento completo invece di risposte brevi.

Nel 2023 e 2024, i migliori modelli di AI hanno raggiunto punteggi di livello umano in molti benchmark matematici. Potevano spiegare soluzioni multi-passaggio e risolvere problemi di stile olimpico. Nel 2025, l’AI ha raggiunto un importante traguardo. I sistemi sperimentali di Google DeepMind e OpenAI hanno ottenuto punteggi di livello di medaglia d’oro all’Olimpiade Matematica Internazionale. Ogni sistema di AI ha risolto cinque dei sei problemi a prova utilizzando gli stessi strumenti e tempi dei partecipanti umani. Questo è stato il primo caso in cui l’AI ha raggiunto il livello dei migliori giovani matematici nella valutazione ufficiale dell’IMO.

Perché l’AI fatica ancora con la ragione matematica

L’AI mostra prestazioni forti in molti compiti matematici, ma la sua capacità di ragionamento profondo rimane limitata. Le sezioni seguenti esplorano i fattori dietro queste limitazioni.

Sovrastima dai benchmark standard

Anche con prestazioni forti in competizioni e benchmark matematici, l’AI fatica ancora con il ragionamento profondo. Molti test popolari forniscono una visione eccessivamente ottimistica delle capacità dell’AI. Ciò accade perché i set di problemi spesso riutilizzano domande o assomigliano a compiti presenti nei dati di addestramento dei modelli. Di conseguenza, l’AI può eseguire bene riconoscendo pattern familiari. Tuttavia, manca di un vero ragionamento su nuovi problemi.

FrontierMath Benchmark

Per testare l’AI in modo più rigoroso, i ricercatori hanno introdotto FrontierMath nel 2024. Questo benchmark contiene centinaia di problemi originali creati da matematici esperti, tra cui vincitori di medaglie d’oro dell’IMO e un vincitore della Medaglia Fields. I problemi coprono argomenti avanzati, tra cui teoria dei numeri, analisi fondamentale, geometria algebrica e teoria delle categorie. FrontierMath evita la contaminazione dei dati, il che significa che l’AI non può semplicemente ricordare le risposte. Anche i sistemi più avanzati hanno risolto meno del 2% di questi problemi. Ciò indica un calo significativo rispetto ai benchmark più vecchi, evidenziando il divario tra il successo superficiale e la comprensione genuina.

RIMO e sfide di stile olimpico

RIMO, un altro benchmark, testa l’AI su matematica di stile olimpico. Contiene problemi che richiedono prove precise e verificabili. Le domande sono state adattate da problemi passati dell’Olimpiade Matematica Internazionale e riscritte per evitare la contaminazione dei dati.

RIMO ha due parti. Una si concentra su domande a prova valutate da esperti, mentre l’altra utilizza problemi con risposte numeriche uniche per la valutazione automatica. Entrambi i formati richiedono precisione logica.

I modelli di AI che eseguono bene su benchmark come GSM8K spesso faticano su RIMO. Producono lunghe prove che sembrano corrette ma contengono errori nascosti. Ciò mette in luce una limitazione chiave: l’AI può generare ragionamenti che sembrano convincenti, ma spesso mancano di una solida base logica.

Problematiche di routine e problemi di ragionamento

La distinzione tra problemi di routine e problemi di ragionamento aiuta a spiegare le sfide dell’AI nella matematica. I problemi di routine seguono pattern familiari o modelli. Molti problemi di parole o esercizi di algebra possono essere risolti attraverso il riconoscimento di pattern. L’AI esegue bene su questi compiti, spesso eguagliando o addirittura superando l’accuratezza umana.

I problemi di ragionamento richiedono più del riconoscimento di pattern. Richiedono creatività, pensiero astratto e pianificazione flessibile. Le prove di stile olimpico, ad esempio, testano la capacità di generare nuove idee piuttosto che ripetere soluzioni note. L’AI può produrre testi che assomigliano a prove, ma i revisori esperti spesso trovano lacune nella logica. Passaggi chiave possono mancare o essere debolmente giustificati, e alcune affermazioni mancano di supporto. Queste carenze indicano che l’AI non ha ancora padroneggiato il vero ragionamento matematico.

Limitazioni dei modelli di AI attuali

I modelli di AI attuali hanno ulteriori limitazioni. Gli LLM predicono la prossima parola in una sequenza senza seguire strettamente regole simboliche o matematiche. Ciò può portare a errori come quelli algebrici. L’AI “hallucina” anche, producendo con fiducia soluzioni incorrecte. Nell’istruzione o nella ricerca, questi errori possono fuorviare gli utenti o diffondere conoscenze false.

Problemi di valutazione e punteggio dei benchmark

I metodi di valutazione aggiungono anche a queste debolezze. Ad esempio, molti benchmark controllano solo la risposta finale e trascurano il processo di ragionamento. Ciò incoraggia scorciatoie e scoraggia la risoluzione dei problemi passo dopo passo. Di conseguenza, i modelli possono fornire risposte incorrecte invece di dimostrare una logica affidabile.

Impatto nel mondo reale dei limiti di ragionamento dell’AI

L’AI ha dimostrato risultati forti in competizioni e benchmark matematici; tuttavia, questi risultati non riflettono completamente la situazione. Le debolezze nel ragionamento dell’AI creano sfide serie quando applicate in contesti del mondo reale.

Nell’istruzione, i sistemi di tutoring dell’AI forniscono spiegazioni e problemi di pratica per supportare gli studenti. Tuttavia, il ragionamento difettoso può fuorviare gli apprendenti. Gli studenti possono adottare idee incorrecte, e gli insegnanti devono spendere tempo aggiuntivo per verificare e correggere le uscite dell’AI. Ciò riduce l’utilità dell’AI come strumento didattico.

Nella ricerca scientifica, l’accuratezza nel ragionamento è essenziale. Anche piccoli errori possono interrompere gli esperimenti, sprecare risorse e portare a conclusioni false. Tali errori riducono la fiducia nell’AI come strumento di ricerca e rallentano i progressi nel lavoro scientifico.

Nella medicina, sia l’accuratezza che la chiarezza sono critiche. I sistemi di AI utilizzati per la diagnosi o il trattamento devono spiegare con accuratezza le loro decisioni. Se le spiegazioni sono incomplete o fuorvianti, i medici e i pazienti possono perdere fiducia l’uno nell’altro. Ciò può portare a scelte mediche scadenti con gravi conseguenze.

Nel diritto e nella finanza, gli errori nel ragionamento possono causare dispute legali o perdite finanziarie. I professionisti in questi campi richiedono sistemi di AI che aderiscano a regole coerenti e logiche per garantire equità e affidabilità.

In definitiva, la fiducia nell’AI è a rischio più in generale. I rapporti sui successi dell’AI in competizioni creano aspettative che abbia risolto le sfide del ragionamento. Quando in seguito fallisce su problemi complessi, la fiducia del pubblico declina. Ciò limita l’adozione dell’AI in aree in cui potrebbe ancora fornire valore. Per questo motivo, è essenziale comunicare chiaramente le capacità e le limitazioni dell’AI.

Strategie per migliorare le capacità di ragionamento dell’AI

I ricercatori stanno indagando diverse strategie per affrontare le sfide del ragionamento dell’AI. Una direzione importante è l’AI neuro-simbolica, che combina reti neurali con sistemi di ragionamento simbolico. I modelli neurali sono efficaci nel processare e generare linguaggio naturale, mentre i solutori simbolici applicano regole logiche e algebriche strette. La loro integrazione aiuta a garantire la correttezza in compiti complessi come l’algebra e la logica, riducendo gli errori che sorgono in modelli puramente statistici.

Un altro approccio è la verifica passo dopo passo. In questo metodo, l’AI produce prove passo dopo passo, e sistemi di verifica separati controllano ogni passo per la coerenza. Questo processo riduce il ragionamento falso e le “allucinazioni”, rendendo le uscite dell’AI più affidabili in compiti che richiedono prove rigorose.

I benchmark impegnativi come FrontierMath e RIMO giocano un ruolo vitale. Questi benchmark includono problemi originali che impediscono la memorizzazione e richiedono un vero ragionamento. Il loro uso nell’addestramento e nella valutazione incoraggia i modelli a spostarsi oltre il riconoscimento di pattern verso una comprensione più profonda.

L’uso di strumenti esterni supporta ulteriormente il ragionamento dell’AI. Alcuni sistemi si connettono con Sistemi di Algebra Computazionale (CAS) per eseguire calcoli e manipolazioni precise. Ciò riduce gli errori aritmetici e aumenta l’accuratezza nella risoluzione di problemi multi-passaggio.

L’apprendimento per rinforzo offre un’altra strategia efficace. Premiare i passaggi intermedi di ragionamento corretti invece di solo la risposta finale guida i modelli a concentrarsi sul processo logico e sull’affidabilità.

La collaborazione uomo-AI è essenziale per superare le limitazioni. L’AI può generare lemmi o bozze di percorsi di ragionamento, mentre gli esseri umani verificano e raffinano i risultati. Nell’istruzione, l’AI può fornire problemi di pratica e suggerimenti, ma gli insegnanti garantiscono l’accuratezza e il contesto. Nella ricerca, nella medicina e nel diritto, gli esperti esaminano criticamente le uscite dell’AI prima di prendere decisioni. Questa combinazione di velocità dell’AI e giudizio umano rafforza l’affidabilità.

Gli sviluppatori devono anche migliorare i protocolli di valutazione. Ciò include test con set di dati non pubblicati, problemi avversari e metodi di punteggio che valutano i passaggi di ragionamento oltre alle risposte finali. Tali valutazioni incoraggiano prove accurate e dettagliate invece di scorciatoie.

Il punto fondamentale

Il progresso dell’AI nella matematica riflette sia avanzamenti storici che sfide irrisolte. Dalle calcolatrici di base ai moderni modelli linguistici, l’AI si è evoluta in sistemi in grado di eseguire al livello dei migliori concorrenti umani in competizioni internazionali. Tuttavia, questi successi non significano che l’AI abbia padroneggiato il ragionamento matematico.

I benchmark rigorosi come FrontierMath e RIMO mettono in luce debolezze persistenti nella creatività, nell’astrazione e nella precisione logica. Queste lacune sollevano preoccupazioni serie quando l’AI viene applicata nell’istruzione, nella ricerca, nella medicina, nel diritto o nella finanza, dove l’accuratezza e la fiducia sono essenziali. In futuro, combinare logica simbolica, verifica passo dopo passo, collaborazione uomo-AI e metodi di valutazione più robusti sarà necessario per l’AI per raggiungere un ragionamento affidabile ed effettivamente affrontare problemi del mondo reale complessi.

Dr. Assad Abbas

Il dottor Assad Abbas, professore associato con tenure presso l'Università COMSATS di Islamabad, Pakistan, ha ottenuto il suo dottorato di ricerca presso la North Dakota State University, USA. La sua ricerca si concentra su tecnologie avanzate, tra cui cloud, fog e edge computing, big data analytics e AI. Il dottor Abbas ha fatto contributi sostanziali con pubblicazioni su riviste scientifiche e conferenze reputate. È anche il fondatore di MyFastingBuddy.