Connect with us

Inteligență artificială

De la examenele de matematică la raționamentul mașinilor: Ultimele lupte ale IA

mm
From Math Exams to Machine Reasoning: AI’s Latest Struggles

Recent, Inteligenta Artificială (IA) a atins un punct de referință istoric în una dintre cele mai dificile concursuri de matematică din lume, Olimpiada Internațională de Matematică (IMO). Gemini Deep Think de la Google DeepMind și un model experimental OpenAI au rezolvat fiecare cinci dintre cele șase probleme dificile, obținând 35 de puncte din 42, care a fost pragul pentru o medalie de aur. Rezultatul DeepMind a fost evaluat oficial de către markerii IMO, în timp ce foști medaliati cu aur la IMO au validat rezultatul OpenAI, în aceleași condiții de timp și restricții de instrumente ca și concurenții umani. Ambele sisteme au generat dovezi detaliate, în limbaj natural, demonstrând progrese remarcabile în raționamentul matematic al IA.

În ciuda performanței bune în astfel de concursuri, IA se luptă cu sarcinile care necesită creativitate, gândire abstractă și analiză logică aprofundată. Aceste sisteme pot gestiona cu succes tipuri de probleme familiare, dar adesea eşuează în fața sarcinilor nefamiliare sau extrem de complexe care cer insight original. Această limitare subliniază limitele actuale ale capacităților de raționament ale IA și identifică domenii cheie pentru cercetarea viitoare.

De la calculatoarele de bază la competitori cognitivi AI în matematică

IA în matematică a început cu unelte bazate pe reguli simple. Calculatoarele digitale timpurii erau limitate la efectuarea de operații aritmetice de bază. Mai târziu, software-ul precum Wolfram Alpha și solvers simbolici au automatizat algebra și calculul. Aceste sisteme au respectat reguli stricte și au oferit răspunsuri exacte. Nu au putut explica însă raționamentul lor în limbaj natural.

Modelele de limbaj mare (LLM) au schimbat această abordare. În contrast cu sistemele simbolice, LLM-urile învață din colecții mari de texte. Inițial, abilitățile lor matematice erau limitate. Adesea au eșuat la probleme fundamentale de cuvinte. Îmbunătățirea graduală a performanței a dus la îmbunătățirea rezultatelor. Antrenarea pe seturi de date precum GSM8K și MATH le-a permis să urmeze o abordare pas cu pas de rezolvare a problemelor. Mai mult, promptarea lanțului de gândire a încurajat raționamentul complet, în loc de răspunsuri scurte.

Până în 2023 și 2024, modelele de IA de top au egalat scorurile umane pe multe benchmark-uri matematice. Au putut explica soluții multietapă și au rezolvat probleme de practică în stil olimpic. În 2025, IA a atins un punct de referință. Sisteme experimentale de la Google DeepMind și OpenAI au obținut scoruri la nivel de medalie de aur la Olimpiada Internațională de Matematică. Fiecare sistem AI a rezolvat cinci dintre șase probleme bazate pe dovezi, utilizând același timp și instrumente ca și participanții umani. Acesta a fost primul moment în care IA a atins nivelul tinerilor matematicieni de top în evaluarea oficială IMO.

De ce IA se luptă încă cu raționamentul matematic

IA arată o performanță puternică pe multe sarcini matematice, însă capacitatea sa de a raționa profund rămâne limitată. Următoarele secțiuni explorează factorii din spatele acestor limitări.

Supraestimarea din cauza benchmark-urilor standard

Chiar și cu o performanță puternică în concursuri și benchmark-uri matematice, IA se luptă încă cu raționamentul profund. Multe teste populare oferă o perspectivă prea optimistă asupra capacităților IA. Acest lucru se întâmplă pentru că seturile de probleme adesea reutilizează întrebări sau seamănă cu sarcinile din datele de antrenare ale modelului. Ca urmare, IA poate performa bine prin recunoașterea de patternuri familiare. Cu toate acestea, îi lipsește raționamentul real pe probleme noi.

Benchmark-ul FrontierMath

Pentru a testa IA într-un mod mai riguros, cercetătorii au introdus FrontierMath în 2024. Acest benchmark conține sute de probleme originale create de matematicieni experți, inclusiv medaliați cu aur la IMO și un laureat al Medaliei Fields. Problemele acoperă subiecte avansate, incluzând teoria numerelor, analiza fundamentală, geometria algebrică și teoria categoriilor. FrontierMath evită contaminarea datelor, ceea ce înseamnă că IA nu poate pur și simplu recita răspunsuri. Chiar și sistemele cele mai avansate au rezolvat mai puțin de 2% din aceste probleme. Acest lucru indică o scădere semnificativă în comparație cu benchmark-urile mai vechi, subliniind decalajul dintre succesul superficial și înțelegerea reală.

RIMO și provocările de stil olimpic

RIMO, un alt benchmark, testează IA pe matematică de stil olimpic. Conține probleme care necesită dovezi precise și verificabile. Întrebările sunt adaptate din probleme trecute ale Olimpiadei Internaționale de Matematică și rescrise pentru a evita contaminarea datelor.

RIMO are două părți. Una se concentrează pe întrebări bazate pe dovezi, evaluate de experți, în timp ce cealaltă folosește probleme cu răspunsuri numerice unice pentru evaluarea automată. Ambele formate cer precizie logică.

Modelele de IA care performează bine pe benchmark-uri precum GSM8K se luptă adesea pe RIMO. Produc dovezi lungi care par corecte, dar conțin erori ascunse. Acest lucru subliniază o limitare cheie, și anume că IA poate genera raționamente care par convingătoare, dar adesea lipsesc o bază logică fermă.

Probleme de rutină versus probleme de raționament

Distincția dintre probleme de rutină și probleme de raționament ajută la explicarea provocărilor IA în matematică. Problemele de rutină urmează patternuri familiare sau șabloane. Multe probleme de cuvinte sau exerciții de algebră pot fi rezolvate prin recunoașterea de patternuri. IA performează bine pe aceste sarcini, adesea egalând sau chiar depășind acuratețea umană.

Problemele de raționament necesită mai mult decât recunoașterea de patternuri. Cer creativitate, gândire abstractă și planificare flexibilă. Dovezile de stil olimpic, de exemplu, testează capacitatea de a genera idei noi, în loc de a repeta soluții cunoscute. IA poate produce texte care par dovezi, dar reviewerii experți adesea găsesc lacune în logică. Pași cheie pot fi lipsă sau slab justificați, iar unele afirmații lipsesc sprijin. Aceste lipsuri indică faptul că IA nu a stăpânit încă raționamentul matematic adevărat.

Limitările actuale ale modelului de IA

Modelele actuale de IA au limitări suplimentare. LLM-urile prezic următorul cuvânt într-o secvență fără a urma strict reguli simbolice sau matematice. Acest lucru poate duce la erori, cum ar fi greșeli algebrice. IA “halucinează” de asemenea, producând cu încredere soluții incorecte. În educație sau cercetare, aceste greșeli pot induce în eroare utilizatorii sau pot răspândi cunoștințe false.

Probleme de evaluare și notare a benchmark-urilor

Metodele de evaluare adaugă și ele la aceste slăbiciuni. De exemplu, multe benchmark-uri verifică doar răspunsul final și ignoră procesul de raționament. Din cauza acestui lucru, ele încurajează scurtăturile și descurajează rezolvarea atentă, pas cu pas, a problemelor. Ca urmare, modelele pot oferi răspunsuri incorecte, în loc de a demonstra logică fiabilă.

Impactul real al limitărilor de raționament ale IA

IA a demonstrat rezultate puternice în concursuri și benchmark-uri matematice; cu toate acestea, aceste realizări nu reflectă pe deplin imaginea de ansamblu. Slăbiciunile în raționamentul IA creează provocări serioase atunci când sunt aplicate în contexte din lumea reală.

În educație, sistemele de tutoriat IA oferă explicații și probleme de practică pentru a sprijini studenții. Cu toate acestea, raționamentul defectuos poate induce în eroare învățăceii. Studenții pot adopta idei incorecte, iar profesorii trebuie să petreacă timp suplimentar verificând și corectând ieșirile IA. Acest lucru reduce utilitatea IA ca ajutor de învățare.

În cercetarea științifică, acuratețea în raționament este esențială. Chiar și erorile mici pot perturba experimentele, irosi resurse și pot duce la concluzii false. Astfel de erori reduc încrederea în IA ca instrument de cercetare și încetinesc progresul în munca științifică.

În medicină, atât acuratețea, cât și claritatea sunt critice. Sistemele de IA utilizate pentru diagnostic sau tratament trebuie să explice cu acuratețe deciziile lor. Dacă explicațiile sunt incomplete sau înșelătoare, medicii și pacienții pot pierde încrederea unii în alții. Acest lucru poate duce la alegeri medicale proaste, cu consecințe grave.

În drept și finanțe, erorile de raționament pot cauza dispute legale sau pierderi financiare. Profesionistilor din aceste domenii li se cer sisteme de IA care să respecte reguli consistente și logice pentru a asigura echitatea și fiabilitatea.

În cele din urmă, încrederea în IA este pusă în pericol în general. Rapoartele despre succesul IA în concursuri creează așteptări că a rezolvat provocările de raționament. Când ulterior eşuează pe probleme complexe, încrederea publică scade. Acest lucru limitează adoptarea IA în domenii în care ar putea încă oferi valoare. Din acest motiv, este esențial să comunicăm clar capacitățile și limitările IA.

Strategii pentru îmbunătățirea capacităților de raționament ale IA

Cercetătorii investighează mai multe abordări pentru a aborda provocările de raționament cu care se confruntă IA. O direcție importantă este IA neuro-simbolice, care combină rețelele neuronale cu sisteme de raționament simbolice. Modelele neuronale sunt eficiente în procesarea și generarea limbajului natural, în timp ce solvers simbolici aplică reguli logice și algebrice stricte. Integrarea lor ajută la asigurarea corectitudinii în sarcini complexe, cum ar fi algebra și logica, reducând erorile care apar în modelele pur statistice.

O altă abordare este verificarea pas cu pas. În această metodă, IA produce dovezi pas cu pas, iar sisteme separate de verificare verifică fiecare pas pentru consistență. Acest proces reduce raționamentul fals și “halucinațiile”, făcând ieșirile IA mai fiabile în sarcini care necesită dovezi riguroase.

Benchmark-urile provocatoare, cum ar fi FrontierMath și RIMO, joacă de asemenea un rol vital. Aceste benchmark-uri includ probleme originale care previn memorarea și necesită un raționament real. Utilizarea lor în antrenare și evaluare încurajează modelele să se miște dincolo de recunoașterea de patternuri către o înțelegere mai profundă.

Utilizarea unor instrumente externe susține, de asemenea, raționamentul IA. Unele sisteme se conectează la Sisteme de Algebră Computerizată (CAS) pentru a efectua calcule și manipulări precise. Acest lucru reduce erorile aritmetice și crește acuratețea în rezolvarea problemelor multietapă.

Învățarea prin întărire oferă o altă strategie eficientă. Prin recompensarea pașilor intermediari de raționament corect, în loc de a se concentra doar pe răspunsul final, această metodă îndrumă modelele să se concentreze pe procesul logic și pe fiabilitate.

Colaborarea dintre oameni și IA este, de asemenea, esențială pentru a depăși limitările. IA poate genera leme sau proiecta căi de raționament, în timp ce oamenii verifică și rafinează rezultatele. În educație, IA poate oferi probleme de practică și indicii, dar profesorii asigură acuratețea și contextul. În cercetare, medicină și drept, experții examinează critic ieșirile IA înainte de a lua decizii. Această combinație de viteză a IA și judecată umană întărește fiabilitatea.

Dezvoltatorii trebuie, de asemenea, să îmbunătățească protocoalele de evaluare. Acest lucru include testarea cu seturi de date nepublicate, probleme adversative și metode de notare care evaluează pașii de raționament, pe lângă răspunsurile finale. Astfel de evaluări încurajează dovezi atente și detaliate, în loc de scurtături.

Concluzia

Progresul IA în matematică reflectă atât avansuri istorice, cât și provocări nerezolvate. De la calculatoarele de bază la modelele de limbaj moderne, IA a evoluat în sisteme capabile să performeze la nivelul concurenților umani de top în competiții internaționale. Cu toate acestea, aceste succese nu înseamnă că IA a stăpânit raționamentul matematic.

Benchmark-urile riguroase, cum ar fi FrontierMath și RIMO, expun slăbiciuni persistente în creativitate, abstracție și precizie logică. Aceste lacune ridică preocupări serioase atunci când IA este aplicată în educație, cercetare, medicină, drept sau finanțe, unde acuratețea și încrederea sunt esențiale. Înainte, combinarea logicii simbolice, verificării pas cu pas, colaborării umane și a metodelor de evaluare mai robuste va fi necesară pentru ca IA să atingă un raționament fiabil și să abordeze eficient problemele complexe din lumea reală.

Dr. Assad Abbas, un profesor asociat titular la Universitatea COMSATS Islamabad, Pakistan, a obținut doctoratul de la Universitatea de Stat din Dakota de Nord, USA. Cercetările sale se axează pe tehnologii avansate, inclusiv calculul în cloud, fog și edge, analiza datelor mari și inteligența artificială. Dr. Abbas a făcut contribuții substanțiale prin publicații în reviste științifice și conferințe reputabile. El este, de asemenea, fondatorul MyFastingBuddy.