Lideri de opinie

Eșecul LLM-urilor în matematică și cum să îl rezolvi

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

Matematica a reprezentat întotdeauna o provocare semnificativă pentru modelele de inteligență artificială. A stăpâni matematica necesită abilități complexe de raționament, iar pentru IA, această sarcină nu este deloc simplă. Acest lucru creează o problemă uriașă, având în vedere importanța competenței matematice pentru succesul profesional, personal și academic.

În ciuda abilităților lor remarcabile, modelele de limbaj mari (LLM) adesea se luptă cu sarcinile matematice complexe, cum ar fi geometria, care necesită abilități avansate de raționament. Acest lucru ne aduce la întrebarea critică: cât din abilitatea matematică a unui model de IA provine dintr-un raționament autentic versus o simplă reamintire a datelor de antrenament?

Descoperirile recente de la Apple arată că, chiar și atunci când se concentrează pe problemele de matematică de școală primară, cele mai sofisticate modele nu sunt complet conduse de “raționament”.

Ducând acest lucru un pas mai departe, echipa de cercetare și dezvoltare de la MathGPT.ai a adus lumina asupra unor domenii de la algebră la nivel de calcul, care necesită cea mai mare îmbunătățire.

Acestă dată a explorat modul în care variațiile de context și limbaj afectează performanța modelului în diferite LLM, incluzând cele mai recente modele o1-preview și o1-mini de la OpenAI. Rezultatele au arătat o tendință îngrijorătoare: acuratețea a scăzut constant pe măsură ce problemele s-au abătut de la întrebările originale disponibile în datele de antrenament ale LLM-urilor, cu o performanță care a scăzut puternic pe benchmark-urile matematice mai dificile deasupra nivelului de matematică de școală primară.

Dilema Raționament vs. Reamintire

Investigația s-a concentrat pe trei factori cheie:

Utilizarea unor benchmark-uri matematice mai dificile decât matematica de școală primară
Explorarea unui “prompt de 1 împușcătură” cu o apropiere extremă de problema de test
Implementarea unei strategii “cea mai bună din n” pentru n încercări la aceeași problemă – în esență, o votare majoritară pentru a elimina anomaliile statistice, la momentul inferenței.

Rezultatele au fost atât intrigante, cât și îngrijorătoare. S-au împins granițele variației problemelor, ceea ce a arătat o scădere constantă a performanței modelului de IA pe măsură ce ecuațiile matematice au devenit mai complexe.

Provocarea setului de date MATH

Setul de date MATH a fost implementat, cunoscut pentru problemele sale dificile de nivel liceal, în contrast cu setul de date Grade School Math 8K, care conține 8.500 de probleme elementare diversificate din punct de vedere lingvistic. Setul de date MATH prezintă întrebări mai dificile de nivel liceal pentru a examina performanța modelului la diferite niveluri de dificultate, de la pre-algebră la teoria numerelor. Acestă alegere a permis MathGPT.ai să examineze mai bine performanța modelului la diferite niveluri de dificultate.

La testare, în timp ce valorile numerice și răspunsurile finale au rămas neschimbate, am variat limbajul, variabilele și contextul problemelor. De exemplu, un scenariu “câine care merge” ar putea fi transformat într-o problemă “mașină de spălat vase”. Această metodă a ajutat la mitigarea complexității crescute a setului de date MATH, în timp ce a continuat să provoace abilitățile de raționament ale modelelor.

Rezultate revelatoare

Rezultatele au fost izbitoare. Chiar și cele mai avansate modele s-au luptat atunci când au fost confruntate cu variații ale problemelor pe care le-au întâlnit probabil în datele lor de antrenament. De exemplu, acuratețea modelului o1-mini a scăzut de la 93,66% la întrebările originale la 88,54% la variația cea mai dificilă. Modelul o1-preview a experimentat o scădere similară, scăzând de la 91,22% la 82,93% – o scădere suficient de bruscă pentru a evidenția lacunele critice în robustețea lor.

Aceste constatări se aliniază și se bazează pe cercetarea anterioară a Apple, demonstrând că limitările raționamentului matematic al IA devin mai evidente pe măsură ce problemele devin mai complexe și necesită o înțelegere mai profundă, în loc de recunoaștere a pattern-urilor.

Calea Înainte

Pe măsură ce continuăm să împingem limitele raționamentului LLM, este crucial să recunoaștem atât potențialul incredibil, cât și limitările actuale. Cercetarea nouă subliniază nevoia de inovație continuă în dezvoltarea de modele de IA capabile să meargă dincolo de recunoașterea pattern-urilor pentru a atinge abilități de rezolvare a problemelor mai robuste și mai generalizabile.

Acest lucru vine într-un moment critic, în special în învățământul superior, unde IA este utilizată mai mult ca un ajutor al instructorilor în sala de clasă, în timp ce școlile continuă să vadă rate ridicate de eșec printre studenții la matematică care nu sunt pregătiți pentru cursuri.

Atingerea capacităților cognitive umane sau a inteligenței generale în IA necesită nu numai progrese tehnologice, ci și o înțelegere nuanțată a modului de a acoperi golul dintre reamintire și raționamentul adevărat.

Dacă vom reuși pe acest drum, sunt convins că putem schimba viețile a milioane de studenți și chiar profesioniști, pentru a pune viețile lor pe o traiectorie complet nouă.

Unite.AI

Eșecul LLM-urilor în matematică și cum să îl rezolvi

Dilema Raționament vs. Reamintire

Provocarea setului de date MATH

Rezultate revelatoare

Calea Înainte

You may like