Kapcsolatba velünk

Az LLM-ek kudarca a matematikában és hogyan lehet megoldani

Gondolatvezetők

Az LLM-ek kudarca a matematikában és hogyan lehet megoldani

mm

A matematika mindig is jelentős kihívás elé állította az AI-modelleket. A matematika elsajátítása összetett érvelési készségeket igényel, és az AI számára ez a feladat nem egyszerű. Ez óriási problémát jelent, tekintettel a matematikai jártasság fontosságára a szakmai, személyes és tanulmányi siker szempontjából.

Figyelemre méltó képességeik ellenére a nagy nyelvi modellek (LLM) gyakran bonyolult matematikai feladatokkal küzdeni, mint például a geometria, amelyek fejlett érvelési készségeket igényelnek. Ezzel el is érkeztünk a kritikus kérdéshez: egy AI-modell matematikai képessége mennyiben fakad a valódi érvelésből, illetve a tanítási adatok puszta felidézéséből?

Az Apple legújabb eredményei megmutatják, hogy még ha az általános iskolai matematikai szöveges feladatokra összpontosítanak is, a legkifinomultabb modelleket nem teljesen az „okoskodás” vezérli.

Egy lépéssel továbblépve a MathGPT.ai K+F csapata új megvilágításba helyezte az algebra és a számítási szintű matematika azon területeit, amelyek a legtöbb fejlesztést igénylik.

Ezek az adatok azt vizsgálták, hogy a problémakörnyezet és a nyelv eltérései hogyan befolyásolják a modellek teljesítményét a különböző LLM-ekben, beleértve az OpenAI legújabb o1-preview és o1-mini modelljeit. Az eredmények aggasztó tendenciát tártak fel: a pontosság következetesen csökkent, mivel a problémák eltértek az LLM-ek képzési adataiban rendelkezésre álló eredeti kérdésektől, és a teljesítmény meredeken esett a nagyobb kihívást jelentő matematikai benchmarkokon az általános iskolai matematikai szint felett. 

A visszahívás kontra okoskodás dilemma

A vizsgálat három kulcsfontosságú tényezőre összpontosított:

  1. Nagyobb kihívást jelentő matematikai referenciaértékek használata, mint az általános iskolai matematika
  2. Egy „1-shoot prompt” felfedezése a tesztprobléma rendkívüli közelségével
  3. A „best of n” stratégia megvalósítása n kísérletre ugyanarra a problémára – gyakorlatilag többségi szavazás a statisztikai anomáliák kiküszöbölésére, a következtetés időpontjában. 

Az eredmények egyszerre voltak izgalmasak és aggasztóak. A problémaváltoztatás határait megmozdították, ami az AI-modell teljesítményének következetes csökkenését mutatta, ahogy a matematikai egyenletek összetettebbé váltak.

A MATH Dataset Challenge

A MATH adatkészlet került bevezetésre, amely kihívást jelentő középiskolai szintű problémáiról ismert, szemben a Grade School Math 8K adatkészlettel, amely 8,500 nyelvileg változatos elemi szintű feladatot tartalmaz. A MATH adatkészlet nagyobb kihívást jelentő, középiskolai szintű kérdéseket tartalmaz a modellek teljesítményének vizsgálatához különböző nehézségi szinteken, az algebrától a számelméletig. Ez a választás lehetővé tette a MathGPT.ai számára, hogy jobban megvizsgálja a modell teljesítményét a különböző nehézségi szinteken.

A tesztelés során a számértékek és a végső válaszok változatlanok maradtak, de változtattunk a problémák nyelvén, változóin és kontextusán. Például a „kutya sétáltatás” forgatókönyve „mosogatógép” problémává változhat. Ez a módszer segített enyhíteni a MATH adatkészlet megnövekedett összetettségét, miközben továbbra is kihívást jelentett a modellek érvelési képességeivel.

Eredmények feltárása

Az eredmények feltűnőek voltak. Még a legfejlettebb modellek is küzdöttek, amikor olyan problémákkal szembesültek, amelyekkel valószínűleg találkoztak a képzési adataik során. Például az o1-mini modell pontossága az eredeti kérdések 93.66%-áról 88.54%-ra esett a legnagyobb kihívást jelentő változatnál. Az o1-preview modell hasonló visszaesést tapasztalt: 91.22%-ról 82.93%-ra esett vissza – ez elég éles csökkenés ahhoz, hogy kiemelje a robusztusságuk kritikus hiányosságait.

Ezek az eredmények összhangban vannak az Apple korábbi kutatásaival, és azokra építenek, és azt mutatják, hogy a mesterséges intelligencia matematikai érvelésének korlátai egyre nyilvánvalóbbá válnak, ahogy a problémák egyre összetettebbek, és a mintafelismerés helyett mélyebb megértést igényelnek.

Az utat előre

Miközben továbbra is feszegetjük az LLM-gondolkodás határait, kulcsfontosságú, hogy felismerjük a benne rejlő hihetetlen lehetőségeket és a jelenlegi korlátokat. Az új kutatások alátámasztják, hogy folyamatos innovációra van szükség az olyan mesterséges intelligencia-modellek fejlesztésében, amelyek képesek túllépni a mintafelismerésen, hogy robusztusabb és általánosíthatóbb problémamegoldó készségeket érjenek el.

Ez kritikus időszakra esik, különösen a felsőoktatásban, ahol a mesterséges intelligenciát egyre nagyobb mértékben használják oktatói segédeszközként az osztálytermekben, miközben az iskolákban továbbra is magas a kudarcok aránya a kurzusokra felkészületlen matematikahallgatók körében.

Az emberhez hasonló kognitív képességek vagy általános intelligencia elérése a mesterséges intelligencia területén nemcsak technológiai fejlődést igényel, hanem annak árnyalt megértését is, hogyan lehet áthidalni a felidézés és a valódi érvelés közötti szakadékot. 

Ha sikeresek leszünk ezen az úton, biztos vagyok benne, hogy diákok millióinak, sőt szakembereknek az életét megváltoztathatjuk, hogy életüket teljesen új pályára állítsuk.

Péter az elnöke MathGPT.ai, ő is tapasztalt technológiai vállalkozó és mentor, aki az életet javító hatásos megoldások kifejlesztése iránt elkötelezett. Miután 1992-ben diplomát szerzett a Stanfordon, 30 éven át a játékok, az IoT, a szoftverek, a mesterséges intelligencia és az éghajlati innováció területén alapított és támogatott vállalkozásokat.

A YouWeb Inkubátor alapítójaként finanszírozással és gyakorlati mentorálással irányította a startupokat, és figyelemre méltó sikereket ért el. Peter a The Tech, a GotIt! és a GotIt! AI, tanácsot ad az UCLA szén-dioxid-gazdálkodási intézetének, és vezeti a Dharma Karma Alapítványt.