Gondolatvezetők
Az LLM-ek kudarca a matematikában és hogyan lehet megoldani

A matematika mindig is jelentős kihívás elé állította az AI-modelleket. A matematika elsajátítása összetett érvelési készségeket igényel, és az AI számára ez a feladat nem egyszerű. Ez óriási problémát jelent, tekintettel a matematikai jártasság fontosságára a szakmai, személyes és tanulmányi siker szempontjából.
Figyelemre méltó képességeik ellenére a nagy nyelvi modellek (LLM) gyakran bonyolult matematikai feladatokkal küzdeni, mint például a geometria, amelyek fejlett érvelési készségeket igényelnek. Ezzel el is érkeztünk a kritikus kérdéshez: egy AI-modell matematikai képessége mennyiben fakad a valódi érvelésből, illetve a tanítási adatok puszta felidézéséből?
Az Apple legújabb eredményei megmutatják, hogy még ha az általános iskolai matematikai szöveges feladatokra összpontosítanak is, a legkifinomultabb modelleket nem teljesen az „okoskodás” vezérli.
Egy lépéssel továbblépve a MathGPT.ai K+F csapata új megvilágításba helyezte az algebra és a számítási szintű matematika azon területeit, amelyek a legtöbb fejlesztést igénylik.
Ezek az adatok azt vizsgálták, hogy a problémakörnyezet és a nyelv eltérései hogyan befolyásolják a modellek teljesítményét a különböző LLM-ekben, beleértve az OpenAI legújabb o1-preview és o1-mini modelljeit. Az eredmények aggasztó tendenciát tártak fel: a pontosság következetesen csökkent, mivel a problémák eltértek az LLM-ek képzési adataiban rendelkezésre álló eredeti kérdésektől, és a teljesítmény meredeken esett a nagyobb kihívást jelentő matematikai benchmarkokon az általános iskolai matematikai szint felett.
A visszahívás kontra okoskodás dilemma
A vizsgálat három kulcsfontosságú tényezőre összpontosított:
- Nagyobb kihívást jelentő matematikai referenciaértékek használata, mint az általános iskolai matematika
- Egy „1-shoot prompt” felfedezése a tesztprobléma rendkívüli közelségével
- A „best of n” stratégia megvalósítása n kísérletre ugyanarra a problémára – gyakorlatilag többségi szavazás a statisztikai anomáliák kiküszöbölésére, a következtetés időpontjában.
Az eredmények egyszerre voltak izgalmasak és aggasztóak. A problémaváltoztatás határait megmozdították, ami az AI-modell teljesítményének következetes csökkenését mutatta, ahogy a matematikai egyenletek összetettebbé váltak.
A MATH Dataset Challenge
A MATH adatkészlet került bevezetésre, amely kihívást jelentő középiskolai szintű problémáiról ismert, szemben a Grade School Math 8K adatkészlettel, amely 8,500 nyelvileg változatos elemi szintű feladatot tartalmaz. A MATH adatkészlet nagyobb kihívást jelentő, középiskolai szintű kérdéseket tartalmaz a modellek teljesítményének vizsgálatához különböző nehézségi szinteken, az algebrától a számelméletig. Ez a választás lehetővé tette a MathGPT.ai számára, hogy jobban megvizsgálja a modell teljesítményét a különböző nehézségi szinteken.
A tesztelés során a számértékek és a végső válaszok változatlanok maradtak, de változtattunk a problémák nyelvén, változóin és kontextusán. Például a „kutya sétáltatás” forgatókönyve „mosogatógép” problémává változhat. Ez a módszer segített enyhíteni a MATH adatkészlet megnövekedett összetettségét, miközben továbbra is kihívást jelentett a modellek érvelési képességeivel.
Eredmények feltárása
Az eredmények feltűnőek voltak. Még a legfejlettebb modellek is küzdöttek, amikor olyan problémákkal szembesültek, amelyekkel valószínűleg találkoztak a képzési adataik során. Például az o1-mini modell pontossága az eredeti kérdések 93.66%-áról 88.54%-ra esett a legnagyobb kihívást jelentő változatnál. Az o1-preview modell hasonló visszaesést tapasztalt: 91.22%-ról 82.93%-ra esett vissza – ez elég éles csökkenés ahhoz, hogy kiemelje a robusztusságuk kritikus hiányosságait.
Ezek az eredmények összhangban vannak az Apple korábbi kutatásaival, és azokra építenek, és azt mutatják, hogy a mesterséges intelligencia matematikai érvelésének korlátai egyre nyilvánvalóbbá válnak, ahogy a problémák egyre összetettebbek, és a mintafelismerés helyett mélyebb megértést igényelnek.
Az utat előre
Miközben továbbra is feszegetjük az LLM-gondolkodás határait, kulcsfontosságú, hogy felismerjük a benne rejlő hihetetlen lehetőségeket és a jelenlegi korlátokat. Az új kutatások alátámasztják, hogy folyamatos innovációra van szükség az olyan mesterséges intelligencia-modellek fejlesztésében, amelyek képesek túllépni a mintafelismerésen, hogy robusztusabb és általánosíthatóbb problémamegoldó készségeket érjenek el.
Ez kritikus időszakra esik, különösen a felsőoktatásban, ahol a mesterséges intelligenciát egyre nagyobb mértékben használják oktatói segédeszközként az osztálytermekben, miközben az iskolákban továbbra is magas a kudarcok aránya a kurzusokra felkészületlen matematikahallgatók körében.
Az emberhez hasonló kognitív képességek vagy általános intelligencia elérése a mesterséges intelligencia területén nemcsak technológiai fejlődést igényel, hanem annak árnyalt megértését is, hogyan lehet áthidalni a felidézés és a valódi érvelés közötti szakadékot.
Ha sikeresek leszünk ezen az úton, biztos vagyok benne, hogy diákok millióinak, sőt szakembereknek az életét megváltoztathatjuk, hogy életüket teljesen új pályára állítsuk.