Myšlenkové vůdce
Selhání LLM v matematice a jak jej vyřešit

Matematika vždy představovala pro modely umělé inteligence významnou výzvu. Zvládnutí matematiky vyžaduje komplexní schopnosti uvažování a pro umělou inteligenci je tento úkol všechno, jen ne přímočarý. To vytváří obrovský problém vzhledem k důležitosti matematických znalostí pro profesionální, osobní a akademický úspěch.
Přes jejich pozoruhodné schopnosti, velké jazykové modely (LLM) často bojovat se složitými matematickými úkoly, jako je geometrie, která vyžaduje pokročilé schopnosti uvažování. To nás přivádí ke kritické otázce: jak velká část matematických schopností modelu umělé inteligence pramení ze skutečného uvažování vs. z pouhého vyvolání trénovacích dat?
Nejnovější poznatky od Applu ukazují, že i když se zaměříme na matematické slovní úlohy na základní škole, nejsofistikovanější modely nejsou zcela řízeny „uvažováním“.
Tým R&D na MathGPT.ai šel o krok dále a vrhl nové světlo na oblasti od algebry až po matematiku na úrovni kalkulu, které vyžadují největší zlepšení.
Tato data zkoumala, jak variace v kontextu problému a jazyku ovlivňují výkon modelu v různých LLM, včetně nejnovějších modelů OpenAI o1-preview a o1-mini. Zjištění odhalila znepokojivý trend: přesnost trvale klesala, protože se problémy odchýlily od původních otázek dostupných v tréninkových datech LLM, přičemž výkon prudce klesal na náročnějších matematických měřítcích nad úrovní matematiky na základní škole.
Dilema odvolání vs. uvažování
Průzkum se zaměřil na tři klíčové faktory:
- Použití náročnějších matematických měřítek než matematika základní školy
- Prozkoumání „výzvy na jeden výstřel“ s extrémní blízkostí k testovacímu problému
- Implementace strategie „best of n“ pro n pokusů o stejný problém – efektivně většinové hlasování k odstranění statistických anomálií, v době odvození.
Výsledky byly zajímavé i znepokojivé. Hranice variací problému byly posunuty, což vykazovalo konzistentní pokles výkonnosti modelu AI, jak se matematické rovnice stávaly složitějšími.
Soutěž MATH Dataset Challenge
Jedno Datová sada MATH byla nasazena, známá svými náročnými problémy na střední škole, na rozdíl od datové sady Grade School Math 8K, která obsahuje 8,500 XNUMX lingvisticky různorodých problémů na základní úrovni. Datový soubor MATH představuje náročnější otázky na úrovni střední školy ke zkoumání výkonnosti modelu na různých úrovních obtížnosti, od prealgebry po teorii čísel. Tato volba umožnila MathGPT.ai lépe zkoumat výkon modelu napříč různými úrovněmi obtížnosti.
Při testování, zatímco číselné hodnoty a konečné odpovědi zůstaly nezměněny, jsme měnili jazyk, proměnné a kontext problémů. Například scénář „venčení psů“ se může změnit na problém „myčky nádobí“. Tato metoda pomohla zmírnit zvýšenou složitost datové sady MATH a zároveň zpochybnila uvažovací schopnosti modelů.
Odhalení výsledků
Výsledky byly zarážející. Dokonce i ty nejpokročilejší modely se potýkaly s různými problémy, se kterými se pravděpodobně setkaly ve svých tréninkových datech. Například přesnost jeho modelu o1-mini klesla z 93.66 % u původních otázek na 88.54 % u nejnáročnější varianty. Model o1-preview zaznamenal podobný pokles, klesl z 91.22 % na 82.93 % — — dostatečně prudký pokles, aby zvýraznil kritické mezery v jejich robustnosti.
Tato zjištění jsou v souladu s dřívějším výzkumem společnosti Apple a vycházejí z něj, což dokazuje, že omezení matematického uvažování AI se stávají zjevnějšími, když se problémy stávají složitějšími a vyžadují hlubší porozumění spíše než rozpoznávání vzorů.
Cesta vpřed
Vzhledem k tomu, že stále posouváme hranice uvažování LLM, je zásadní rozpoznat jeho neuvěřitelný potenciál i současná omezení. Nový výzkum podtrhuje potřebu neustálých inovací ve vývoji modelů umělé inteligence schopných překročit hranice rozpoznávání vzorů, aby bylo možné dosáhnout robustnějších a zobecnitelných dovedností při řešení problémů.
To přichází v kritické době, zejména ve vysokoškolském vzdělávání, kde je umělá inteligence více využívána jako pomůcka pro instruktora ve třídě, zatímco školy i nadále zaznamenávají vysokou míru neúspěšnosti mezi studenty matematiky, kteří nejsou na kurzy připraveni.
Dosažení lidských kognitivních schopností nebo obecné inteligence v AI vyžaduje nejen technologický pokrok, ale také jemné porozumění tomu, jak překlenout propast mezi zapamatováním a skutečným uvažováním.
Pokud budeme na této cestě úspěšní, jsem si jistý, že dokážeme změnit životy milionů studentů a dokonce i profesionálů a dát jejich životy na zcela novou dráhu.