Liderzy opinii

Niepowodzenie modeli LLM w matematyce i jak temu zaradzić

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

Matematyka zawsze stanowiła znaczące wyzwanie dla modeli sztucznej inteligencji. Opanowanie matematyki wymaga złożonych umiejętności rozumowania, a dla sztucznej inteligencji jest to zadanie wszystko tylko nie proste. To tworzy ogromny problem, biorąc pod uwagę znaczenie biegłości matematycznej dla sukcesu zawodowego, osobistego i akademickiego.

Pomimo ich niezwykłych możliwości, duże modele językowe (LLM) często mają trudności z złożonymi zadaniami matematycznymi, takimi jak geometria, które wymagają zaawansowanych umiejętności rozumowania. To prowadzi nas do krytycznego pytania: ile zdolności matematycznych modelu sztucznej inteligencji wynika z prawdziwego rozumowania, a ile z samych danych szkoleniowych?

Najnowsze odkrycia Apple pokazują, że nawet gdy modele koncentrują się na zadaniach matematycznych na poziomie szkoły podstawowej, najbardziej zaawansowane modele nie są w pełni napędzane przez „rozumowanie”.

Idąc o krok dalej, zespół badawczo-rozwojowy MathGPT.ai rzucił nowe światło na obszary algebry, rachunku różniczkowego i całkowego, które wymagają największych ulepszeń.

Dane te badały, jak zmiany kontekstu problemu i języka wpływają na wyniki modelu w różnych LLM, w tym w najnowszych modelach OpenAI o1-preview i o1-mini. Wyniki ujawniły niepokojący trend: dokładność spadała systematycznie, gdy problemy odbiegały od oryginalnych pytań dostępnych w danych szkoleniowych LLM, a wyniki spadały gwałtownie w przypadku bardziej wymagających matematycznych benchmarków powyżej poziomu szkoły podstawowej.

Dylemat pamięci vs. rozumowania

Śledztwo skupiło się na trzech kluczowych czynnikach:

Użycie bardziej wymagających benchmarków matematycznych niż matematyka szkoły podstawowej
Eksploracja „1-shot prompt” z ekstremalną bliskością do testowego problemu
Wdrożenie strategii „best of n” dla n prób rozwiązania tego samego problemu – efektywnie głosowanie większościowe w celu wyeliminowania anomalii statystycznych podczas wnioskowania.

Wyniki były zarówno interesujące, jak i niepokojące. Granice zmiany problemu zostały przesunięte, co pokazało systematyczny spadek wyników modelu sztucznej inteligencji, gdy równania matematyczne stawały się coraz bardziej złożone.

Wyzwanie zestawu danych MATH

Zestaw danych MATH został wdrożony, znany z wymagających zadań na poziomie szkoły średniej, w przeciwieństwie do zestawu danych Grade School Math 8K, który zawiera 8 500 językowo zróżnicowanych zadań na poziomie podstawowym. Zestaw danych MATH przedstawia bardziej wymagające zadania na poziomie szkoły średniej, aby zbadać wyniki modelu na różnych poziomach trudności, od przedmiotu algebra do teorii liczb. Ten wybór pozwolił MathGPT.ai lepiej zbadać wyniki modelu na różnych poziomach trudności.

Podczas testowania, podczas gdy wartości numeryczne i ostateczne odpowiedzi pozostały niezmienne, zmieniono język, zmienne i kontekst problemów. Na przykład, scenariusz „pies idący” mógł zostać przekształcony w problem „zmywarki”. Ta metoda pomogła złagodzić zwiększoną złożoność zestawu danych MATH, nadal wyzwając umiejętności rozumowania modelu.

Ujawniające wyniki

Wyniki były uderzające. Nawet najbardziej zaawansowane modele miały trudności, gdy spotkały się z wariacjami problemów, które prawdopodobnie spotkały w danych szkoleniowych. Na przykład, dokładność modelu o1-mini spadła z 93,66% w przypadku oryginalnych pytań do 88,54% w przypadku najbardziej wymagającej wariacji. Model o1-preview doświadczył podobnego spadku, spadając z 91,22% do 82,93% – wystarczająco wyraźny spadek, aby podkreślić krytyczne luki w ich wytrzymałości.

Te wyniki są zgodne z wcześniejszymi badaniami Apple i pokazują, że ograniczenia w matematycznym rozumowaniu sztucznej inteligencji stają się bardziej widoczne, gdy problemy stają się coraz bardziej złożone i wymagają głębszego zrozumienia, a nie tylko rozpoznawania wzorców.

Ścieżka do przodu

Podczas gdy będziemy kontynuować poszerzanie granic rozumowania LLM, jest kluczowe, aby rozpoznać zarówno ich niesamowite możliwości, jak i bieżące ograniczenia. Nowe badania podkreślają potrzebę dalszej innowacji w tworzeniu modeli sztucznej inteligencji, które mogą przerwać granice rozpoznawania wzorców, aby osiągnąć bardziej solidne i ogólniejsze umiejętności rozwiązywania problemów.

To przychodzi w krytycznym momencie, szczególnie w edukacji wyższej, gdzie sztuczna inteligencja jest używana coraz częściej jako pomoc instruktora w sali lekcyjnej, a jednocześnie szkoły nadal doświadczają wysokich wskaźników niepowodzeń wśród uczniów, którzy nie są przygotowani do zajęć z matematyki.

Osiągnięcie ludzkich możliwości kognitywnych lub ogólnej inteligencji w sztucznej inteligencji wymaga nie tylko postępu technologicznego, ale także nuansowanego zrozumienia, jak przezwyciężyć lukę między pamięcią a prawdziwym rozumowaniem.

Jeśli będziemy skuteczni na tej ścieżce, jestem przekonany, że możemy zmienić życie milionów uczniów i nawet profesjonalistów, aby postawić ich życie na całkowicie nowej trajektorii.

Unite.AI

Niepowodzenie modeli LLM w matematyce i jak temu zaradzić

Dylemat pamięci vs. rozumowania

Wyzwanie zestawu danych MATH

Ujawniające wyniki

Ścieżka do przodu

You may like