Artificiell intelligens
FrÄn silver till guld: Hur DeepMinds AI erövrade matematik-olympiaden

DeepMinds AI har gjort anmÀrkningsvÀrda framsteg inom matematiskt resonemang pÄ bara ett Är. Efter att ha vunnit en silvermedalj vid den internationella matematiska olympiaden (IMO) 2024, tog deras AI-system guldmedalj 2025. Denna snabba utveckling belyser den vÀxande förmÄgan hos artificiell intelligens att hantera komplexa, abstrakta problem som krÀver mÀnniskoliknande kreativitet och insikt. Den hÀr artikeln kommer att gÄ igenom hur DeepMind Ästadkom denna omvandling, de tekniska och strategiska valen bakom den, och de bredare konsekvenserna av dessa framsteg.
IMO:s betydelse
Ocuco-landskapet Internationell matematikolympiad, grundad 1959, Àr globalt erkÀnd som den frÀmsta matematiktÀvlingen för gymnasieelever. Varje Är stÀlls toppstudenter frÄn hela vÀrlden inför sex utmanande problem inom algebra, geometri, talteori och kombinatorik. Att lösa dessa problem krÀver mycket mer Àn bara berÀkningar; deltagarna mÄste visa verklig matematisk kreativitet, rigoröst logiskt tÀnkande och förmÄgan att konstruera eleganta bevis.
För artificiell intelligens utgör IMO en unik utmaning. Medan AI har bemÀstrat mönsterigenkÀnning, dataanalys och till och med komplexa spel som Go och schack, krÀver olympisk matematik kreativt, abstrakt resonemang och syntes av nya idéer, fÀrdigheter som traditionellt anses vara kÀnnetecken för mÀnsklig intelligens. Som ett resultat har IMO blivit en naturlig testbÀdd för att utvÀrdera hur nÀra AI Àr att uppnÄ verkligt mÀnniskoliknande resonemang.
Silvermedaljgenombrottet 2024
Ă r 2024, DeepMind introducerade tvĂ„ AI-system för att hantera problem pĂ„ IMO-nivĂ„: AlphaProof och AlphaGeometry 2. BĂ„da systemen Ă€r exempel pĂ„ âneuro-symbolisktâAI, som kombinerar styrkorna hos stora sprĂ„kmodeller (LLM) med den symboliska logikens noggrannhet.â
AlphaProof utformades för att bevisa matematiska pÄstÄenden med hjÀlp av Lean, ett formellt matematiskt sprÄk. Det kombinerade Gemini, DeepMinds stora sprÄkmodell, med Alpha Zero, vilket Àr en förstÀrkningsinlÀrningsmotor kÀnd för sina framgÄngar inom brÀdspel. I den hÀr miljön var Gemini:s roll att översÀtta problem med naturligt sprÄk till Lean och försöka bevisa genom att generera logiska steg. AlphaProof trÀnades pÄ miljontals exempelproblem som spÀnde över olika matematiska discipliner och svÄrighetsgrader. Systemet förbÀttrade sig sjÀlvt genom att försöka bevisa alltmer komplexa pÄstÄenden, ungefÀr som AlphaZero lÀrde sig genom att spela spel mot sig sjÀlvt.
AlphaGeometry 2 var utformad för att lösa geometriska problem. HÀr gjorde Gemini sprÄkförstÄelse det möjligt för AI:n att förutsÀga hjÀlpsamma hjÀlpkonstruktioner, medan en symbolisk resonemangsmotor hanterade de logiska deduktionerna. Denna hybridmetod tillÀt Alfageometri att ta itu med geometriska problem lÄngt bortom ramen för traditionellt maskinresonemang.
Tillsammans löste dessa system fyra av sex IMO-problem: tvÄ i algebra, ett i talteori och ett i geometri, och uppnÄdde en poÀng pÄ 28 av 42. Denna prestation var en betydande milstolpe, eftersom det var första gÄngen en AI hade... kommit fram till silvermedaljnivÄn vid IMO. Denna framgÄng var dock starkt beroende av mÀnskliga experter för att översÀtta problem till formella matematiska sprÄk. De krÀvde ocksÄ massiva berÀkningsresurser, vilket tog dagar av bearbetningstid för varje problem.
Tekniska innovationer bakom guldmedaljen
DeepMinds övergÄng frÄn silver till en guldmedalj Prestandan drevs av flera betydande tekniska förbÀttringar.
1. Naturligt sprÄk som medium för bevis
Den viktigaste förÀndringen var övergÄngen frÄn system som krÀvde expertöversÀttningar till formella sprÄk till att behandla naturligt sprÄk som medium för bevis. Denna förÀndring uppnÄs genom en förbÀttrad version av Gemini. utrustad med DjuptÀnkande möjligheter. IstÀllet för att omvandla problem till Lean bearbetar modellen texten direkt, genererar informella skisser, formaliserar kritiska steg internt och producerar ett förfinat engelskt bevis. FörstÀrkning av lÀrande frÄn mÀnsklig feedback (RLHF) anvÀndes för att belöna lösningar som var logiskt konsekventa, korta och presenterade.
Gemini Deep Think skiljer sig frÄn den publika versionen av Gemini pÄ tvÄ huvudsakliga sÀtt. För det första allokerar den lÀngre kontextfönster och fler berÀkningstokens per frÄga, vilket gör det möjligt för modellen att upprÀtthÄlla flersidiga tankekedjor. För det andra anvÀnder den parallellt resonemang, dÀr hundratals spekulativa trÄdar genereras för olika potentiella lösningar. En lÀttviktsövervakare rangordnar och marknadsför sedan de mest lovande vÀgarna och lÄnar koncept frÄn Monte Carlo trÀdsökning men tillÀmpas pÄ text. Denna metod hÀrmar hur mÀnskliga team brainstormar, förkastar improduktiva idéer och enas kring eleganta lösningar.
2. Utbildning och förstÀrkningsinlÀrning
Att trÀna Gemini Deep Think innebar att finjustera modellen för att förutsÀga nÀsta steg snarare Àn slutgiltiga svar. För detta ÀndamÄl sammanstÀlldes en samling av 100,000 XNUMX högkvalitativa lösningar frÄn olympiader och grundutbildningstÀvlingar. Sammanfattningen samlades huvudsakligen in frÄn offentliga matematikforum, arXiv-förtryck och universitetsproblem. MÀnskliga mentorer granskade trÀningsexempel för att filtrera bort ologiska eller ofullstÀndiga bevis. FörstÀrkande lÀrande hjÀlpte till att förfina modellen och styrde den mot att producera koncisa och precisa bevis. Tidiga versioner producerade alltför utförliga bevis, men straff pÄ överflödiga fraser hjÀlpte till att trimma resultatet.
Till skillnad frÄn konventionell finjustering, som ofta kÀmpar med glesa belöningar dÀr feedbacken Àr binÀr, Àr antingen beviset korrekt eller inte. DeepMind implementerade ett stegvis belöningssystem, dÀr varje verifierat dellemma bidrog till den totala poÀngen. Denna belöningsmekanism vÀgleder Gemini Àven nÀr fullstÀndiga bevis Àr sÀllsynta. TrÀningsprocessen strÀckte sig över tre mÄnader och anvÀnde cirka 25 miljoner TPU-timmar.
3. Massiv parallellisering
Parallelisering spelade ocksĂ„ en avgörande roll i DeepMinds utveckling frĂ„n silver till guld. Varje problem genererade flera resonemangsgrenar parallellt, dĂ€r resurser dynamiskt skiftade till mer lovande vĂ€gar nĂ€r andra stannade av. Denna dynamiska schemalĂ€ggning var sĂ€rskilt fördelaktig för kombinatoriska problem, som har stora lösningsutrymmen. TillvĂ€gagĂ„ngssĂ€ttet liknar hur mĂ€nniskor testar hjĂ€lpolikheter innan de förbinder sig till en fullstĂ€ndig induktion. Ăven om denna teknik var berĂ€kningsmĂ€ssigt dyr, var den hanterbar med DeepMinds TPU v5-kluster.
DeepMind pÄ IMO 2025
För att upprÀtthÄlla tÀvlingens integritet fryste DeepMind modellens vikter tre veckor före IMO för att förhindra att officiella problem lÀckte in i trÀningsuppsÀttningen. De filtrerade ocksÄ bort data som innehöll lösningar pÄ tidigare opublicerade olympiadfrÄgor.
Under tÀvlingen fick Gemini Deep Think tillgÄng till de sex officiella problemen i klartextformat, utan tillgÄng till internet. Systemet fungerade pÄ ett kluster konfigurerat för att simulera berÀkningskraften hos en vanlig bÀrbar dator per process. Hela problemlösningsprocessen slutfördes pÄ mindre Àn tre timmar, vÀl inom tidsgrÀnserna. De genererade bevisen skickades in till IMO-koordinatorerna utan Àndringar.
Gemini Deep Think fick perfekta poÀng pÄ de fem första problemen. Den sista frÄgan, som var ett utmanande kombinatoriskt pussel, överraskade dock bÄde AI och 94 % av de mÀnskliga deltagarna. Trots detta slutade AI:n med en totalpoÀng pÄ 35/42 och sÀkrade en guldmedalj. Denna poÀng var sju poÀng högre Àn föregÄende Ärs silverprestation. Observatörer beskrev senare AI:s bevis som "noggranna" och "fullstÀndiga" och noterade att de följde de rigorösa motiveringar som förvÀntas av mÀnskliga tÀvlande.
Implikationer för AI och matematik
DeepMinds prestation Àr en betydande milstolpe för bÄde AI och matematik. För AI Àr bemÀstringen av IMO ett steg mot artificiell generell intelligens (AGI), dÀr system kan utföra vilken intellektuell uppgift som helst som en mÀnniska kan. Att lösa komplexa matematiska problem krÀver resonemang och förstÄelse, vilka Àr grundlÀggande komponenter i generell intelligens. Denna framgÄng indikerar att AI gör framsteg mot mer mÀnniskoliknande kognitiva förmÄgor.
För matematik kan AI-system som Gemini Deep Think bli ovÀrderliga verktyg för matematiker. De kan hjÀlpa till att utforska nya omrÄden, verifiera antaganden och till och med upptÀcka nya satser. Genom att automatisera de mer mödosamma aspekterna av beviskonstruktion frigör AI mÀnskliga matematiker att fokusera pÄ konceptuellt arbete pÄ högre nivÄ. Dessutom kan de tekniker som utvecklats för dessa AI-system inspirera till nya metoder inom matematisk forskning som kanske inte Àr möjliga enbart genom mÀnsklig anstrÀngning.
Men AI:s framsteg inom matematik vÀcker ocksÄ frÄgor om AI:s roll i utbildningsmiljöer och tÀvlingar. I takt med att AI:s kapacitet fortsÀtter att vÀxa kommer det att debatteras hur dess inblandning kan förÀndra karaktÀren av matematikutbildning och tÀvlingar.
Looking Forward
Att vinna IMO-guld Àr en betydande milstolpe, men mÄnga matematiska utmaningar Àr fortfarande utom rÀckhÄll för nuvarande AI-system. Den snabba utvecklingen frÄn silver till guld pÄ bara ett Är belyser dock den accelererande takten för AI-innovationer och utvecklingar. Om denna takt fortsÀtter kan AI-system snart ta itu med nÄgra av matematikens mest kÀnda olösta problem. Medan frÄgan om AI kommer att ersÀtta eller förbÀttra mÀnsklig kreativitet fortfarande Àr olöst, Àr IMO 2025 en tydlig indikation pÄ att artificiell intelligens har gjort betydande framsteg inom logiskt resonemang.