Connect with us

Från silver till guld: Hur DeepMinds AI erövrade matematikolympiaden

Artificiell intelligens

Från silver till guld: Hur DeepMinds AI erövrade matematikolympiaden

mm

DeepMinds AI har gjort remarkabla framsteg inom matematiskt resonemang inom loppet av bara ett år. Efter att ha vunnit en silvermedalj vid den internationella matematikolympiaden (IMO) 2024, vann deras AI-system en guldmedalj 2025. Denna snabba utveckling belyser den växande förmågan hos artificiell intelligens att hantera komplexa, abstrakta problem som kräver mänsklig kreativitet och insikt. Den här artikeln kommer att gå igenom hur DeepMind uppnådde denna transformation, de tekniska och strategiska valen bakom det, och de bredare implikationerna av dessa framsteg.

IMO:s betydelse

Den internationella matematikolympiaden, som etablerades 1959, erkänns globalt som den främsta matematiktävlingen för gymnasieelever. Varje år möter toppstudenter från hela världen sex utmanande problem inom algebra, geometri, talteori och kombinatorik. Att lösa dessa problem kräver mycket mer än beräkningar; deltagare måste visa riktigt matematiskt kreativitet, rigoröst logiskt tänkande och förmåga att konstruera eleganta bevis.

För artificiell intelligens presenterar IMO en unik utmaning. Medan AI har bemästrat mönsterigenkänning, dataanalys och till och med komplexa spel som Go och schack, kräver olympiadmatematik kreativ, abstrakt resonemang och syntes av nya idéer, färdigheter som traditionellt anses vara kännetecken för mänsklig intelligens. Som ett resultat har IMO blivit en naturlig testbädd för att utvärdera hur nära AI är att uppnå riktigt mänskligt resonemang.

Genombrottet med silvermedalj 2024

2024 introducerade DeepMind två AI-system för att hantera IMO-nivåproblem: AlphaProof och AlphaGeometry 2. Båda systemen är exempel på “neuro-symbolisk” AI, som kombinerar styrkorna hos stora språkmodeller (LLM) med den rigor som symbolisk logik erbjuder.

AlphaProof var utformat för att bevisa matematiska påståenden med hjälp av Lean, ett formellt matematiskt språk. Det kombinerade Gemini, DeepMinds stora språkmodell, med AlphaZero, som är en förstärkt inlärningsmotor som är känd för sin framgång i brädspel. I detta sammanhang var rollen för Gemini att översätta naturliga språkproblem till Lean och försöka bevisa genom att generera logiska steg. AlphaProof tränades på miljontals exempelproblem som omfattar olika matematiska discipliner och svårighetsgrader. Systemet förbättrade sig själv genom att försöka bevisa alltmer komplexa påståenden, liknande hur AlphaZero lärde sig genom att spela spel mot sig själv.

AlphaGeometry 2 var utformat för att lösa geometriproblem. Här möjliggjorde Geminis språkförståelse för AI att förutsäga hjälpsamma auxiliära konstruktioner, medan en symbolisk resonansmotor hanterade de logiska deduktionerna. Denna hybridapproach tillät AlphaGeometry att hantera geometriproblem långt utöver det traditionella maskinella resonemangets omfång.

Tillsammans löste dessa system fyra av sex IMO-problem: två i algebra, ett i talteori och ett i geometri, och uppnådde en poäng på 28 av 42. Denna prestation var en betydande milstolpe, eftersom det var första gången en AI hade uppnått silvermedaljnivå vid IMO. Men denna framgång byggde tungt på mänskliga experter för att översätta problem till formella matematiska språk. De krävde också massiva beräkningsresurser, som tog dagar av bearbetningstid för varje problem.

Tekniska innovationer bakom guldmedaljen

DeepMinds övergång från en silver till en guldmedalj prestation drevs av flera betydande tekniska förbättringar.

1. Naturligt språk som medium för bevis

Den mest betydande förändringen var att gå från system som krävde expertöversättningar till formella språk till att behandla naturligt språk som mediet för bevis. Denna förändring uppnåddes genom en förbättrad version av Gemini utrustad med Deep Think-funktioner. Istället för att konvertera problem till Lean, bearbetar modellen texten direkt, genererar informella skisser, formaliserar interna kritiska steg och producerar en raffinerad engelsk bevis. Förstärkt inlärning från mänsklig feedback (RLHF) användes för att belöna lösningar som var logiskt konsekventa, korta och presenterade.

Gemini Deep Think skiljer sig från den offentliga versionen av Gemini på två sätt. Först allokerar den längre kontextfönster och fler beräknings-token per fråga, vilket möjliggör för modellen att upprätthålla multi-sidiga kedjor av tankar. För det andra använder den parallellt resonemang, där hundratals spekulativa trådar genereras för olika potentiella lösningar. En lätt supervisor rangordnar och främjar sedan de mest lovande vägarna, lånar koncept från Monte Carlo-trädsökning men tillämpat på text. Denna approach imiterar hur mänskliga team brainstormar, kastar bort oproduktiva idéer och konvergerar mot eleganta lösningar.

2. Träning och förstärkt inlärning

Träning av Gemini Deep Think innebar att finjustera modellen för att förutsäga nästa steg snarare än slutliga svar. För detta ändamål samlades en korpus av 100 000 högkvalitativa olympiad- och universitetskontestlösningar. Korpusen samlades främst från offentliga matematikforum, arXiv-förtryck och collegeproblemsamlingar. Mänskliga mentorer granskade träningsexempel för att filtrera illogiska eller ofullständiga bevis. Förstärkt inlärning hjälpte till att finslipa modellen, som puffade den mot att producera koncisa och precisa bevis. Tidiga versioner producerade alltför verbala bevis, men straff på redundanta fraser hjälpte till att trimma utdata.

Till skillnad från konventionell finjustering, som ofta kämpar med glesa belöningar där feedback är binärt, antingen är beviset korrekt eller inte. DeepMind implementerade ett stegvis belöningssystem, där varje verifierad sub-lemma bidrog till den totala poängen. Denna belöningsmekanism guidar Gemini även när fullständigt bevis är ovanligt. Träningsprocessen omfattade tre månader och använde cirka 25 miljoner TPU-timmar.

3. Massiv parallellisering

Parallellisering spelade också en avgörande roll i DeepMinds framsteg från silver till guld. Varje problem genererade flera resonemangsgrenar i parallell, med resurser som dynamiskt skiftade till mer lovande vägar när andra stannade. Denna dynamiska schemaläggning var särskilt fördelaktig för kombinatoriska problem, som har stora lösrymder. Tillvägagångssättet är liknande hur människor testar auxiliära olikheter innan de åtar sig en fullständig induktion. Medan denna teknik var beräkningsmässigt dyrt, var den hanterbar med hjälp av DeepMinds TPU v5-kluster.

DeepMind vid IMO 2025

För att upprätthålla integriteten i tävlingen fryste DeepMind modellens vikt tre veckor före IMO för att förhindra läckage av officiella problem till träningsuppsättningen. De filtrerade också bort data som innehöll lösningar på tidigare opublicerade olympiadfrågor.

Under tävlingen tillhandahölls Gemini Deep Think de sex officiella problemen i ren textformat, utan att ge åtkomst till internet. Systemet opererade på ett kluster konfigurerat för att simulera den beräkningskraft som en standardbärbar dator per process. Hela problemlösningsprocessen slutfördes på mindre än tre timmar, väl inom tidsbegränsningarna. De genererade bevisen skickades till IMO-koordinatorerna utan ändringar.

Gemini Deep Think uppnådde full poäng på de fem första problemen. Den sista frågan, som var ett utmanande kombinatoriskt pussel, stoppade dock både AI och 94% av mänskliga deltagare. Trots detta avslutade AI med en totalpoäng på 35/42 och säkrade en guldmedalj. Denna poäng var sju poäng högre än föregående års silverprestation. Observatörer beskrev senare AI:s bevis som “flitiga” och “komplett”, noterande att de följde de rigorösa motiveringar som förväntades av mänskliga deltagare.

Implikationer för AI och matematik

DeepMinds prestation är en betydande milstolpe för både AI och matematik. För AI är att bemästra IMO ett steg mot artificiell allmän intelligens (AGI), där system kan utföra vilken intellektuell uppgift som helst som en människa kan. Att lösa komplexa matematiska problem kräver resonemang och förståelse, som är grundläggande komponenter i allmän intelligens. Denna framgång indikerar att AI gör framsteg mot mer mänskliga kognitiva förmågor.

För matematiken kan AI-system som Gemini Deep Think bli ovärderliga verktyg för matematiker. De kan hjälpa till att utforska nya områden, verifiera hypoteser och till och med upptäcka nya satser. Genom att automatisera de mer tråkiga aspekterna av beviskonstruktion frigör AI mänskliga matematiker att fokusera på högre nivå konceptuellt arbete. Dessutom kan de tekniker som utvecklats för dessa AI-system inspirera nya metoder i matematisk forskning som kanske inte är möjliga genom mänskligt arbete ensamt.

Men AI:s framsteg inom matematik väcker också frågor om AI:s roll i utbildningsmiljöer och tävlingar. När AI:s förmågor fortsätter att växa, kommer det att finnas debatter om hur dess inblandning kan förändra naturen av matematikutbildning och tävling.

Blickar framåt

Att vinna IMO-guld är en betydande milstolpe, men många matematiska utmaningar ligger fortfarande utom räckhåll för nuvarande AI-system. Men den snabba utvecklingen från silver till guld på bara ett år belyser den accelererande takten i AI-innovationer och utveckling. Om denna takt fortsätter, kan AI-system snart hantera några av matematikens mest kända olösta problem. Medan frågan om AI kommer att ersätta eller förbättra mänsklig kreativitet förblir olöst, är IMO 2025 ett tydligt tecken på att artificiell intelligens har gjort betydande framsteg i logiskt resonemang.

Dr. Tehseen Zia är en fast anställd biträdande professor vid COMSATS University Islamabad, med en doktorsexamen i AI från Vienna University of Technology, Österrike. Specialiserad på artificiell intelligens, maskinlärning, datavetenskap och datorseende, har han gjort betydande bidrag med publikationer i ansedda vetenskapliga tidskrifter. Dr. Tehseen har också lett olika industriprojekt som huvudutredare och tjänstgjort som AI-konsult.