Kunstig intelligens
Fra Sølv til Guld: Hvordan DeepMinds AI Erobrerde Matematikolympiaden

DeepMinds AI har gjort bemærkelsesværdige fremskridt i matematisk resonnering inden for blot ét år. Efter at have vundet en sølvmedalje ved Den Internationale Matematikolympiade (IMO) i 2024, vandt deres AI-system en guldmedalje i 2025. Denne hurtige fremgang understreger de voksende evner til kunstig intelligens i at tackle komplekse, abstrakte problemer, der kræver menneske-lignende kreativitet og indsigt. Denne artikel vil gå igennem, hvordan DeepMind opnåede denne transformation, de tekniske og strategiske valg bag det, og de bredere implikationer af disse fremskridt.
Betydningen af IMO
Den Internationale Matematikolympiade, etableret i 1959, anerkendes globalt som den førende matematikkonkurrence for gymnasieelever. Hvert år står topstudenter fra hele verden over for seks udfordrende problemer inden for algebra, geometri, talteori og kombinatorik. At løse disse problemer kræver meget mere end beregning; deltagerne må vise rigtig matematisk kreativitet, streng logisk tænkning og evnen til at konstruere elegante beviser.
For kunstig intelligens udgør IMO en unik udfordring. Mens AI har mestret mønstergenkendelse, dataanalyse og endda komplekse spil som Go og skak, kræver olympiadematematik kreative, abstrakte resonneringer og syntesen af nye ideer, færdigheder, der traditionelt betragtes som kendetegn for menneskelig intelligens. Derfor er IMO blevet en naturlig testzone for at evaluere, hvor tæt AI er på at opnå virkelig menneske-lignende resonnering.
Sølvmedalje-gennembruddet i 2024
I 2024 introducerede DeepMind to AI-systemer til at tackle IMO-niveau-problemer: AlphaProof og AlphaGeometry 2. Begge systemer er eksempler på “neuro-symbolisk” AI, der kombinerer styrkerne fra store sprogmodeller (LLM’er) med rigor af symbolisk logik.
AlphaProof var designet til at bevise matematiske udsagn ved hjælp af Lean, et formelt matematisk sprog. Det kombinerede Gemini, DeepMinds store sprogmodel, med AlphaZero, som er en styrke-læringsmotor kendt for sin succes i brætspil. I denne sammenhæng var Geminis rol at oversætte naturlige sprogproblemer til Lean og forsøge beviser ved at generere logiske trin. AlphaProof var trænet på millioner af eksempler på problemer, der spændte over forskellige matematiske discipliner og sværhedsgrader. Systemet forbedrede sig selv ved at forsøge at bevise stadig mere komplekse udsagn, ligesom AlphaZero lærte ved at spille spil mod sig selv.
AlphaGeometry 2 var designet til at løse geometriproblemer. Her enablede Geminis sprogforståelse AI’en til at forudsige nyttige hjælpekonstruktioner, mens en symbolisk resonansmotor styrede de logiske slutninger. Denne hybridtilgang tillod AlphaGeometry at tackle geometriske problemer langt ud over omfanget af traditionel maskinresonans.
Sammen løste disse systemer fire af seks IMO-problemer: to i algebra, en i talteori og en i geometri, og opnåede en score på 28 af 42. Denne præstation var en betydelig milepæl, da det var første gang, en AI havde nået sølvmedaljeniveauet ved IMO. Men denne succes afhængige stærkt af menneskelige eksperter til at oversætte problemer til formelle matematiske sprog. De krævede også massive beregningsressourcer, som tog dage af proces tid for hvert problem.
Tekniske innovationer bag guldmedaljen
DeepMinds overgang fra en sølv til en guldmedalje præstation blev drevet af flere betydelige tekniske forbedringer.
1. Naturligt sprog som medium for beviser
Den mest betydelige ændring var skiftet fra systemer, der krævede ekspertoversættelser til formelle sprog, til at behandle naturligt sprog som medium for beviser. Dette skift opnås gennem en forbedret version af Gemini udstyret med Deep Think-kapaciteter. I stedet for at konvertere problemer til Lean, behandler modellen teksten direkte, genererer uformelle skitser, internt formaliserer kritiske trin og producerer en raffineret engelsk bevis. Styrke-læringsfeedback fra menneskeligt feedback (RLHF) blev brugt til at belønne løsninger, der var logisk konsistente, korte og præsenterede.
Gemini Deep Think adskiller sig fra den offentlige version af Gemini på to måder. Først tildeler det længere kontekstvinduer og flere beregnings tokens per forespørgsel, hvilket ermöglicer modellen at opretholde multi-sidige kæder af tanker. For det andet bruger det parallel resonans, hvor hundredvis af spekulative tråde genereres for forskellige potentielle løsninger. En let supervisor rangerer og fremmer herefter de mest lovende stier, låner koncepter fra Monte Carlo-træsøgning, men anvendt på tekst. Denne tilgang ligner, hvordan menneskelige hold brainstormer, forkaster uproduktive ideer og konvergerer på elegante løsninger.
2. Træning og styrke-læringsprocessen
Træning af Gemini Deep Think involverede finjustering af modellen til at forudsige næste trin i stedet for endelige svar. Til dette formål blev en samling af 100.000 højkvalitetsolympiade- og universitetskonkurrence-løsninger samlet. Samlingen blev hovedsagelig indsamlet fra offentlige matematik-fora, arXiv-preprints og college-problemsæt. Menneskelige mentorer gennemgik træningseksempler for at filtrere illogiske eller ufuldstændige beviser. Styrke-læringsfeedback hjalp med at raffinere modellen, skubbede den mod at producere konsistente og præcise beviser. Tidlige versioner producerede overordentligt verbale beviser, men straffe for redundant fraser hjalp med at trimme outputtet.
I modsætning til konventionel finjustering, som ofte kæmper med sparsomme belønninger, hvor feedback er binært, enten er beviset korrekt eller ej. DeepMind implementerede et trinvis belønningsystem, hvor hver verificeret underlemme bidrog til den samlede score. Dette belønningsmekanisme guider Gemini, selv når komplet bevis er sjældent. Træningsprocessen strakte sig over tre måneder og anvendte ca. 25 millioner TPU-timer.
3. Massiv parallelisering
Parallelisering spillede også en kritisk rolle i DeepMinds fremgang fra sølv til guld. Hvert problem genererede multiple resonansgrene i parallel, med ressourcer, der dynamisk skiftede til mere lovende vej, når andre stalled. Denne dynamiske tidsplanlægning var særligt fordelagtig for kombinatoriske problemer, der har store løsningsrum. Tilgangen ligner, hvordan mennesker tester hjælpeuligheder, før de forpligter sig til en fuld induktion. Selv om denne teknik var beregningsmæssigt dyrt, var det håndterbart ved hjælp af DeepMinds TPU v5-kluster.
DeepMind ved IMO 2025
For at opretholde integriteten af konkurrencen, fryse DeepMind vægtene af modellen tre uger før IMO for at forhindre lækkage af officielle problemer ind i træningssættet. De filtrerede også data, der indeholdt løsninger til tidligere upublicerede olympiadefragor.
Under konkurrencen blev Gemini Deep Think præsenteret for de seks officielle problemer i ren tekstformat, uden adgang til internettet. Systemet opererede på et cluster konfigureret til at simulere beregningskraften af en standardbærbar computer per proces. Hele problem-løsningsprocessen blev afsluttet på under tre timer, langt inden for tidsbegrænsningerne. De genererede beviser blev indsendt til IMO-koordinatorerne uden ændringer.
Gemini Deep Think opnåede perfekte score på de første fem problemer. Den sidste spørgsmål, som var et udfordrende kombinatorisk puslespil, stoppede dog både AI og 94% af menneskelige deltagere. Trods dette afsluttede AI’en med en samlet score på 35/42 og sikrede en guldmedalje. Denne score var syv point højere end sidste års sølvpræstation. Observatører beskrev senere AI’ens beviser som ‘flittige’ og ‘komplette’, og bemærkede, at de fulgte de strenge begrundelser, der forventedes af menneskelige deltagere.
Implikationer for AI og matematik
DeepMinds præstation er en betydelig milepæl for både AI og matematik. For AI er at mestre IMO et skridt mod kunstig almen intelligens (AGI), hvor systemer kan udføre enhver intellektuel opgave, som en menneske kan. At løse komplekse matematiske problemer kræver resonans og forståelse, der er grundlæggende komponenter af almen intelligens. Denne succes indikerer, at AI er på vej mod mere menneske-lignende kognitive evner.
For matematik kan AI-systemer som Gemini Deep Think blive uvurderlige værktøjer for matematikere. De kan hjælpe med at udforske nye områder, verificere formodninger og endda opdage nye teorier. Ved at automatisere de mere kedelige aspekter af beviskonstruktion frigør AI menneskelige matematikere til at fokusere på højere niveau konceptuel arbejde. Derudover kan de teknikker, der er udviklet til disse AI-systemer, inspirere nye metoder i matematisk forskning, der måske ikke er muligt gennem menneskeligt arbejde alene.
Men AI’s fremgang i matematik rejser også spørgsmål om AI’s rolle i uddannelsesmiljøer og konkurrencer. Da AI’s evner fortsætter med at vokse, vil der være debatter om, hvordan AI’s involvering kan ændre naturen af matematisk uddannelse og konkurrence.
At se fremad
At vinde IMO-guld er en betydelig milepæl, men mange matematiske udfordringer er stadig uden for rækkevidde for nuværende AI-systemer. Men den hurtige fremgang fra sølv til guld på blot ét år understreger den accelererende pace af AI-innovationer og udviklinger. Hvis denne pace fortsætter, kan AI-systemer måske snart tackle nogle af matematikens mest berømte uløste problemer. Selv om spørgsmålet om, hvorvidt AI vil erstatte eller forbedre menneskelig kreativitet, forbliver uløst, er 2025 IMO en klar indikation af, at kunstig intelligens har gjort betydelige skridt i logisk resonans.












