Kunstig intelligens
AI ved International Mathematical Olympiade: How AlphaProof and AlphaGeometry 2 Achieved Silver-Medal Standard

Matematisk ræsonnement er et vigtigt aspekt af menneskets kognitive evner, der driver fremskridt inden for videnskabelige opdagelser og teknologiske udviklinger. Da vi stræber efter at udvikle kunstig generel intelligens, der matcher menneskelig kognition, er det vigtigt at udstyre AI med avancerede matematiske ræsonnementer. Mens nuværende AI-systemer kan håndtere grundlæggende matematiske problemer, kæmper de med den komplekse begrundelse, der er nødvendig for avancerede matematiske discipliner som algebra og geometri. Dette kan dog være ved at ændre sig, som Google DeepMind har lavet betydelige fremskridt i at forbedre et AI-systems matematiske ræsonnementsevner. Dette gennembrud sker ved International Matematik Olympiade (IMO) 2024. Etableret i 1959, IMO er den ældste og mest prestigefyldte matematikkonkurrence, der udfordrer gymnasieelever verden over med problemer inden for algebra, kombinatorik, geometri og talteori. Hvert år konkurrerer hold af unge matematikere om at løse seks meget udfordrende problemer. I år introducerede Google DeepMind to AI-systemer: AlphaProof, som fokuserer på formel matematisk ræsonnement, og AlphaGeometry 2, som har specialiseret sig i at løse geometriske problemer. Disse AI-systemer formåede at løse fire ud af seks problemer og præsterede på niveau med en sølvmedaljevinder. I denne artikel vil vi undersøge, hvordan disse systemer fungerer for at løse matematiske problemer.
AlphaProof: Kombination af kunstig intelligens og formelt sprog til bevisførelse af matematisk sætning
AlphaProof er et AI-system designet til at bevise matematiske udsagn ved hjælp af det formelle sprog Lean. Det integrerer Gemini, en fortrænet sprogmodel, med Alpha Zero, en forstærkende læringsalgoritme kendt for at mestre skak, shogi og Go.
Gemini-modellen oversætter problemformuleringer i naturligt sprog til formelle, hvilket skaber et bibliotek af problemer med forskellige sværhedsgrader. Dette tjener to formål: at konvertere upræcis naturligt sprog til præcist formelt sprog for at verificere matematiske beviser og bruge Tvillingernes forudsigelige evner til at generere en liste over mulige løsninger med formel sprogpræcision.
Når AlphaProof støder på et problem, genererer det potentielle løsninger og søger efter bevistrin i Lean for at verificere eller modbevise dem. Dette er i bund og grund en neuro-symbolsk tilgang, hvor det neurale netværk, Gemini, oversætter naturlige sproginstruktioner til det symbolske formsprog Lean for at bevise eller modbevise udsagnet. I lighed med AlphaZeros selvspilsmekanisme, hvor systemet lærer ved at spille mod sig selv, træner AlphaProof sig selv ved at forsøge at bevise matematiske udsagn. Hvert prøveforsøg forfiner AlphaProofs sprogmodel, med vellykkede beviser, der styrker modellens evne til at tackle mere udfordrende problemer.
Til den internationale matematiske olympiade (IMO) blev AlphaProof trænet ved at bevise eller modbevise millioner af problemer, der dækker forskellige sværhedsgrader og matematiske emner. Denne træning fortsatte under konkurrencen, hvor AlphaProof forfinede sine løsninger, indtil de fandt fuldstændige svar på problemerne.
AlphaGeometry 2: Integration af LLM'er og symbolsk AI til løsning af geometriproblemer
AlphaGeometry 2 er den seneste iteration af Alfageometri serie, designet til at tackle geometriske problemer med øget præcision og effektivitet. AlphaGeometry 2 bygger på grundlaget for sin forgænger og anvender en neuro-symbolsk tilgang, der kombinerer neurale store sprogmodeller (LLM'er) med symbolsk AI. Denne integration kombinerer regelbaseret logik med neurale netværks forudsigelsesevne til at identificere hjælpepunkter, der er afgørende for at løse geometriproblemer. LLM i AlphaGeometry forudsiger nye geometriske konstruktioner, mens den symbolske AI anvender formel logik til at generere beviser.
Når AlphaGeometry står over for et geometrisk problem, evaluerer vedkommende på sin LLM adskillige muligheder og forudsiger konstruktioner, der er afgørende for problemløsning. Disse forudsigelser fungerer som værdifulde spor, der styrer den symbolske motor mod præcise deduktioner og bringer den tættere på en løsning. Denne innovative tilgang gør det muligt for AlphaGeometry at adressere komplekse geometriske udfordringer, der rækker ud over konventionelle scenarier.
En vigtig forbedring i AlphaGeometry 2 er integrationen af Gemini LLM. Denne model er trænet fra bunden på væsentligt flere syntetiske data end sin forgænger. Denne omfattende træning ruster den til at håndtere vanskeligere geometriproblemer, inklusive dem, der involverer objektbevægelser og ligninger af vinkler, forhold eller afstande. Derudover har AlphaGeometry 2 en symbolsk motor, der opererer to størrelsesordener hurtigere, hvilket gør den i stand til at udforske alternative løsninger med hidtil uset hastighed. Disse fremskridt gør AlphaGeometry 2 til et kraftfuldt værktøj til at løse indviklede geometriske problemer, der sætter en ny standard på området.
AlphaProof og AlphaGeometry 2 hos IMO
I år ved International Mathematical Olympiade (IMO) blev deltagerne testet med seks forskellige problemer: to i algebra, en i talteori, en i geometri og to i kombinatorik. Google-forskere oversat disse problemer til formelt matematisk sprog for AlphaProof og AlphaGeometry 2. AlphaProof tacklede to algebraproblemer og et talteoretisk problem, inklusive det sværeste problem i konkurrencen, løst af kun fem menneskelige deltagere i år. I mellemtiden løste AlphaGeometry 2 med succes geometriproblemet, selvom det ikke knækkede de to kombinatoriske udfordringer
Hvert problem hos IMO er syv point værd, hvilket giver et maksimum på 42. AlphaProof og AlphaGeometry 2 fik 28 point, hvilket opnåede perfekt score på de problemer, de løste. Dette placerede dem i den høje ende af sølvmedaljekategorien. Guldmedaljegrænsen i år var 29 point, nået af 58 af de 609 deltagere.
Næste spring: Naturligt sprog til matematikudfordringer
AlphaProof og AlphaGeometry 2 har vist imponerende fremskridt inden for kunstig intelligens' matematiske problemløsningsevner. Disse systemer er dog stadig afhængige af menneskelige eksperter til at oversætte matematiske problemer til formelt sprog til behandling. Derudover er det uklart, hvordan disse specialiserede matematiske færdigheder kan indarbejdes i andre kunstig intelligens-systemer, f.eks. til at udforske hypoteser, teste innovative løsninger på langvarige problemer og effektivt håndtere tidskrævende aspekter af beviser.
For at overvinde disse begrænsninger udvikler Google-forskere et naturligt sprogræsonnementssystem baseret på Gemini og deres seneste forskning. Dette nye system har til formål at fremme problemløsningsevner uden at kræve formel sprogoversættelse og er designet til at integreres problemfrit med andre AI-systemer.
The Bottom Line
AlphaProofs og AlphaGeometry 2's præstation ved den internationale matematiske olympiade er et bemærkelsesværdigt spring fremad i AI's evne til at håndtere kompleks matematisk ræsonnement. Begge systemer demonstrerede sølvmedaljepræstation ved at løse fire ud af seks udfordrende problemer, hvilket demonstrerer betydelige fremskridt inden for formel bevisførelse og geometrisk problemløsning. Trods deres præstationer er disse AI-systemer stadig afhængige af menneskelig input for at oversætte problemer til formelt sprog og står over for udfordringer med integration med andre AI-systemer. Fremtidig forskning sigter mod at forbedre disse systemer yderligere, potentielt ved at integrere naturlig sprogræsonnement for at udvide deres muligheder på tværs af en bredere vifte af matematiske udfordringer.