Kunstig intelligens
DeepSeek-Prover-V2: Bygger bro mellom uformell og formell matematisk resonnering

Samtidig som DeepSeek-R1 har forbedret AIs evner innen uformell resonnering betydelig, mens formell matematisk resonnering har vært en utfordrende oppgave for AI. Dette er først og fremst fordi det å produsere verifiserbare matematiske bevis krever både dyp konseptuell forståelse og evnen til å konstruere presise, trinnvise logiske argumenter. Nylig har det imidlertid blitt gjort betydelige fremskritt i denne retningen ettersom forskere ved DeepSeek-AI har introdusert DeepSeek-Prover-V2, en åpen kildekode-modell for kunstig intelligens som er i stand til å transformere matematisk intuisjon til grundige, verifiserbare bevis. Denne artikkelen vil dykke ned i detaljene til DeepSeek-Prover-V2 og vurdere dens potensielle innvirkning på fremtidige vitenskapelige oppdagelser.
Utfordringen med formell matematisk resonnement
Matematikere løser ofte problemer ved hjelp av intuisjon, heuristikk og resonnement på høyt nivå. Denne tilnærmingen lar dem hoppe over trinn som virker åpenbare eller stole på tilnærminger som er tilstrekkelige for deres behov. Imidlertid krever formell bevisføring av teoremer en annen tilnærming. Det krever fullstendig presisjon, med hvert trinn eksplisitt angitt og logisk begrunnet uten tvetydighet.
Nyere fremskritt innen store språkmodeller (LLM-er) har vist at de kan takle komplekse matematiske problemer på konkurransenivå ved hjelp av naturlig språklig resonnement. Til tross for disse fremskrittene sliter LLM-er fortsatt med å konvertere intuitiv resonnement til formelle bevis som maskiner kan verifisere. Dette er først og fremst fordi uformell resonnement ofte inkluderer snarveier og utelatte trinn som formelle systemer ikke kan verifisere.
DeepSeek-Prover-V2 løser dette problemet ved å kombinere styrkene til uformell og formell resonnering. Den deler opp komplekse problemer i mindre, håndterbare deler, samtidig som den opprettholder presisjonen som kreves av formell verifisering. Denne tilnærmingen gjør det enklere å bygge bro mellom menneskelig intuisjon og maskinverifiserte bevis.
En ny tilnærming til bevising av teorem
I hovedsak benytter DeepSeek-Prover-V2 en unik databehandlingsprosess som involverer både uformell og formell resonnering. Prosedyren starter med DeepSeek-V3, en generell LLM, som analyserer matematiske problemer i naturlig språk, deler dem opp i mindre trinn og oversetter disse trinnene til formelt språk som maskiner kan forstå.
I stedet for å forsøke å løse hele problemet på én gang, deler systemet det opp i en serie «delmål» – mellomliggende lemmaer som fungerer som springbrett mot det endelige beviset. Denne tilnærmingen gjenskaper hvordan menneskelige matematikere takler vanskelige problemer, ved å jobbe seg gjennom håndterbare deler i stedet for å forsøke å løse alt på én gang.
Det som gjør denne tilnærmingen spesielt innovativ er hvordan den syntetiserer treningsdata. Når alle delmålene i et komplekst problem er løst, kombinerer systemet disse løsningene til et komplett formelt bevis. Dette beviset kobles deretter sammen med DeepSeek-V3s originale tankekjede-resonnement for å lage høykvalitets "kaldstart"-treningsdata for modelltrening.
Forsterkende læring for matematisk resonnering
Etter innledende opplæring i syntetiske data, benytter DeepSeek-Prover-V2 forsterkning læring for å forbedre funksjonene ytterligere. Modellen får tilbakemelding om hvorvidt løsningene er riktige eller ikke, og den bruker denne tilbakemeldingen til å lære hvilke tilnærminger som fungerer best.
En av utfordringene her er at strukturen til de genererte bevisene ikke alltid stemte overens med lemma-dekomponeringen som foreslått av tankekjedeFor å fikse dette inkluderte forskerne en konsistensbelønning i treningsfasene for å redusere strukturell feiljustering og håndheve inkluderingen av alle dekomponerte lemmaer i endelige bevis. Denne justeringsmetoden har vist seg spesielt effektiv for komplekse teoremer som krever flertrinnsresonnement.
Ytelse og virkelige evner
DeepSeek-Prover-V2s ytelse på etablerte benchmarks demonstrerer dens eksepsjonelle evner. Modellen oppnår imponerende resultater på MiniF2F-test benchmark og løser 49 av 658 problemer fra PutnamBenk – en samling oppgaver fra den prestisjetunge William Lowell Putnam matematikkkonkurransen.
Kanskje enda mer imponerende, når de evalueres på 15 utvalgte problemer fra nyere tid Amerikansk invitasjonsmatematikkeksamen (AIME) konkurranser, løste modellen seks problemer. Det er også interessant å merke seg at, i sammenligning med DeepSeek-Prover-V6, DeepSeek-V3 løste 8 av disse problemene ved hjelp av flertallsavstemning. Dette tyder på at gapet mellom formell og uformell matematisk resonnement raskt minker i LLM-er. Modellens ytelse på kombinatoriske problemer trenger imidlertid fortsatt forbedring, noe som fremhever et område der fremtidig forskning kan fokusere.
ProverBench: En ny referanse for AI i matematikk
DeepSeek-forskere introduserte også et nytt referansedatasett for å evaluere den matematiske problemløsningsevnen til LLM-er. Dette referansedatasettet, kalt ProverBench, består av 325 formaliserte matematiske problemer, inkludert 15 problemer fra nylige AIME-konkurranser, i tillegg til problemer fra lærebøker og pedagogiske veiledninger. Disse problemene dekker felt som tallteori, algebra, kalkulus, reell analyse og mer. Innføringen av AIME-problemer er spesielt viktig fordi den vurderer modellen på problemer som ikke bare krever kunnskapsinnhenting, men også kreativ problemløsning.
Åpen kildekode-tilgang og fremtidige implikasjoner
DeepSeek-Prover-V2 tilbyr en spennende mulighet med sin tilgjengelighet som åpen kildekode. Laget på plattformer I likhet med Hugging Face er modellen tilgjengelig for et bredt spekter av brukere, inkludert forskere, lærere og utviklere. Med både en lettere versjon på 7 milliarder parametere og en kraftig versjon på 671 milliarder parametere, sørger DeepSeek-forskere for at brukere med varierende beregningsressurser fortsatt kan dra nytte av den. Denne åpne tilgangen oppmuntrer til eksperimentering og lar utviklere lage avanserte AI-verktøy for matematisk problemløsning. Som et resultat har denne modellen potensial til å drive innovasjon innen matematisk forskning, og gi forskere mulighet til å takle komplekse problemer og avdekke ny innsikt i feltet.
Implikasjoner for AI og matematisk forskning
Utviklingen av DeepSeek-Prover-V2 har betydelige implikasjoner ikke bare for matematisk forskning, men også for AI. Modellens evne til å generere formelle bevis kan hjelpe matematikere med å løse vanskelige teoremer, automatisere verifiseringsprosesser og til og med foreslå nye antagelser. Dessuten kan teknikkene som brukes til å lage DeepSeek-Prover-V2 påvirke utviklingen av fremtidige AI-modeller innen andre felt som er avhengige av grundig logisk resonnement, for eksempel programvare- og maskinvareteknikk.
Forskerne tar sikte på å skalere modellen for å takle enda mer utfordrende problemer, som de på nivået til Den internasjonale matematiske olympiaden (IMO). Dette kan ytterligere forbedre AIs evner til å bevise matematiske teoremer. Etter hvert som modeller som DeepSeek-Prover-V2 fortsetter å utvikle seg, kan de omdefinere fremtiden for både matematikk og AI, og drive frem fremskritt innen områder som spenner fra teoretisk forskning til praktiske anvendelser innen teknologi.
Bunnlinjen
DeepSeek-Prover-V2 er en betydelig utvikling innen AI-drevet matematisk resonnement. Den kombinerer uformell intuisjon med formell logikk for å bryte ned komplekse problemer og generere verifiserbare bevis. Den imponerende ytelsen på referansetester viser potensialet til å støtte matematikere, automatisere bevisverifisering og til og med drive frem nye oppdagelser innen feltet. Som en åpen kildekode-modell er den allment tilgjengelig og tilbyr spennende muligheter for innovasjon og nye anvendelser innen både AI og matematikk.