Kunstig intelligens
AI som forsker: Første peer-reviewed forskningsartikel skrevet uden mennesker

Kunstig intelligens har overskredet endnu en betydelig milepæl, der udfordrer vores forståelse af, hvad maskiner kan opnå uafhængigt. For første gang i videnskabshistorien har et AI-system skrevet en komplet forskningsartikel, der er blevet godkendt af peer-review ved en akademisk konference uden nogen menneskelig assistance i skriveprocessen. Dette gennembrud kan være en grundlæggende ændring i, hvordan videnskabelig forskning måske vil blive udført i fremtiden.
Historisk præstation
En artikel produceret af The AI Scientist-v2 er blevet godkendt af peer-review-processen ved en workshop på en top international AI-konference. Forskningen blev indsendt til en ICLR 2025-workshop, som er et af de mest prestigefyldte fora inden for maskinlæring. Artiklen blev genereret af en forbedret version af den originale AI Scientist, kaldet The AI Scientist-v2.
Den accepterede artikel, med titlen “Compositional Regularization: Uventede hindringer i forbedring af neurale netværks generalisering“, fik imponerende score fra menneskelige anmeldere. Af de tre artikler, der blev indsendt til anmeldelse, fik en score, der placerede den over acceptgrænsen. Dette gennembrud er en betydelig fremgang, da AI nu kan deltage i den grundlæggende proces af videnskabelig opdagelse, som har været eksklusivt menneskelig i århundreder.
Forskningsholdet fra Sakana AI, som arbejdede med samarbejdspartnere fra University of British Columbia og University of Oxford, udførte dette eksperiment. De fik godkendelse fra institutionens anmeldelsesudvalg og arbejdede direkte med ICLR-konferencearrangørerne for at sikre, at eksperimentet fulgte proper videnskabelig protokol.
How The AI Scientist-v2 fungerer
The AI Scientist-v2 har opnået denne succes på grund af flere store fremskridt i forhold til sin forgænger. I modsætning til sin forgænger eliminerer AI Scientist-v2 behovet for menneskeskrevne kode-skabeloner, kan arbejde på tværs af diverse maskinlæringsdomæner og anvender en træ-søgningsmetode til at udforske multiple forskningsveje samtidigt.
Systemet opererer gennem en end-to-end-proces, der spejler, hvordan menneskelige forskere arbejder. Det begynder med at formulerer videnskabelige hypoteser baseret på det forskningsdomæne, det er tildelt at udforske. AI’en designer derefter eksperimenter for at teste disse hypoteser, skriver den nødvendige kode for at udføre eksperimenterne og udfører dem automatisk.
Det, der gør dette system særligt avanceret, er dets brug af agentic træ-søgningsmetode. Denne tilgang tillader AI’en at udforske multiple forskningsretninger samtidigt, ligesom menneskelige forskere måske ville overveje forskellige tilgange til at løse et problem. Dette indebærer at køre eksperimenter via agentic træ-søgning, analysere resultater og generere en udkast til en artikel. En dedikeret eksperiment-manager-agent koordinerer hele processen for at sikre, at forskningen forbliver fokuseret og produktiv.
Systemet inkluderer også en forbedret AI-anmelder-komponent, der anvender vision-language-modeller til at give feedback på både indhold og visuel præsentation af forskningsresultater. Dette skaber en iterativ forbedringsproces, hvor AI’en kan forbedre sit eget arbejde baseret på feedback, ligesom menneskelige forskere forbedrer deres manuskripter baseret på kollega-indput.
Hvad gjorde denne forskningsartikel særlig
Den accepterede artikel fokuserede på et udfordrende problem i maskinlæring kaldet compositional generalization. Dette refererer til evnen af neurale netværk til at forstå og anvende lært koncepter i nye kombinationer, de aldrig har set før. The AI Scientist-v2 undersøgte nye regulariseringsmetoder, der måske kan forbedre denne evne.
Interessant nok rapporterede artiklen også negative resultater. AI’en opdagede, at visse tilgange, den havde hypoteser ville forbedre neurale netværkspræstation, faktisk skabte uventede hindringer. I videnskab er negative resultater værdifulde, fordi de forhindrer andre forskere i at forfølge uproduktive veje og bidrager til vores forståelse af, hvad der ikke virker.
Forskningen fulgte strenge videnskabelige standarder på tværs af hele processen. The AI Scientist-v2 udførte multiple eksperimentelle kørsler for at sikre statistisk gyldighed, skabte klare visualiseringer af sine resultater og korrekt citerede relevant tidligere arbejde. Det formaterede hele manuskriptet i overensstemmelse med akademiske standarder og skrev omfattende diskussioner af sin metode og resultater.
De menneskelige forskere, der overvågede projektet, udførte deres egen grundige gennemgang af alle tre genererede artikler. De fandt, at selv om den accepterede artikel var af workshop-kvalitet, indeholdt den nogle tekniske problemer, der ville forhindre accept ved hovedkonferencens spor. Denne ærlige vurdering demonstrerer de nuværende begrænsninger, mens den anerkender den betydelige fremgang, der er opnået.
Teknisk kapacitet og forbedringer
The AI Scientist-v2 demonstrerer flere bemærkelsesværdige tekniske kapaciteter, der adskiller det fra tidligere automatiserede forskningssystemer. Systemet kan arbejde på tværs af diverse maskinlæringsdomæner uden at kræve forhåndsdefinerede kode-skabeloner. Denne fleksibilitet betyder, at det kan tilpasse sig nye forskningsområder og generere originale eksperimentelle tilgange i stedet for at følge forudbestemte mønstre.
Træ-søgningsmetoden er en betydelig innovation i AI-forskningautomatisering. I stedet for at forfølge en enkelt forskningsretning kan systemet opretholde multiple hypoteser samtidigt og allokerer computermæssige ressourcer baseret på den løfte, hver retning viser. Denne tilgang spejler, hvordan erfarne menneskelige forskere ofte opretholder flere forskningsstråde, mens de fokuserer mest på de mest lovende veje.
En anden afgørende forbedring er integrationen af vision-language-modeller til anmeldelse og forbedring af visuelle elementer i forskningsartikler. Videnskabelige figurer og visualiseringer er afgørende for at kommunikere forskningsresultater effektivt. AI’en kan nu evaluere og forbedre sine egne data-visualiseringer iterativt.
Systemet demonstrerer også forståelse for videnskabelige skrivekonventioner. Det strukturerer papirer med passende sektioner, opretholder konsekvent terminologi på tværs af manuskripter og skaber logisk flow mellem forskellige dele af forskningsfortællingen. AI’en viser bevidsthed om, hvordan man præsenterer metode, diskuterer begrænsninger og kontekstualiserer resultater inden for eksisterende litteratur.
Nuværende begrænsninger og udfordringer
Trods dette historiske gennembrud er der flere vigtige begrænsninger, der begrænser de nuværende kapaciteter af AI-genereret forskning. Virksomheden sagde, at ingen af dens AI-genererede studier opfyldte dens interne standard for ICLR-konferencens spor. Dette indikerer, at selv om AI’en kan producere workshop-kvalitetsforskning, er det at nå de højeste niveauer af videnskabelig publikation stadig en udfordring.
Accept-satserne giver vigtig kontekst for at evaluere dette gennembrud. Artiklen blev accepteret på en workshop-spor, som typisk har mindre strenge standarder end hovedkonferencen (60-70% accept-sats i forhold til de 20-30% accept-satser, der er typiske for hovedkonferencens spor). Selv om dette ikke formindsker betydningen af gennembruddet, antyder det, at producere virkelig banebrydende forskning stadig er uden for nuværende AI-kapaciteter.
The AI Scientist-v2 demonstrerede også nogle svagheder, som menneskelige forskere identificerede under deres anmeldelsesproces. Systemet gjorde lejlighedsvis citeringsfejl, tilskrev forskningsresultater til forkerte forfattere eller publikationer. Det kæmpede også med visse aspekter af eksperimentdesign, som menneskelige eksperter ville have tilgang til anderledes.
Vejene fremad
Den succesfulde peer-review af AI-genereret forskning er begyndelsen på en ny æra i videnskabelig forskning. Da grundmodellerne fortsætter med at forbedre sig, kan vi forvente, at The AI Scientist og lignende systemer producerer stadig mere sofistikeret forskning, der nærmer sig og potentielt overgår menneskelig kapacitet i mange domæner.
Forskningsholdet forventer, at fremtidige versioner vil være i stand til at producere artikler, der er værdige til accept ved top-konferencer og tidsskrifter. Den logiske progression antyder, at AI-systemer måske en dag vil bidrage til gennembrudsopdagelser i fag som medicin, fysik og kemi.
Dette udvikling rejser også vigtige spørgsmål om forskningsetik og publikationsstandarder. Den videnskabelige fællesskab må udvikle nye normer for håndtering af AI-genereret forskning, herunder hvornår og hvordan man skal afsløre AI-medvirkning og hvordan man skal evaluere sådant arbejde sammen med menneske-genereret forskning.
Den åbenhed, som forskningsholdet har demonstreret i dette eksperiment, giver en værdifuld model for fremtidig AI-forsknings-evaluering. Ved at arbejde åbent med konference-arrangørerne og underkaste deres AI-genererede arbejde til de samme standarder som menneske-genereret forskning, har de etableret vigtige præcedenser for den ansvarlige udvikling af automatiserede forskningskapaciteter.
Bottom Line
Accepten af en AI-skrevet artikel på en førende maskinlærings-workshop er en betydelig fremgang i AI-kapaciteter. Selv om arbejdet endnu ikke er på niveau med top-konferencer, demonstrerer det en klar vej mod, at AI-systemer bliver alvorlige bidragydere til videnskabelig opdagelse. Udfordringen ligger nu ikke kun i at fremme teknologien, men også i at forme de etiske og akademiske rammer, der vil styre denne nye forskningsfront.












