Kunstig intelligens
AI som forsker: Første fagfellevurderte forskningsartikkel skrevet uten menneskelig innsats

Kunstig intelligens har nådd et nytt betydelig milepæl som utfordrer vår forståelse av hva maskiner kan oppnå uavhengig. For første gang i vitenskapens historie har et AI-system skrevet en fullstendig forskningsartikkel som har gått gjennom fagfellevurdering på en akademisk konferanse uten noen menneskelig hjelp i skriveprosessen. Dette gjennombruddet kan være en grunnleggende endring i hvordan vitenskapelig forskning kan bli utført i fremtiden.
Historisk prestasjon
En artikkel produsert av The AI Scientist-v2 gikk gjennom fagfellevurderingsprosessen på en workshop på en topp internasjonal AI-konferanse. Forskningen ble sendt inn til en ICLR 2025-workshop, som er ett av de mest prestisjefylte arenaene innen maskinlæring. Artikkelen ble generert av en forbedret versjon av den originale AI Scientist, kalt The AI Scientist-v2.
Den aksepterte artikkelen, med tittelen “Compositional Regularization: Uventede hindringer i forbedring av neural nettverks generalisering“, fikk imponerende poeng fra menneskelige vurderere. Av de tre artiklene som ble sendt inn for vurdering, fikk en poeng som plasserte den over akseptansetreksen. Dette gjennombruddet er en betydelig fremgang siden AI nå kan delta i den grunnleggende prosessen med vitenskapelig oppdagelse som har vært eksklusivt menneskelig i århundrer.
Forskningsgruppen fra Sakana AI, som arbeidet sammen med samarbeidspartnere fra University of British Columbia og University of Oxford, utførte dette eksperimentet. De fikk godkjenning fra institusjonens etiske komité og arbeidet direkte med ICLR-konferansens arrangører for å sikre at eksperimentet fulgte ordnungene for vitenskapelig prosedyre.
How The AI Scientist-v2 Works
The AI Scientist-v2 har oppnådd denne suksessen på grunn av flere store fremgangsmåter over sin forgjenger. I motsetning til sin forgjenger, eliminerer AI Scientist-v2 behovet for menneskeskrevne kode-maler, kan arbeide på tvers av ulike maskinlæringsdomener, og anvender en tree-search-metodikk for å utforske flere forskningsretninger samtidig.
Systemet opererer gjennom en sluttløs prosess som speiler hvordan menneskelige forskere arbeider. Det begynner med å formulere vitenskapelige hypoteser basert på forskningsdomenet det er tildelt å utforske. AI-en designer eksperimenter for å teste disse hypotesene, skriver den nødvendige koden for å utføre eksperimentene, og kjører dem automatisk.
Hva gjør dette systemet spesielt avansert, er bruken av agentic tree search-metodikk. Denne tilnærmingen tillater AI-en å utforske flere forskningsretninger samtidig, på samme måte som menneskelige forskere kan vurdere ulike tilnærminger for å løse et problem. Dette innebærer å kjøre eksperimenter via agentic tree search, analysere resultater, og generere en utkast til artikkel. En dedikert eksperiment-manager-agent koordinerer hele prosessen for å sikre at forskningen forblir fokusert og produktiv.
Systemet inkluderer også en forbedret AI-vurderingskomponent som bruker vision-language-modeller for å gi tilbakemelding på både innhold og visuell presentasjon av forskningsfunn. Dette skaper en iterativ forbedringsprosess hvor AI-en kan forbedre sitt eget arbeid basert på tilbakemelding, på samme måte som menneskelige forskere forbedrer sine manuskripter basert på kollegainnspill.
Hva gjorde denne forskningsartikkelen spesiell
Den aksepterte artikkelen fokuserte på et utfordrende problem i maskinlæring kalt compositional generalization. Dette refererer til evnen til neural nettverk å forstå og anvende lært konsepter i nye kombinasjoner de aldri har sett før. The AI Scientist-v2 undersøkte nye regulariseringsmetoder som kunne forbedre denne evnen.
Interessant nok, rapporterte artikkelen også negative resultater. AI-en oppdaget at visse tilnærminger den hypoteserte ville forbedre neural nettverks ytelse, faktisk skapte uventede hindringer. I vitenskapen er negative resultater verdifulle fordi de forhindrer andre forskere fra å forfølge uproduktive veier og bidrar til vår forståelse av hva som ikke fungerer.
Forskningen fulgte strenge vitenskapelige standarder gjennom hele prosessen. The AI Scientist-v2 utførte flere eksperimentelle kjøringer for å sikre statistisk gyldighet, skapte klare visualiseringer av funn, og riktig siterte relevante tidligere arbeid. Det formaterer hele manuskriptet i henhold til akademiske standarder og skrev omfattende diskusjoner av metoden og funn.
De menneskelige forskerne som overvåket prosjektet, utførte sin egen grundige gjennomgang av alle tre genererte artikler. De fant at mens den aksepterte artikkelen var av workshop-kvalitet, inneholdt den noen tekniske problemer som ville forhindre aksept på hovedkonferansen. Denne ærlige vurderingen demonstrerer de nåværende begrensningene, samtidig som den anerkjenner den betydelige fremgangen som er oppnådd.
Teknisk kapabilitet og forbedringer
The AI Scientist-v2 demonstrerer flere bemerkelsesverdige tekniske kapabiliteter som skiller det fra tidligere automatiserte forskningssystemer. Systemet kan arbeide på tvers av ulike maskinlæringsdomener uten å kreve forhånds-skrevne kode-maler. Denne fleksibiliteten betyr at det kan tilpasse seg nye forskningsområder og generere originale eksperimentelle tilnærminger, i stedet for å følge forhåndsbestemte mønster.
Tree-search-metodikken er en betydelig innovasjon i AI-forskning automatisering. I stedet for å forfølge en enkelt forskningsretning, kan systemet opprettholde flere hypoteser samtidig og allokerer beregningsressurser basert på hvor lovende hver retning viser seg å være. Denne tilnærmingen speiler hvordan erfarne menneskelige forskere ofte opprettholder flere forsknings-tråder, samtidig som de fokuserer mest på de mest lovende veiene.
En annen kritisk forbedring er integreringen av vision-language-modeller for å vurdere og forbedre de visuelle elementene i forskningsartikler. Vitenskapelige figurer og visualiseringer er kritiske for å kommunisere forskningsfunn effektivt. AI-en kan nå evaluere og forbedre sine egne data-visualiseringer iterativt.
Systemet demonstrerer også forståelse av vitenskapelige skrivekonvensjoner. Det strukturerer artikler med passende avsnitt, opprettholder konsistent terminologi gjennom manuskript, og skaper logisk flyt mellom ulike deler av forskningsfortellingen. AI-en viser bevissthet om hvordan å presentere metode, diskutere begrensninger, og kontekstualisere funn innen eksisterende litteratur.
Nåværende begrensninger og utfordringer
Til tross for dette historiske gjennombruddet, finnes det flere viktige begrensninger som begrenser de nåværende kapabilitetene til AI-generert forskning. Selskapet sa at ingen av deres AI-genererte studier passerte deres interne krav for ICLR-konferanse-sporet publiseringstandarder. Dette indikerer at mens AI-en kan produsere workshop-kvalitetsforskning, nå å nå de høyeste nivåene av vitenskapelig publisering forblir utfordrende.
Akseptansratene gir viktig kontekst for å evaluere dette gjennombruddet. Artikkelen ble akseptert på en workshop-spor, som vanligvis har mindre strenge standarder enn hovedkonferansen (60-70% akseptansrate vs. 20-30% akseptansrater typisk for hovedkonferanser). Mens dette ikke minsker betydningen av gjennombruddet, antyder det at å produsere virkelig banebrytende forskning forblir utenfor nåværende AI-kapabiliteter.
The AI Scientist-v2 demonstrerte også noen svakheter som menneskelige forskere identifiserte under gjennomgangsprosessen. Systemet gjorde noen ganger sitatfeil, tilskrev forskningsfunn til feil forfattere eller publikasjoner. Det hadde også problemer med noen aspekter av eksperimentell design som menneskelige eksperter ville ha tilnærmet seg på en annen måte.
Kanskje mest viktig, fokuserte AI-generert forskning på inkrementelle forbedringer fremfor paradigmeskiftende oppdagelser. Systemet synes å være mer kapabelt til å utføre grundige undersøkelser innen etablerte forskningsrammer enn å foreslå helt nye måter å tenke om vitenskapelige problemer på.
Vegen fremover
Den suksessfulle fagfellevurderingen av AI-generert forskning er begynnelsen på en ny æra i vitenskapelig forskning. Mens grunnmodellene fortsetter å forbedres, kan vi forvente at The AI Scientist og lignende systemer vil produsere stadig mer sofistikert forskning som nærmer seg og potensielt overstiger menneskelig kapabilitet i mange domener.
Forskningsgruppen forventer at fremtidige versjoner vil være i stand til å produsere artikler som er verdige til aksept på topp-konferanser og tidsskrifter. Den logiske utviklingen antyder at AI-systemer kan bidra til banebrytende oppdagelser i fag som medisin, fysikk og kjemi.
Dette utviklingen reiser også viktige spørsmål om forskningsetikk og publiseringstandarder. Vitenskapssamfunnet må utvikle nye normer for å håndtere AI-generert forskning, inkludert når og hvordan å avsløre AI-innsats og hvordan å evaluere slike arbeid sammen med menneske-generert forskning.
Gjennomsiktigheten demonstrert av forskningsgruppen i dette eksperimentet gir en verdifull modell for fremtidig AI-forskningsevaluering. Ved å arbeide åpent med konferanse-arrangører og underkaste deres AI-genererte arbeid til samme standarder som menneskelig forskning, har de etablert viktige precedenser for ansvarlig utvikling av automatiserte forskningskapabiliteter.
Bunnen av saken
Akseptansen av en AI-skrevet artikkel på en ledende maskinlæringsworkshop er en betydelig fremgang i AI-kapabiliteter. Mens arbeidet ennå ikke er på topp-konferansens nivå, demonstrerer det en tydelig utvikling mot at AI-systemer blir alvorlige bidragsytere til vitenskapelig oppdagelse. Utfordringen ligger nå ikke bare i å fremme teknologien, men også i å forme de etiske og akademiske rammer som vil styre denne nye forskningsfronten.












