Artificiell intelligens

AI som forskare: Den första peer-granskade forskningsartikeln skriven utan mänskligt ingripande

Published August 30, 2025

Updated April 26, 2026

Dr. Tehseen Zia

Artificiell intelligens har nått en ny och betydande milstolpe som utmanar vår förståelse för vad maskiner kan åstadkomma på egen hand. För första gången i den vetenskapliga historien har ett AI-system skrivit en komplett forskningsartikel som godkänts av peer-review vid en akademisk konferens utan någon mänsklig inblandning i skrivprocessen. Denna genombrott kan vara en grundläggande förändring i hur vetenskaplig forskning kan bedrivas i framtiden.

Historisk prestation

En artikel producerad av The AI Scientist-v2 godkändes av peer-review-processen vid en workshop på en toppinternationell AI-konferens. Forskningen skickades in till en ICLR 2025-workshop, som är en av de mest prestigefyllda arenorna inom maskinlärning. Artikeln genererades av en förbättrad version av den ursprungliga AI Scientist, kallad The AI Scientist-v2.

Den accepterade artikeln, med titeln “Compositional Regularization: Oförväntade hinder vid förbättring av neuronnätverks generalisering“, fick imponerande betyg från mänskliga granskare. Av de tre artiklarna som skickades in för granskning fick en betyg som placerade den över godkännandetröskeln. Denna prestation är en betydande framsteg eftersom AI nu kan delta i den grundläggande processen av vetenskaplig upptäckt som har varit exklusivt mänsklig i århundraden.

Forskningsgruppen från Sakana AI, som arbetade med samarbetspartners från University of British Columbia och University of Oxford, genomförde detta experiment. De fick godkännande från institutionens etiknämnd och arbetade direkt med ICLR-konferensarrangörerna för att säkerställa att experimentet följde lämpliga vetenskapliga protokoll.

Hur The AI Scientist-v2 fungerar

The AI Scientist-v2 har uppnått denna framgång på grund av flera stora förbättringar jämfört med sin föregångare. Till skillnad från sin föregångare eliminerar AI Scientist-v2 behovet av mänskligt skrivna kodmallar, kan arbeta inom olika maskinlärningsdomäner och använder en träd-sökmetodik för att utforska flera forskningsvägar samtidigt.

Systemet fungerar genom en slut-till-slut-process som speglar hur mänskliga forskare arbetar. Det börjar med att formulera vetenskapliga hypoteser baserat på den forskningsdomän det är tilldelat att utforska. AI: n utformar sedan experiment för att testa dessa hypoteser, skriver den nödvändiga koden för att genomföra experimenten och kör dem automatiskt.

Vad som gör detta system särskilt avancerat är dess användning av agentic tree search-metodik. Denna metod tillåter AI: n att utforska flera forskningsriktningar samtidigt, liknande hur mänskliga forskare kan överväga olika tillvägagångssätt för att lösa ett problem. Detta innebär att köra experiment via agentic tree search, analysera resultaten och generera en utkast till artikel. En dedikerad experimentansvarig agent samordnar hela processen för att säkerställa att forskningen förblir fokuserad och produktiv.

Systemet innehåller också en förbättrad AI-granskningskomponent som använder vision-language-modeller för att ge feedback på både innehållet och den visuella presentationen av forskningsresultat. Detta skapar en iterativ förbättringsprocess där AI: n kan förbättra sitt eget arbete baserat på feedback, liknande hur mänskliga forskare förbättrar sina manuskript baserat på kollegors inmatning.

Vad som gjorde denna forskningsartikel speciell

Den accepterade artikeln fokuserade på ett utmanande problem inom maskinlärning som kallas compositional generalization. Detta refererar till förmågan hos neuronnätverk att förstå och tillämpa lärd koncept i nya kombinationer som de aldrig tidigare sett. The AI Scientist-v2 undersökte nya regleringsmetoder som kan förbättra denna förmåga.

Intressant nog rapporterade artikeln också negativa resultat. AI: n upptäckte att vissa tillvägagångssätt som den hypotesiserade skulle förbättra neuronnätverksprestanda i själva verket skapade oförväntade hinder. I vetenskapen är negativa resultat värdefulla eftersom de förhindrar att andra forskare följer improduktiva vägar och bidrar till vår förståelse av vad som inte fungerar.

Forskningen följde rigorösa vetenskapliga standarder under hela processen. The AI Scientist-v2 genomförde flera experimentella körningar för att säkerställa statistisk giltighet, skapade tydliga visualiseringar av sina resultat och citerade korrekt relevant tidigare arbete. Det formaterade hela manuskriptet enligt akademiska standarder och skrev omfattande diskussioner om sin metodik och resultat.

De mänskliga forskare som övervakade projektet genomförde en noggrann granskning av alla tre genererade artiklarna. De fann att den accepterade artikeln var av workshop-kvalitet, men innehöll några tekniska problem som skulle förhindra godkännande vid huvudkonferensen. Denna ärliga bedömning visar de nuvarande begränsningarna samtidigt som den erkänner den betydande framsteg som uppnåtts.

Tekniska förmågor och förbättringar

The AI Scientist-v2 visar flera anmärkningsvärda tekniska förmågor som skiljer det från tidigare automatiserade forskningssystem. Systemet kan arbeta inom olika maskinlärningsdomäner utan att kräva förskrivna kodmallar. Denna flexibilitet innebär att det kan anpassa sig till nya forskningsområden och generera original experimentella tillvägagångssätt snarare än att följa förutbestämda mönster.

Träd-sökmetodiken är en betydande innovation inom AI-forskning. Istället för att följa en enskild forskningsriktning kan systemet upprätthålla flera hypoteser samtidigt och allokerar beräkningsresurser baserat på den löfte varje riktning visar. Detta tillvägagångssätt speglar hur erfarna mänskliga forskare ofta upprätthåller flera forskningstrådar medan de fokuserar mest på de mest lovande vägarna.

En annan avgörande förbättring är integrationen av vision-language-modeller för granskning och förbättring av de visuella elementen i forskningsartiklar. Vetenskapliga figurer och visualiseringar är avgörande för att effektivt kommunicera forskningsresultat. AI: n kan nu utvärdera och förbättra sina egna datavisualiseringar iterativt.

Systemet visar också förståelse för vetenskapliga skrivkonventioner. Det strukturerar artiklarna med lämpliga avsnitt, upprätthåller konsekvent terminologi genom hela manuskripten och skapar en logisk flöde mellan olika delar av forskningsberättelsen. AI: n visar medvetenhet om hur man presenterar metodik, diskuterar begränsningar och kontextualiserar resultat inom befintlig litteratur.

Aktuella begränsningar och utmaningar

Trots denna historiska prestation finns det flera viktiga begränsningar som begränsar de nuvarande förmågorna hos AI-genererad forskning. Företaget sa att ingen av dess AI-genererade studier uppnådde den interna standarden för ICLR-konferensspårpublikation. Detta indikerar att medan AI kan producera workshop-kvalitetsforskning, att nå de högsta nivåerna av vetenskaplig publicering förblir en utmaning.

Godkännandefrekvensen ger viktig kontext för att utvärdera denna prestation. Artikeln godkändes vid en workshop-spår, som vanligtvis har mindre stränga standarder än huvudkonferensen (60-70% godkännandefrekvens jämfört med 20-30% godkännandefrekvens som är typiskt för huvudkonferensspår). Medan detta inte minskar betydelsen av prestationen, antyder det att producera verkligen banbrytande forskning förblir bortom nuvarande AI-förmågor.

The AI Scientist-v2 visade också några svagheter som mänskliga forskare identifierade under sin granskningsprocess. Systemet gjorde ibland citeringsfel, tillskrev forskningsresultat till felaktiga författare eller publikationer. Det kämpade också med vissa aspekter av experimentell design som mänskliga experter skulle ha angripit på ett annat sätt.

Kanske viktigast av allt fokuserade den AI-genererade forskningen på inkrementella förbättringar snarare än paradigm-skiftande upptäckter. Systemet verkar mer kapabelt att genomföra grundliga undersökningar inom etablerade forskningsramar än att föreslå helt nya sätt att tänka på vetenskapliga problem.

Vägen framåt

Den lyckade peer-granskningen av AI-genererad forskning är början på en ny era inom vetenskaplig forskning. När grundmodeller fortsätter att förbättras kan vi förvänta oss att The AI Scientist och liknande system kommer att producera alltmer sofistikerad forskning som närmar sig och potentiellt överträffar mänskliga förmågor inom många områden.

Forskningsgruppen förväntar sig att framtida versioner kommer att vara kapabla att producera artiklar som är värda att accepteras vid toppkonferenser och tidskrifter. Den logiska progressionen antyder att AI-system kan bidra till banbrytande upptäckter inom områden som medicin, fysik och kemi.

Denna utveckling väcker också viktiga frågor om forskningsetik och publiceringsstandarder. Den vetenskapliga gemenskapen måste utveckla nya normer för att hantera AI-genererad forskning, inklusive när och hur man ska avslöja AI-inblandning och hur man ska utvärdera sådant arbete jämfört med mänskligt genererad forskning.

Den transparens som forskargruppen visade i detta experiment ger ett värdefullt exempel för framtida AI-forskningsutvärdering. Genom att arbeta öppet med konferensarrangörer och utsätta sitt AI-genererade arbete för samma standarder som mänsklig forskning, har de etablerat viktiga prejudikat för den ansvarsfulla utvecklingen av automatiserade forskningsförmågor.

Sammanfattning

Godkännandet av en AI-skriven artikel vid en ledande maskinlärningsworkshop är en betydande framsteg inom AI-förmågor. Medan arbetet ännu inte är på toppkonferensnivå, visar det en tydlig bana mot att AI-system blir allvarliga bidragsgivare till vetenskaplig upptäckt. Utmaningen ligger nu inte bara i att förbättra tekniken, utan också i att forma de etiska och akademiska ramarna som kommer att styra denna nya forskningsfront.

Dr. Tehseen Zia

Dr. Tehseen Zia är en fast anställd biträdande professor vid COMSATS University Islamabad, med en doktorsexamen i AI från Vienna University of Technology, Österrike. Specialiserad på artificiell intelligens, maskinlärning, datavetenskap och datorseende, har han gjort betydande bidrag med publikationer i ansedda vetenskapliga tidskrifter. Dr. Tehseen har också lett olika industriprojekt som huvudutredare och tjänstgjort som AI-konsult.