Kunstmatige intelligentie

AI als onderzoeker: Eerste peer-reviewed onderzoeksartikel geschreven zonder menselijke tussenkomst

Published August 30, 2025

Updated April 26, 2026

Dr. Tehseen Zia

Kunstmatige intelligentie heeft een nieuwe significante mijlpaal bereikt die onze kennis van wat machines onafhankelijk kunnen bereiken, uitdaagt. Voor het eerst in de wetenschappelijke geschiedenis heeft een AI-systeem een complete onderzoeksartikel geschreven dat de peer-review heeft doorstaan op een academische conferentie zonder enige menselijke hulp bij het schrijfproces. Deze doorbraak kan een fundamentele verschuiving zijn in hoe wetenschappelijk onderzoek in de toekomst wordt uitgevoerd.

Historische prestatie

Een artikel dat is geproduceerd door The AI Scientist-v2 heeft de peer-review doorstaan op een workshop op een topinternationale AI-conferentie. Het onderzoek is ingediend bij een ICLR 2025-workshop, dat een van de meest prestigieuze venues is in machine learning. Het artikel is gegenereerd door een verbeterde versie van de oorspronkelijke AI Scientist, genaamd The AI Scientist-v2.

Het geaccepteerde artikel, getiteld “Compositional Regularization: Onverwachte obstakels bij het verbeteren van neurale netwerkgeneralisatie“, heeft indrukwekkende scores ontvangen van menselijke reviewers. Van de drie artikelen die zijn ingediend voor review, ontving er één scores die boven de acceptatiedrempel lagen. Deze doorbraak is een significante vooruitgang, aangezien AI nu kan deelnemen aan het fundamentele proces van wetenschappelijke ontdekking dat eeuwenlang exclusief menselijk is geweest.

Het onderzoeksteam van Sakana AI, dat samenwerkte met medewerkers van de University of British Columbia en de University of Oxford, voerde dit experiment uit. Zij ontvingen goedkeuring van de institutionele review board en werkten rechtstreeks met de ICLR-conferentieorganisatoren om ervoor te zorgen dat het experiment de juiste wetenschappelijke protocollen volgde.

Hoe The AI Scientist-v2 werkt

The AI Scientist-v2 heeft deze succes behaald vanwege verschillende belangrijke verbeteringen ten opzichte van zijn voorganger. In tegenstelling tot zijn voorganger, elimineert AI Scientist-v2 de noodzaak voor door mensen geschreven code-templates, kan werken in diverse machine learning-domeinen en maakt gebruik van een tree-search-methode om meerdere onderzoeksrichtingen tegelijk te onderzoeken.

Het systeem werkt via een end-to-end-proces dat spiegelt hoe menselijke onderzoekers werken. Het begint met het formuleren van wetenschappelijke hypothesen op basis van het onderzoeksgebied dat het is toegewezen om te onderzoeken. De AI ontwerpt vervolgens experimenten om deze hypothesen te testen, schrijft de benodigde code om de experimenten uit te voeren en voert ze automatisch uit.

Wat dit systeem bijzonder geavanceerd maakt, is het gebruik van agentic tree search-methode. Deze benadering stelt de AI in staat om meerdere onderzoeksrichtingen tegelijk te onderzoeken, net zoals menselijke onderzoekers verschillende benaderingen zouden overwegen om een probleem op te lossen. Dit omvat het uitvoeren van experimenten via agentic tree search, het analyseren van resultaten en het genereren van een paper-ontwerp. Een toegewezen experimentmanager-agent coördineert dit hele proces om ervoor te zorgen dat het onderzoek gefocust en productief blijft.

Het systeem omvat ook een verbeterde AI-reviewer-component die vision-language-modellen gebruikt om feedback te geven over zowel de inhoud als de visuele presentatie van onderzoeksresultaten. Dit creëert een iteratief verfijningproces waarin de AI zijn eigen werk kan verbeteren op basis van feedback, net zoals menselijke onderzoekers hun manuscripten verfijnen op basis van collega-input.

Wat dit onderzoeksartikel speciaal maakte

Het geaccepteerde artikel richtte zich op een uitdagend probleem in machine learning, genaamd compositional generalization. Dit verwijst naar de mogelijkheid van neurale netwerken om geleerde concepten te begrijpen en toe te passen in nieuwe combinaties die ze nog nooit eerder hebben gezien. The AI Scientist-v2 onderzocht nieuwe regularisatiemethoden die deze mogelijkheid zouden kunnen verbeteren.

Interessant is dat het artikel ook negatieve resultaten rapporteerde. De AI ontdekte dat bepaalde benaderingen die het had gehypothetiseerd om de prestaties van neurale netwerken te verbeteren, eigenlijk onverwachte obstakels creëerden. In de wetenschap zijn negatieve resultaten waardevol omdat ze andere onderzoekers ervan weerhouden om onproductieve paden te volgen en bijdragen aan onze kennis van wat niet werkt.

Het onderzoek volgde strikte wetenschappelijke normen gedurende het hele proces. The AI Scientist-v2 voerde meerdere experimentele runs uit om statistische validiteit te waarborgen, creëerde duidelijke visualisaties van zijn bevindingen en citeerde correct relevante eerdere werken. Het formateerde het hele manuscript volgens academische normen en schreef uitgebreide discussies over zijn methodologie en bevindingen.

De menselijke onderzoekers die het project begeleidden, voerden hun eigen grondige review van alle drie gegenereerde artikelen uit. Zij vonden dat het geaccepteerde artikel van workshopkwaliteit was, maar enkele technische problemen bevatten die het onmogelijk zouden maken om het op het hoofdconferentie-spoor te accepteren. Deze eerlijke beoordeling toont de huidige beperkingen aan, terwijl het tegelijkertijd de significante vooruitgang erkent.

Technische mogelijkheden en verbeteringen

The AI Scientist-v2 toont verschillende opmerkelijke technische mogelijkheden die het onderscheiden van eerdere geautomatiseerde onderzoeks-systemen. Het systeem kan werken in diverse machine learning-domeinen zonder vooraf geschreven code-templates nodig te hebben. Deze flexibiliteit betekent dat het zich kan aanpassen aan nieuwe onderzoeksgebieden en originele experimentele benaderingen kan genereren in plaats van vooraf bepaalde patronen te volgen.

De tree search-methode is een significante innovatie in AI-onderzoeksautomatisering. In plaats van één onderzoeksrichting te volgen, kan het systeem meerdere hypothesen tegelijk onderzoeken en computermiddelen toewijzen op basis van de belofte die elke richting laat zien. Deze benadering spiegelt hoe ervaren menselijke onderzoekers vaak meerdere onderzoeksdraden onderhouden, waarbij ze zich het meest concentreren op de meest veelbelovende wegen.

Een andere cruciale verbetering is de integratie van vision-language-modellen voor het beoordelen en verfijnen van de visuele elementen van onderzoeksartikelen. Wetenschappelijke figuren en visualisaties zijn cruciaal voor het effectief communiceren van onderzoeksbevindingen. De AI kan nu zijn eigen gegevensvisualisaties iteratief evalueren en verbeteren.

Het systeem toont ook een begrip van wetenschappelijke schrijfconventies. Het structureert papers met passende secties, houdt consistent terminologie aan gedurende het hele manuscript en creëert een logische flow tussen verschillende delen van het onderzoeksverhaal. De AI toont zich bewust van hoe methodologie, beperkingen en contextuele bevindingen binnen bestaande literatuur moeten worden gepresenteerd.

Huidige beperkingen en uitdagingen

Ondanks deze historische prestatie, zijn er verschillende belangrijke beperkingen die de huidige mogelijkheden van AI-gegenereerd onderzoek beperken. Het bedrijf zei dat geen van zijn AI-gegenereerde studies de interne standaard voor ICLR-conferentie-spoorpublicaties haalde. Dit geeft aan dat, hoewel de AI workshop-kwaliteit onderzoek kan produceren, het bereiken van de hoogste niveaus van wetenschappelijke publicatie nog steeds een uitdaging is.

De acceptatiepercentages bieden belangrijke context voor het evalueren van deze prestatie. Het artikel werd geaccepteerd op een workshop-spoor, dat doorgaans minder strikte standaarden heeft dan het hoofdconferentie-spoor (60-70% acceptatiepercentage versus 20-30% acceptatiepercentages typisch voor hoofdconferentie-spoor). Hoewel dit de significantie van de prestatie niet vermindert, geeft het aan dat het produceren van echt baanbrekend onderzoek nog steeds buiten de huidige AI-mogelijkheden ligt.

The AI Scientist-v2 toonde ook enkele zwakheden die menselijke onderzoekers tijdens hun review-proces identificeerden. Het systeem maakte soms citatiefouten, waarbij onderzoeksbevindingen werden toegeschreven aan onjuiste auteurs of publicaties. Het had ook moeite met sommige aspecten van experimenteel ontwerp die menselijke experts anders zouden hebben aangepakt.

Misschien wel het belangrijkste is dat het AI-gegenereerde onderzoek zich richtte op incrementele verbeteringen in plaats van paradigmatische ontdekkingen. Het systeem lijkt meer in staat om grondige onderzoeken uit te voeren binnen bestaande onderzoeksframeworks dan om geheel nieuwe manieren van denken over wetenschappelijke problemen voor te stellen.

De weg vooruit

De succesvolle peer-review van AI-gegenereerd onderzoek is het begin van een nieuwe era in wetenschappelijk onderzoek. Naarmate foundation-modellen blijven verbeteren, kunnen we verwachten dat The AI Scientist en soortgelijke systemen steeds geavanceerder onderzoek zullen produceren dat de menselijke capaciteiten in veel domeinen benadert en mogelijk overtreft.

Het onderzoeksteam verwacht dat toekomstige versies in staat zullen zijn om artikelen te produceren die de moeite waard zijn om geaccepteerd te worden op topconferenties en -tijdschriften. De logische voortgang suggereert dat AI-systemen uiteindelijk kunnen bijdragen aan baanbrekende ontdekkingen in domeinen die variëren van geneeskunde tot natuurkunde tot scheikunde.

Deze ontwikkeling roept ook belangrijke vragen op over onderzoeksethiek en publicatiestandaarden. De wetenschappelijke gemeenschap moet nieuwe normen ontwikkelen voor het omgaan met AI-gegenereerd onderzoek, waaronder wanneer en hoe AI-betrokkenheid moet worden onthuld en hoe dergelijk werk moet worden geëvalueerd naast door mensen gegenereerd onderzoek.

De transparantie die door het onderzoeksteam in dit experiment is getoond, biedt een waardevol model voor toekomstige AI-onderzoeksbeoordeling. Door openlijk samen te werken met conferentie-organisatoren en hun AI-gegenereerde werk te onderwerpen aan dezelfde standaarden als menselijk onderzoek, hebben ze belangrijke precedenten vastgesteld voor de verantwoorde ontwikkeling van geautomatiseerde onderzoeks-capaciteiten.

De bottom line

De acceptatie van een AI-geschreven artikel op een toonaangevende machine learning-workshop is een significante vooruitgang in AI-mogelijkheden. Hoewel het werk nog niet op het niveau van een topconferentie is, toont het een duidelijke traject naar AI-systemen die serieus bijdragen aan wetenschappelijke ontdekking. De uitdaging ligt nu niet alleen in het verbeteren van de technologie, maar ook in het vormgeven van de ethische en academische kaders die deze nieuwe onderzoeksfrontier zullen reguleren.

Dr. Tehseen Zia

Dr. Tehseen Zia is een gewaardeerd associate professor aan de COMSATS University Islamabad, met een PhD in AI van de Vienna University of Technology, Oostenrijk. Hij specialiseert zich in Artificial Intelligence, Machine Learning, Data Science en Computer Vision, en heeft significante bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook verschillende industriële projecten geleid als hoofdonderzoeker en heeft gediend als AI-consultant.