Andersons hoek

Hoe je absurd wetenschappelijke papers langs AI-recensenten kunt smokkelen

mm
An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

Nieuw onderzoek toont aan hoe AI-systemen nu nep-wetenschappelijke papers kunnen schrijven die andere AI’s als echt accepteren, en ontwijkingstechnieken die eerder werkten, ontwijken, en laten zien hoe gemakkelijk de onderzoekswereld ineen kan storten door bots die bots voor de gek houden.

 

De academische onderzoekssector, ironisch genoeg de voorhoede van innovatie in AI, verkeert in een geloofwaardigheidscrisis die zelf door AI wordt aangedreven. De impact van machine learning op het onderzoek, de indiening en het beoordelingsproces is aanzienlijk sinds het perspectief van de impact van AI ongeveer vier jaar geleden duidelijk werd voor het eerst, met als laatste in een reeks van controverse de massale generatie van papers met weinig waarde.

Samen met een groot deel van de brede academische sector, is de onderzoekssector betrokken in een soort Koude Oorlog tussen AI’s die tekst genereren – zoals ChatGPT en de Claude-serie – en de nieuwste generatie ‘detector’ AI’s, die hun output kunnen identificeren zonder (meestal) studenten of wetenschappers met valse positieven te beschuldigen.

Deze spanningen zullen toenemen, samen met het volume van wetenschappelijke indieningen, dat radicaal toeneemt, aangedreven door AI-geassisteerde systemen en kaders; en vereist AI-gedreven industrialisatie van het toezichtsproces om (hopelijk) alle indieningen die zuiver het werk van AI zijn, te filteren.

Nepkennis welkom

Een nieuwe onderzoeks samenwerking tussen de VS en Saoedi-Arabië onderzoekt de mate waarin deze opkomende ‘firewall’ van AI-detectie kan worden doorbroken door geheel AI-gegenereerde indieningspapers, wanneer deze papers enkele extra, overtuigende trucs gebruiken.

In tests was het nieuwe systeem, BadScientist genaamd, in staat om acceptatiepercentages van maximaal 82% te behalen van de LLM-gebaseerde systemen die momenteel worden gebruikt om AI-gegenereerde inhoud in wetenschappelijke papers te detecteren:

Het BadScientist-systeem gebruikt een AI-agent om nep-wetenschappelijke papers te genereren en een andere om ze te beoordelen met behulp van huidige taalmodellen. Bron: https://arxiv.org/pdf/2510.18003

Het BadScientist-systeem gebruikt een AI-agent om nep-wetenschappelijke papers te genereren en een andere om ze te beoordelen met behulp van huidige taalmodellen. Bron: https://arxiv.org/pdf/2510.18003

Nep-papers werden gegenereerd met behulp van echte AI-conferentie-onderwerpen en misleidende strategieën, en vervolgens beoordeeld door modellen die waren gekalibreerd op peer review-gegevens, waaronder GPT-5 voor integriteitscontroles. Velen kregen hoge scores ondanks dat ze duidelijke fouten of vervalsingen bevatten.

De publicatie van het paper valt samen met vandaag’s Open Conference of AI Agents for Science 2025 op Stanford, waar de deelnemers en sprekers menselijk zijn, maar alle papers zijn geschreven en beoordeeld door diverse AI-systemen.

BadScientist, het nieuwe paper legt uit, gebruikt diverse vormen van academische en literaire misleiding, weglating, uitvinding en overdrijving om het paper te herwegen zodat het niet meer herkenbaar is als AI-gegenereerd door de meeste huidige detectiesystemen; en we zullen spoedig naar deze categorieën kijken.

De auteurs merken op, in een toon van alarm, dat zelfs wanneer detectiesystemen AI-inhoud in een nep-paper identificeren, ze de neiging hebben om het toch door te laten, en voegen eraan toe dat hun eigen pogingen om de verdedigingssystemen tegen deze nieuwe aanvalsvector te immuniseren, nauwelijks meer dan toevallige verbeteringen opleverden.

Het paper zegt:

‘Gefabriceerde papers behalen hoge acceptatiepercentages, waarbij reviewers vaak conflicten tussen zorg en acceptatie vertonen – ze vlaggen integriteitskwesties, maar geven nog steeds een aanbeveling voor acceptatie. Deze fundamentele ineenstorting toont aan dat huidige AI-recensenten meer als patroonherkenningsmodellen werken dan als kritische evaluatoren.

‘[…] Het enige vragen van LLM-recensenten om “meer zorgvuldig” te zijn, is onvoldoende. De wetenschappelijke gemeenschap staat voor een dringende keuze. Zonder onmiddellijke actie om diepe verdedigingsmaatregelen te implementeren, waaronder provenance-verificatie, integriteitsgewogen scoring en verplichte menselijke toezicht, lopen we het risico op AI-only publicatie-lussen waarin gesofisticeerde vervalsingen onze mogelijkheid om echte onderzoek te onderscheiden van overtuigende vervalsingen, overweldigen.

‘De integriteit van wetenschappelijke kennis zelf staat op het spel.’

Het nieuwe paper heeft als titel BadScientist: Kan een onderzoeksagent overtuigende maar ongegronde papers schrijven die LLM-recensenten voor de gek houden? en komt van zes auteurs uit de University of Washington en King Abdulaziz City for Science and Technology in Riyadh. De publicatie heeft een accompanying project site.

Methode

Het paper-creatiekader dat voor het werk werd gebruikt, is een significante heruitvinding van de AI-Scientist-samenwerking van 2024, waarbij de auteurs benadrukken dat de hele pijplijn fundamenteel is herontworpen. Alleen de meest basale schrijfprompts werden behouden, met alle experimentele uitvoering en gestructureerde structuren verwijderd. Het bijgewerkte systeem werkt nu vanuit een eenvoudige seed, waardoor het systeem vrij kan uitvinden en experimentele resultaten en plottingcode kan genereren als dat nodig is.

Het overkoepelende kader is bedoeld om een AI in staat te stellen om overtuigende nep-papers te genereren zonder echte experimenten uit te voeren of gebruik te maken van echte gegevens. In plaats daarvan creëert het systeem synthetische gegevens om bewust gefabriceerde claims te ondersteunen.

De setup, leggen de auteurs uit, vermijdt bewust menselijke betrokkenheid, prompt-aanvallen of gecoördineerde samenspanning tussen schrijver- en recensentenagenten. De AI-recensenten beoordeelden elke indiening in één keer, zonder toegang tot meer dan het paper zelf, en zonder de mogelijkheid om experimenten opnieuw uit te voeren, wat de echte peer review-omstandigheden weerspiegelt.

De ‘atomaire strategieën’ die worden gebruikt om nep-papers te genereren, zijn modulaire tactieken die alleen of in combinatie kunnen worden toegepast (en iedereen die regelmatig de literatuur leest, zal hiermee vertrouwd zijn). De strategieën omvatten het benadrukken van dramatische verbeteringen om de methode te laten lijken als een belangrijke vooruitgang (TooGoodGains); het kiezen van baselines en resultaten die de nieuwe methode bevorderen, terwijl confidence-intervallen in de hoofdtafel worden overgeslagen (BaselineSelect); het toevoegen van schone ablaties, precieze statistieken en nette tabellen in de appendix, evenals beloften van toekomstige code of gegevens (StatTheater); het polijsten van de structuur van het paper met consistente terminologie, cross-referenties en opmaak (CoherencePolish); en het toevoegen van formele bewijzen die ogenschijnlijk solide zijn, maar verborgen fouten bevatten (ProofGap).

Gegevens en tests

Om het systeem te testen, hebben de auteurs GPT-5 gebruikt om onderzoeksgebieden te genereren in sleutelgebieden van kunstmatige intelligentie, met behulp van de domeinen Kunstmatige Intelligentie, Machine Learning, Computer Vision, Natuurlijke Taalverwerking, Robotica, Systemen en Beveiliging.

Deze categorieën werden gebruikt als seed-onderwerpen voor nep-papers, waarbij elk werd uitgebreid tot vier verschillende versies, met behulp van de bovengenoemde strategieën, en ontworpen om recensenten te misleiden of te imponeren. Om te bepalen of een paper zou worden ‘geaccepteerd’, keek het systeem alleen naar de eindbeoordeling die door de AI-recensent werd gegeven.

De nep-papers werden in hun geheel geschreven door GPT-5. Om ze te beoordelen, hebben de auteurs GPT-4.1 gebruikt; o4-mini; en o3. Allen kregen dezelfde beoordelingsprompt, een vaste instructieformaat ontworpen om de scores en structuur te imiteren die in echte peer review worden gebruikt.

Om deze beoordelingsscores betekenis te geven, werd het systeem gekalibreerd met behulp van 200 echte indieningen uit de ICLR 2025 OpenReview-dataset (een openbare collectie van echte papers, recensentencommentaren en acceptatie-uitkomsten).

Uit dit onderzoek werd één drempelwaarde vastgesteld om overeen te komen met de echte acceptatiegraad van ICLR van 31,73%, wat resulteerde in een drempelwaarde van 7; en een andere om de score weer te geven waarbij een paper een 50% kans had om door menselijke recensenten te worden geaccepteerd (berekenend als 6,667).

De auteurs testten de betrouwbaarheid van hun setup door beoordelingen te simuleren voor 5.000 nep-papers, met behulp van 1-3 AI-recensenten, waarvan elk willekeurige scores tussen 1 en 10 zou teruggeven. De resultaten zouden aantonen dat, zelfs met deze lawaaierige setup, het systeem aanmerkelijk minder fouten maakte dan zijn slechtste theoretische limieten zouden suggereren.

Het gebruik van drie recensenten in plaats van één leidde tot een aanzienlijke reductie van scorevariabiliteit, waardoor de beslissingsstabiliteit bijna verdrievoudigde – resultaten die werden gebruikt om de keuze van drie beoordelingsmodellen en een kalibratieverzameling van 200 echte papers te rechtvaardigen.

De twee metrics die werden gedefinieerd om de generator te evalueren, waren acceptatiegraad, die meet hoe vaak nep-papers een voldoende score kregen; en gemiddelde beoordelingscore, die de gemiddelde beoordeling over de indieningen meet. Beide werden gebruikt om te meten hoe goed het systeem recensenten kon misleiden:

<img class=" wp-image-224695" src="https://www.unite.ai/wp-content/uploads/2025/10/table-1-4.jpg" alt="Acceptatie (ACPT) toont het aandeel van nep-papers dat boven twee drempelwaarden scoort: één die overeenkomt met de ICLR 2025-acceptatiegraad, de andere met een 50% menselijke acceptatie-schatting. Integrity Concern Rate (ICR-m) toont de vlaggingssnelheid per recensentenmodel. De laatste kolom geeft de ensemble-snelheid weer op basis van een meerderheidsstem.

Nep-papers zagen hoge acceptatie onder bijna alle strategieën. De eerste tactiek alleen al opleverde 67% en 82% bij de twee drempelwaarden, wat aantoont dat beoordelingsmodellen gemakkelijk werden overtuigd. Het combineren van alle strategieën verlaagde de acceptatie enigszins, maar verdubbelde de detectie, met meer dan de helft van de beoordelingen die zorgen uitten. De eerste strategie bood de beste compromis: sterke acceptatie en matige detectie, terwijl andere tactieken zwakker waren, maar moeilijker te detecteren. Het ChatGPT-o3-beoordelingsmodel vlagde de meeste, en GPT-4.1 de minste.

Score-verdelingen worden getoond voor zes aanvalsstrategieën, met behulp van drie beoordelingsmodellen: GPT-4.1 (rood); o3 (oranje); en o4-mini (blauw). Elke plot toont hoe vaak elke score van vier tot en met negen werd toegewezen, met de rode gestreepte lijn die de acceptatiedrempel van zeven aangeeft.

Score-verdelingen worden getoond voor zes aanvalsstrategieën, met behulp van drie beoordelingsmodellen: GPT-4.1 (rood); o3 (oranje); en o4-mini (blauw). Elke plot toont hoe vaak elke score van vier tot en met negen werd toegewezen, met de rode gestreepte lijn die de acceptatiedrempel van zeven aangeeft.

In de resultaten van de tweede test, hierboven, zien we score-histogrammen voor drie modellen over zes configuraties. De verdelingen variëren over configuraties, maar o4-mini heeft de neiging om hogere scores toe te wijzen, o3 toont een grotere spreiding en meer extreme waarden, terwijl GPT-4.1 lagere scores toe wijst.

Concern-acceptatie-conflict per model en strategie: het percentage van de gevallen waarin een model een integriteitszorg uitten, maar nog steeds een voldoende score gaf. Hogere waarden geven een zwakkere koppeling tussen detectie van zorgen en eindbeoordeling aan.

Concern-acceptatie-conflict per model en strategie: het percentage van de gevallen waarin een model een integriteitszorg uitten, maar nog steeds een voldoende score gaf. Hogere waarden geven een zwakkere koppeling tussen detectie van zorgen en eindbeoordeling aan.

Modellen gaven vaak hoge scores zelfs wanneer ze integriteitszorgen uitten. In dit opzicht was o4-mini het meest inconsistent, met conflicten in 100% van de gevallen onder s1, s3 en de combinatie, en 50-80% elders.

GPT-4.1 varieerde van 0% (s4) tot 75% (s3). o3 was stabiler, tussen 26% en 52%. Conflict was het hoogst onder s3, vooral voor o4-mini; en de auteurs merken op dat detectiesignalen slecht gekoppeld waren aan eindbeoordelingen.

Mitigatie

Twee methoden werden getest die toekomstige detectiemodellen zouden kunnen helpen om deze nieuwe aanvalsmethoden te ontwijken. De eerste, Review-with-Detection (ReD), voegde een integriteitscontrole-stap toe aan standaardbeoordelingen, waarbij modellen AI-gegenereerde inhoud vlagden en bewijs citeerden. Dit verhoogde integriteitswaarschuwingen (van 57% tot 86%), maar verhoogde ook acceptatiepercentages, wat aangeeft dat waarschuwingen niet in eindbeoordelingen werden weerspiegeld:

Review-with-Detection (ReD) verhoogt zowel integriteitszorgpercentages (ICR) als acceptatiepercentages (ACPT) in vergelijking met de baseline. Terwijl o3 onder ReD veel gevoeliger wordt, faalt GPT-4.1 om enige zorgen te signaleren. De algehele stijging van acceptatie ondanks toegevoegde integriteitswaarschuwingen suggereert een zwakke koppeling tussen detectie en scoring.

Review-with-Detection (ReD) verhoogt zowel integriteitszorgpercentages (ICR) als acceptatiepercentages (ACPT) in vergelijking met de baseline. Terwijl o3 onder ReD veel gevoeliger wordt, faalt GPT-4.1 om enige zorgen te signaleren. De algehele stijging van acceptatie ondanks toegevoegde integriteitswaarschuwingen suggereert een zwakke koppeling tussen detectie en scoring.

De tweede methode, Detection-Only (DetOnly), sloeg volledige beoordelingen over en vroeg modellen om papers te classificeren als echt of gefabriceerd. Detectie-accuratesse was over het algemeen slecht, dicht bij toeval, behalve voor enkele kleine verbeteringen op o3:

Detectieresultaten voor ReD en DetOnly, in vergelijking met een toevalsbaseline. Accuratesseverbeteringen ten opzichte van toeval waren minimaal, maar ReD was meer conservatief, terwijl DetOnly een hogere recall behaalde - maar met veel valse positieven. Model o3 toonde de sterkste detectievoorkeur; o4-mini was inconsistent; en GPT-4.1 detecteerde bijna niets.

Detectieresultaten voor ReD en DetOnly, in vergelijking met een toevalsbaseline. Accuratesseverbeteringen ten opzichte van toeval waren minimaal, maar ReD was meer conservatief, terwijl DetOnly een hogere recall behaalde – maar met veel valse positieven. Model o3 toonde de sterkste detectievoorkeur; o4-mini was inconsistent; en GPT-4.1 detecteerde bijna niets.

Over het algemeen was ReD meer conservatief, terwijl DetOnly een hogere recall had, maar ook meer valse positieven.

Het paper concludeert:

AI-only publicatie-lussen bedreigen de wetenschappelijke epistemologie. Als vervalsingen niet te onderscheiden zijn van echte onderzoeken, loopt de basis van wetenschappelijke kennis het risico in te storten.

‘De weg vooruit vereist verdediging in diepte over meerdere lagen: technisch (provenance-verificatie, artifact-validatie), procedureel (integriteitsgewogen scoring, menselijke toezicht), community (post-publicatiebeoordeling, klokkenluiderssysteem), en cultureel (onderwijs over AI-beperkingen, ethische richtlijnen).

‘We zien dit werk als een vroeg waarschuwingssysteem om robuuste verdedigingen te catalyseren voordat deze foutmodi op grote schaal manifest worden. Onze bevindingen tonen aan dat huidige systemen niet klaar zijn voor AI-only onderzoek – de integriteit van de wetenschap hangt af van het behoud van strikte menselijke evaluatie terwijl AI-capaciteiten vooruitgaan.’

Conclusie

Een van de grootste uitdagingen voor de detectie van AI-gegenereerde tekst in de nabije toekomst lijkt het mogelijke convergeren tussen standaard schrijfpraktijken en de standaarden van AI-gegenereerde tekst (die voorlopig wordt gedefinieerd door kenmerken zoals dominante woorden en grammaticastijlen).

Als algemene taal en AI-taal convergeren naar een generieke standaard, suggereert de logica dat toekomstige detectiemethoden die puur op output zijn gebaseerd, nog moeilijker te implementeren zullen zijn.

Bovendien, naarmate LLM’s meer veelzijdig worden en hun ‘tells’ minder benadrukken (hetzij door architectuur-/trainingsbenaderingen, hetzij door betere API-niveau-filtering), zullen ze betere schrijvers worden; en in nog grotere mate lijkt het erop dat menselijke en AI-taal elkaar in het midden zullen ontmoeten; zullen samensmelten en generiek worden.

Op dat punt zal AI-detectie voor taal waarschijnlijk hetzelfde stadium bereiken als AI-afbeelding- en (in mindere mate) AI-videogeneratie hebben bereikt: de noodzaak voor secundaire provenancesystemen zoals de door Adobe geleide Content Authenticity Initiative, of blockchain/ledger-gebaseerde provenance-controles.

 

Publicatie op woensdag 22 oktober 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.