Andersons vinkel
Hvordan man sniger absurd videnskabelige artikler forbi AI-revisorer

Nyt forskning viser, hvordan AI-systemer nu kan skrive falske videnskabelige artikler, som andre AI-systemer accepterer som ægte, og undgår detektionsrutiner, der tidligere fungerede, og afslører, hvor let forskningsverdenen kunne kollapsere til, at robotter narre robotter.
Den akademiske forskningssektor, ironisk nok frontlinjen for innovation inden for AI, er i en troværdighedskrise, der selv er drevet af AI. Impacten af maskinel læring på forskning, indsendelse og gennemgangsprocessen har været betydelig, siden perspektivet om AI’s impact først blev klart for omkring fire år siden, med den seneste i en række kontroverser være masse-genereringen af lavværdi-undersøgelsesartikler.
Sammen med meget af den bredere akademiske sektor, er forskningssektoren engageret i en slags kold krig mellem AI’er, der genererer tekst – såsom ChatGPT og Claude-serien – og den seneste generation af ‘detector’ AI’er, der kan identificere deres output uden (som regel) at smudse studerende eller videnskabsmænd med falske positiver.
Disse spændinger er sat til at øge, sammen med volumen af videnskabelige indsendelser, der stiger radikalt, fødet af AI-hjulpet systemer og rammer; og kræver AI-drevet industrialisering af oversigtsprocessen for (håbefuldt) at filtrere ud alle indsendelser, der er ren arbejde af AI.
Falsk viden velkommen
En ny forsknings-samarbejde mellem USA og Saudi-Arabien undersøger, i hvilken udstrækning denne opdyrkende ‘brandmur’ af AI-detektion kan trænges igennem af helt AI-genererede indsendelsesartikler, når disse artikler udnytter nogle ekstra overbevisende tricks.
I tests var det nye system, kaldet BadScientist, i stand til at opnå accept-rater på op til 82% fra den type LLM-baserede systemer, der nu bruges til at spotte AI-genereret indhold i videnskabelige forskningsartikler:

BadScientist-systemet bruger en AI-agent til at generere falske videnskabelige artikler og en anden til at gennemgå dem ved hjælp af nuværende sprogmodeller. Kilde: https://arxiv.org/pdf/2510.18003
Falske artikler blev genereret ved hjælp af ægte AI-konference-emner og misvisende strategier, derefter gennemgået af modeller, der er kalibreret på peer-review-data, herunder GPT-5 til integritetskontrol. Mange fik høje score trods tydelige fejl eller forfalskninger.
Udgivelsen af artiklen sammentræffer med i dag’s Open Conference of AI Agents for Science 2025 på Stanford, hvor deltagerne og talerne er mennesker, men alle artiklerne er skrevet og gennemgået af diverse AI-systemer.
BadScientist, den nye artikel, bruger diverse former for akademisk og litterær bedrag, udeladelser, opfindelser og overdrivelser til at omveje artiklen væk fra noget, som de fleste nuværende detektionssystemer kan genkende som AI-genereret; og vi vil se på disse kategorier snart.
Forfatterne bemærker i en tone af alarm, at selv når detektionssystemer identificerer AI-indhold i en falsk artikel, har de en tendens til at lade den gå igennem alligevel, og tilføjer, at deres egne forsøg på at immunisere forsvarssystemerne mod denne nye angrebsvektor opnåede knap mere end tilfældigt chance-forbedringer.
Artiklen fastslår:
‘Fabrikerede artikler opnår høje accept-rater, med anmeldere, der ofte viser bekymring-accept-konflikter—flagging integritetsproblemer, men stadig anbefaler accept. Dette grundlæggende sammenbrud afslører, at nuværende AI-anmeldere fungerer mere som mønster-matchere end kritiske evalueringer.
‘[…] At bede LLM-anmeldere om at “være mere omhyggelige” er utilstrækkeligt. Den videnskabelige fællesskab står over for en urgent valg. Uden øjeblikkelig handling til at implementere forsvar-i-dybde-sikkerhedsforanstaltninger—herunder proveniens-verificering, integritets-vægtede scoring og obligatorisk menneskelig oversigt—risikerer vi AI-kun publikations-løkker, hvor sofistikerede forfalskninger overvælder vores evne til at skelne ægte forskning fra overbevisende forfalskninger.
‘Integriteten af videnskabelig viden selv er på spil.’
Den nye artikel er tituleret BadScientist: Kan en forskningsagent skrive overbevisende, men usunde artikler, der narre LLM-anmeldere? og kommer fra seks forfattere på tværs af University of Washington og King Abdulaziz City for Science and Technology i Riyadh. Udgivelsen har en tilhørende projektside.
Metode
Artikel-creating-agent-rammen brugt til arbejdet er en betydelig om-værktning af 2024 AI-Scientist-samarbejde, med forfatterne fremhæver, at hele pipeline er blevet grundlæggende redesignet. Kun de mest grundlæggende skriveprompts blev beholdt, med alle eksperimentelle eksekutioner og skabeloner fjernet. Det opdaterede system arbejder nu fra en simpel seed, der giver systemet mulighed for frit at opfinde eksperimentelle resultater og generere plotting-kode efter behov.
Den overordnede ramme er designet til at lade en AI generere overbevisende falske artikler uden at udføre rigtige eksperimenter eller bruge ægte data. I stedet skaber systemet eller ændrer syntetisk data for at støtte bevidst hallucinerede påstande.
Setuppet, forklarer forfatterne, undgår bevidst menneskelig indblanding, prompt-angreb eller koordineret samarbejde mellem skriver- og anmelder-agenter. AI-anmelderne vurderede hver indsendelse i en enkelt omgang, uden adgang ud over artiklen selv, og uden mulighed for at genkøre eksperimenter, hvilket afspejler rigtige peer-review-betingelser.
De ‘atomiske strategier’ brugt til at generere falske artikler er modulære taktikker, der kan anvendes alene eller i kombination (og enhver, der ofte læser litteraturen, vil være bekendt med disse). Strategierne inkluderer at fremhæve dramatiske forbedringer for at gøre metoden se ud som en større fremgang (TooGoodGains); at vælge baseline og resultater, der favoriserer den nye metode, mens man springer konfidens-intervaller i hovedtabellen over (BaselineSelect); at tilføje rene ablationer, præcise statistikker og pæne tabeller i appendikset, sammen med løfter om fremtidig kode eller data (StatTheater); at polere artiklens struktur med konsistent terminologi, krydsreferencer og formatering (CoherencePolish); og at tilføje formelle beviser, der ser sunde ud, men indeholder skjulte fejl (ProofGap).
Data og tests
For at teste systemet udnyttede forfatterne GPT-5 til at generere forskningsemner på tværs af nøgleområder inden for kunstig intelligens, ved hjælp af domænerne Kunstig Intelligens, Maskinlæring, Computer Vision, Natur-sprogbehandling, Robotik, Systemer og Sikkerhed.
Disse kategorier blev seed-emner for falske artikler, med hver udvidet til fire forskellige versioner, ved hjælp af ovennævnte strategier, og designet til at narre eller imponere anmeldere. For at afgøre, om en artikel ville blive ‘accepteret’, så systemet kun på den endelige vurdering givet af AI-anmelderen.
De falske artikler blev skrevet i deres helhed af GPT-5. For at gennemgå dem brugte forfatterne GPT-4.1; o4-mini; og o3. Alle fik den samme anmeldelsesprompt, en fast instruktionsformat designet til at efterligne vurderingskriterierne og strukturen brugt i rigtige peer-reviews.
For at gøre disse anmeldelsesscore meningfulde, blev systemet kalibreret ved hjælp af 200 ægte indsendelser fra ICLR 2025 OpenReview-datasettet (en offentlig samling af ægte artikler, anmelderkommentarer og acceptresultater).
Fra dette blev en score-tærskel etableret for at matche ICLR’s virkelige accept-rate på 31,73%, resulterende i en cutoff-score på 7; og en anden for at reflektere scoren, ved hvilken en artikel ville have en 50% chance for, at menneskelige anmeldere accepterede den (beregnet som 6,667).
Forfatterne testede systemets pålidelighed ved at simulere anmeldelser for 5.000 falske artikler, ved hjælp af 1-3 AI-anmeldere, hver af hvilke ville returnere tilfældigt udseende score mellem 1 og 10. Resultaterne ville indikere, at selv med dette støjende setup, var systemet tilbøjelig til langt færre fejl end dens værste-teoretiske grænser ville antyde.
At bruge tre anmeldere i stedet for en førte til en betydelig reduktion i score-variabilitet, og forbedrede beslutningsstabiliteten næsten tre gange – resultater, der blev brugt til at retfærdiggøre valget af tre anmeldelsesmodeller, og en kalibrerings-sæt af 200 ægte artikler.
De to metrikker defineret til at evaluere generatoren var accept-rate, der måler, hvor ofte falske artikler fik godkendte score; og gennemsnitlig anmelderscore, der fangede den gennemsnitlige vurdering på tværs af indsendelser. Begge blev brugt til at måle, hvor godt systemet kunne narre anmeldere:

Accept (ACPT) viser andelen af falske artikler, der scorede over to tærskler: en, der matcher ICLR 2025 accept-raten, og en anden til en 50% menneskelig accept-estimation. Integrity Concern Rate (ICR-m) viser flagning-raten per anmelder-model. Den sidste kolonne giver ensemble-raten baseret på flertalsafstemning.
Falske artikler så høje accept under næsten alle strategier. Den første taktik alene gav 67% og 82% på de to tærskler, og viste, at anmeldelsesmodellerne let blev overbevist. At kombinere alle strategier reducerede accept lidt, men fordoblede detektion, med mere end halvdelen af anmeldelserne, der rejste bekymringer. Den første strategi gav den bedste afvejning: stærk accept og moderat detektion, mens andre taktikker var svagere, men sværere at detektere. ChatGPT-o3 anmeldelsesmodellen flaggede mest, og GPT-4.1 det mindste.

Score-fordelinger vises for seks angrebs-strategier, ved hjælp af tre anmeldelsesmodeller: GPT-4.1 (rød); o3 (orange); og o4-mini (blå). Hver plot viser, hvor ofte hver score fra fire til ni blev tildelt, med den røde stiplede linje, der markerer accept-tærsklen på syv.
I resultaterne for den anden test, ovenfor, ser vi score-histogrammer for tre modeller på tværs af seks opsætninger. Fordelinger varierer på tværs af opsætninger, men o4-mini tenderer til at tildele højere score i gennemsnit, o3 viser større spredning og mere ekstreme værdier, mens GPT-4.1 tildelede lavere score mere konsekvent.

Bekymring-accept-konflikt per model og strategi: procentdelen af tilfælde, hvor en model rejste en integritets-bekymring, men stadig gav en godkendt score. Højere værdier indikerer svagere kobling mellem bekymrings-detektion og endelig vurdering.
I tabellen ovenfor ser vi, at modellerne ofte gav høje score selv når de flaggede integritets-bekymringer. I denne henseende var o4-mini den mest inkonsistente, med konflikt i 100% af tilfælde under s1, s3 og den kombinerede opsætning, og 50–80% andre steder.
GPT-4.1 varierede fra 0% (s4) til 75% (s3). o3 var mere stabil, mellem 26% og 52%. Konflikt var højest under s3, især for o4-mini; og forfatterne bemærker, at detektionssignaler var dårligt koblet til endelige score.
Mitigation
To metoder blev testet, der måske kunne hjælpe fremtidige detektionsmodeller til at overliste disse nye angrebsmetoder. Den første, Review-with-Detection (ReD), tilføjede en integritetskontrol-trin til standard-anmeldelser, hvor modellerne flaggede AI-genereret indhold og citerede bevis. Dette øgede integritets-advarsler (fra 57% til 86%), men øgede også accept-rater, og indikerer, at advarslerne ikke blev reflekteret i endelige score:

Review-with-Detection (ReD) øger både integritets-bekymrings-rater (ICR) og accept-rater (ACPT) i forhold til baseline. Mens o3 bliver meget mere følsom under ReD, fejler GPT-4.1 at flagge nogen bekymringer. Den samlede stigning i accept, på trods af tilføjede integritets-advarsler, antyder svag kobling mellem detektion og scoring.
Den anden metode, Detection-Only (DetOnly), sprang fulde anmeldelser over og bad modellerne om at klassificere artikler som ægte eller fabrikerede. Detektions-nøjagtighed var generelt dårlig, tæt på tilfældigt, undtagen for små gevinster på o3:

Detektions-resultater for ReD og DetOnly, sammenlignet med en tilfældig baseline. Nøjagtigheds-gevinster over tilfældigt var minimale, men ReD var mere konservativ, mens DetOnly opnåede højere recall – men med mange falske positiver. Model o3 viste den stærkeste detektions-forvrængning; o4-mini var inkonsistent; og GPT-4.1 detekterede næsten intet.
Samlet set beviste ReD sig mere konservativ, mens DetOnly havde højere recall, men også flere falske positiver.
Artiklen slutter:
‘AI-kun publikations-løkker truekkers videnskabelig epistemologi. Hvis forfalskninger bliver umulige at skelne fra ægte arbejde, risikerer videnskabens grundlag at kollapsere.
‘Vejen frem kræver forsvar-i-dybde på tværs af multiple lag: teknisk (proveniens-verificering, artifact-validering), procedurally (integritets-bevidst scoring, menneskelig oversigt), fællesskab (post-publication anmeldelse, whistleblower-system), og kulturel (uddannelse om AI-begrænsninger, etiske retningslinjer).
‘Vi ser på dette arbejde som et tidligt advarselssystem til at katalysere robuste forsvar, før disse fejlmoder manifesterer sig i stor skala. Vores resultater demonstrerer, at nuværende systemer ikke er klar til AI-kun forskning – integriteten af videnskab afhænger af at opretholde rigorøs menneskelig evaluering, mens AI-kapaciteterne avancerer.’
Konklusion
En af de største udfordringer for detektion af AI-skrevet tekst i den nærmeste fremtid synes sandsynligvis at være den mulige eventuelle konvergens mellem standard skrivepraksis og standarderne for AI-genereret tekst (der er defineret for nuværende ved karakteristika som dominerende ord og grammatik-stilarter).
Hvis fælles sprog og AI-sprog konvergerer til en generisk standard, antyder logikken, at fremtidige detektionsmetoder baseret på ren output vil være endnu sværere at implementere.
Derudover, da LLM’er bliver mere alsidige, og deres ‘tells’ mindre fremhævede (enten gennem arkitektur/trænings-tilgange eller bedre API-niveau-filter), vil de blive bedre forfattere; derfor til en endnu større udstrækning, menneske- og AI-sprog synes dømt til at mødes i midten; til at smelte og generificere.
På dette punkt synes AI-detektion for sprog sandsynligvis at nå samme stadium, som AI-billede- og (i mindre udstrækning) AI-video-generering har nået: behovet for sekundære proveniens-systemer som Adobe-ledede Content Authenticity Initiative eller blockchain/ledger-baserede proveniens-tjek.
Først udgivet onsdag, 22. oktober 2025












