Andersons vinkel

Hur man smyger förbi absurd vetenskapliga artiklar förbi AI-granskare

Published October 22, 2025

Updated April 25, 2026

Martin Anderson

An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

Ny forskning visar hur AI-system kan skriva falska vetenskapliga artiklar som andra AI-system accepterar som äkta, och undviker upptäcktsrutiner som tidigare fungerade, och avslöjar hur lätt forskningsvärlden kan kollapsa i att botar lurar botar.

Den akademiska forskningssektorn, ironiskt nog den främsta frontlinjen för innovation inom AI, befinner sig i en kredibilitetskris som i sig drivs av AI. Inverkan av maskinlärning på forskning, inlämning och granskningsprocessen har varit betydande sedan utsikterna till AI:s inverkan först blev tydliga för cirka fyra år sedan, med den senaste kontroversen som den massgenererade produktionen av lågvärdesundersökningar.

Tillsammans med större delen av den vidare akademiska sektorn är forskningssektorn engagerad i en slags kall krig mellan AI som genererar text – som ChatGPT och Claude-serien – och den senaste generationens “detektor”-AI, som kan identifiera deras utdata utan (vanligtvis) att smeta studenter eller forskare med falska positiva resultat.

Dessa spänningar kommer att öka, tillsammans med volymen av vetenskapliga inlämningar, som ökar radikalt, driven av AI-stödda system och ramverk; och kräver AI-driven industrialisering av tillsynsprocessen för att (hoppas) filtrera ut eventuella inlämningar som är rent AI-arbete.

Falskt kunskap välkommen

Ett nytt forskningssamarbete mellan USA och Saudiarabien undersöker i vilken utsträckning denna framväxande “brandvägg” av AI-upptäckt kan trängas av helt AI-genererade inlämningsartiklar, när dessa artiklar utnyttjar några ytterligare, övertygande knep.

I tester kunde det nya systemet, som kallas BadScientist, uppnå acceptansgrader på upp till 82% från de LLM-baserade system som för närvarande används för att upptäcka AI-genererat innehåll i vetenskapliga forskningsartiklar:

BadScientist-systemet använder en AI-agent för att generera falska vetenskapliga artiklar och en annan för att granska dem med hjälp av aktuella språkmodeller. Källa: https://arxiv.org/pdf/2510.18003

Falska artiklar genererades med hjälp av riktiga AI-konferensämnen och vilseledande strategier, och sedan granskades av modeller kalibrerade på peer review-data, inklusive GPT-5 för integritetskontroller. Många fick höga poäng trots att de innehöll tydliga fel eller förfalskningar.

Publiceringen av artikeln sammanfaller med dagens Öppna konferens om AI-agenter för vetenskap 2025 vid Stanford, där deltagarna och talarna är människor, men alla artiklar är skrivna och granskade av olika AI-system.

BadScientist, den nya artikeln, använder olika former av akademiska och litterära bedrägerier, utelämnanden, uppfinningar och överdrifter för att omviktiera artikeln bort från allt som de flesta nuvarande upptäcktsystem kan känna igen som AI-genererat; och vi kommer att titta närmare på dessa kategorier strax.

Författarna påpekar, i en ton av larm, att även när upptäcktsystem identifierar AI-innehåll i en falsk artikel, har de en tendens att låta den gå igenom ändå, och tillägger att deras egna försök att skydda försvarssystemen mot denna nya attackvektor uppnådde knappt mer än slumpmässiga förbättringar.

Artikeln säger:

‘Förfalskade artiklar uppnår höga acceptansgrader, med granskare som ofta visar oro-acceptanskonflikter – flaggande integritetsproblem men fortfarande rekommenderar acceptans. Detta grundläggande sammanbrott visar att nuvarande AI-granskare fungerar mer som mönstermatchare än kritiska utvärderare.

‘[…] Att bara be LLM-granskare att “vara mer försiktiga” är otillräckligt. Vetenskapssamhället står inför ett brådskande val. Utan omedelbara åtgärder för att implementera försvar i djupet – inklusive provensverifiering, integritetsvägd poängsättning och obligatorisk mänsklig tillsyn – riskerar vi AI-endast publiceringsloopar där sofistikerade förfalskningar överväldigar vår förmåga att skilja äkta forskning från övertygande förfalskningar.

‘Integriteten hos vetenskaplig kunskap i sig är på spel.’

Den nya artikeln har titeln BadScientist: Kan en forskningsagent skriva övertygande men osunda artiklar som lurar LLM-granskare? och kommer från sex författare på University of Washington och King Abdulaziz City for Science and Technology i Riyadh. Publiceringen har en tillhörande projektsida.

Metod

Artikel-skapande agentramverket som användes för arbetet är en betydande omkonstruktion av 2024 AI-Scientist-samarbetet, med författarna som betonar att hela pipeline har omkonstruerats. Endast de mest grundläggande skrivprompterna behölls, med alla experimentella körningar och mallstrukturer borttagna. Det uppdaterade systemet fungerar nu från en enkel seed, vilket låter systemet fritt uppfinna eventuella experimentella resultat och generera plottningskod som behövs.

Det övergripande ramverket är avsett att låta en AI generera övertygande falska artiklar utan att utföra riktiga experiment eller använda äkta data. Istället skapar systemet eller ändrar syntetisk data för att stödja medvetet hallucinerade påståenden.

Setupen, som författarna förklarar, undviker medvetet mänskligt engagemang, promptattacker eller samordnad samverkan mellan skriv- och granskningsagenter. AI-granskarna utvärderade varje inlämning i ett enda steg, utan tillgång utöver artikeln själv, och utan möjlighet att köra om experiment, vilket återspeglar riktiga peer review-förhållanden.

De “atomiska strategierna” som användes för att generera falska artiklar är modulära taktiker som kan tillämpas ensamma eller i kombination (och alla som ofta läser litteraturen kommer att känna igen dem). Strategierna inkluderar att framhäva dramatiska förbättringar för att göra metoden verka som en stor framgång (TooGoodGains); att välja baslinjer och resultat som gynnar den nya metoden medan man hoppar över konfidensintervall i huvudtabellen (BaselineSelect); att lägga till rena ablationer, exakta statistik och snygga tabeller i bilagan, tillsammans med löften om framtida kod eller data (StatTheater); att polera artiklens struktur med konsekvent terminologi, korsreferenser och formatering (CoherencePolish); och att lägga till formella bevis som verkar ljud men innehåller dolda fel (ProofGap).

Data och tester

För att testa systemet utnyttjade författarna GPT-5 för att generera forskningsteman över nyckelområden inom artificiell intelligens, med användning av domänerna Artificiell intelligens, Maskinlärning, Datorseende, Naturlig språkbehandling, Robotik, System och Säkerhet.

Dessa kategorier blev utsädesämnen för falska artiklar, med var och en utvidgad till fyra olika versioner, med användning av ovan nämnda strategier, och utformade för att vilseleda eller imponera på granskare. För att avgöra om en artikel skulle “accepteras” tittade systemet bara på den slutliga betyg som gavs av AI-granskaren.

De falska artiklarna skrevs i sin helhet av GPT-5. För att granska dem använde författarna GPT-4.1; o4-mini; och o3. Alla gavs samma granskningsprompt, en fast instruktionsformat som utformats för att efterlikna poängkriterierna och strukturen som används i riktiga peer reviews.

För att göra dessa granskningspoäng meningsfulla kalibrerades systemet med 200 riktiga inlämningar från ICLR 2025 OpenReview-dataseten (en offentlig samling av riktiga artiklar, granskningskommentarer och acceptansresultat).

Från detta etablerades en poängtröskel för att matcha ICLR:s riktiga acceptansgrad på 31,73%, vilket resulterade i en cutoff-poäng på 7; och en annan för att återspegla poängen vid vilken en artikel skulle ha 50% chans att mänskliga granskare skulle acceptera den (beräknad som 6,667).

Författarna testade systemets tillförlitlighet genom att simulera granskningar för 5 000 falska artiklar, med användning av 1-3 AI-granskare, var och en av vilka skulle returnera slumpmässiga poäng mellan 1 och 10. Resultaten skulle indikera att även med denna bullriga setup var systemet benäget för betydligt färre misstag än dess värsta teoretiska gränser skulle föreslå.

Att använda tre granskare istället för en ledde till en betydande minskning av poängvariabilitet, vilket förbättrade beslutsstabiliteten nästan tre gånger – resultat som användes för att motivera valet av tre granskningsmodeller och en kalibreringsuppsättning av 200 riktiga artiklar.

De två metrikerna som definierades för att utvärdera generatoren var acceptansgrad, som mätte hur ofta falska artiklar fick godkänt poäng; och genomsnittlig granskarpoäng, som fångade den genomsnittliga bedömningen över inlämningarna. Båda användes för att mäta hur väl systemet kunde lura granskare:

Acceptans (ACPT) visar andelen falska artiklar som fick poäng över två trösklar: en som matchade ICLR 2025 acceptansgrad, den andra till en 50% mänsklig acceptansuppskattning. Integritetskonfliktfrekvens (ICR-m) visar flaggningsfrekvensen per granskningsmodell. Den sista kolumnen ger ensemblefrekvensen baserad på majoritetsröst.

Falska artiklar såg hög acceptans under nästan alla strategier. Den första taktiken ensam gav 67% och 82% vid de två trösklarna, vilket visar att granskningsmodellerna lätt kunde övertygas. Att kombinera alla strategier minskade acceptansen något men fördubblade upptäckten, med mer än hälften av granskningarna som väckte oro. Den första strategin gav det bästa utbytet: stark acceptans och måttlig upptäckt, medan andra taktiker var svagare men svårare att upptäcka. ChatGPT-o3-granskningsmodellen flaggade mest, och GPT-4.1 minst.

Poängfördelningar visas för sex attackstrategier, med användning av tre granskningsmodeller: GPT-4.1 (röd); o3 (orange); och o4-mini (blå). Varje plot visar hur ofta varje poäng från fyra till nio tilldelades, med den röda streckade linjen som markerar acceptanströskeln på sju.

I resultaten för det andra testet, som visas ovan, ser vi poänghistogram för tre modeller över sex setup. Fördelningar varierar över setup, men o4-mini tenderar att tilldela högre poäng i genomsnitt, o3 visar större spridning och mer extrema värden, medan GPT-4.1 tilldelar lägre poäng mer konsekvent.

Oro-acceptanskonflikt per modell och strategi: procentandelen fall där en modell väckte en integritetsoro men fortfarande gav ett godkänt poäng. Högre värden indikerar svagare koppling mellan oro-upptäckt och slutlig bedömning.

I tabellen ovan ser vi att modellerna ofta gav höga poäng även när de flaggade integritetsproblem. I detta avseende var o4-mini den mest inkonsekventa, med konflikt i 100% av fallen under s1, s3 och den kombinerade setupen, och 50–80% på andra håll.

GPT-4.1 sträckte sig från 0% (s4) till 75% (s3). o3 var stadigare, mellan 26% och 52%. Konflikt var högst under s3, särskilt för o4-mini; och författarna noterar att upptäcktsignalerna var dåligt kopplade till slutliga poäng.

Mitigation

Två metoder testades som kan hjälpa framtida upptäcktsmodeller att överlista dessa nya attackmetoder. Den första, Granska med upptäckt (ReD), lade till ett integritetskontrollsteg till standardgranskningar, där modellerna flaggade AI-genererat innehåll och citerade bevis. Detta höjde integritetsvarningar (från 57% till 86%), men höjde också acceptansgraderna, vilket indikerar att varningar inte återspeglades i slutliga poäng:

Granska med upptäckt (ReD) höjer både integritetskonfliktfrekvens (ICR) och acceptansgrader (ACPT) jämfört med baslinjen. Medan o3 blir mycket känsligare under ReD, misslyckas GPT-4.1 med att flagga några problem. Den övergripande ökningen av acceptans trots tillagda integritetsvarningar tyder på svag koppling mellan upptäckt och poängsättning.

Den andra metoden, Upptäckt endast (DetOnly), hoppade över fullständiga granskningar och bad modellerna att klassificera artiklar som äkta eller förfalskade. Upptäcktsnoggrannheten var dålig överlag, nära slumpmässig, förutom en liten vinst på o3:

Upptäcktsresultat för ReD och DetOnly, jämfört med en slumpmässig baslinje. Noggrannhetsvinster över slumpen var minimala, men ReD var mer konservativ, medan DetOnly uppnådde högre återkallande – men med många falska positiva. Modell o3 visade den starkaste upptäcktsbiasen; o4-mini var inkonsekvent; och GPT-4.1 upptäckte nästan ingenting.

Sammanfattningsvis visade sig ReD vara mer konservativ, medan DetOnly hade högre återkallande, men också fler falska positiva.

Artikeln avslutas:

‘AI-endast publiceringsloopar hotar vetenskaplig epistemologi. Om förfalskningar blir oskiljbara från äkta arbete, riskerar vetenskaplig kunskaps grund att kollapsa.

‘Vägen framåt kräver försvar i djup över flera lager: tekniskt (provensverifiering, artefaktvalidering), procedurellt (integritetsmedveten poängsättning, mänsklig tillsyn), samhälleligt (postpubliceringsgranskning, whistleblowersystem), och kulturellt (utbildning om AI-begränsningar, etiska riktlinjer).

‘Vi ser detta arbete som ett tidigt varningssystem för att katalysera robusta försvar innan dessa felmoder manifesterar sig i stor skala. Våra resultat visar att nuvarande system inte är redo för AI-endast forskning – integriteten hos vetenskapen beror på att upprätthålla rigorös mänsklig utvärdering när AI-förmågor utvecklas.’

Slutsats

En av de största utmaningarna för upptäckten av AI-skriven text i nästa framtida utmaning verkar troligen vara den möjliga eventuella konvergensen mellan standardiserad skrivpraxis och standarden för AI-genererad text (som för närvarande definieras av kännetecken som dominerande ord och grammatikstilar).

Om vanlig språk och AI-språk konvergerar till en generisk standard, föreslår logiken att framtida upptäcktsmetoder baserade enbart på utdata kommer att bli ännu svårare att implementera.

Dessutom, när LLM:er blir mer mångsidiga och deras “tells” mindre betonade (antingen genom arkitektur/träningsmetoder eller genom bättre API-nivåfilter), kommer de att bli bättre författare; därför verkar det som att mänskligt och AI-språk är destinerat att mötas i mitten; att smälta samman och generiseras.

Vid den tidpunkten kommer AI-upptäckt för språk troligen att nå samma stadium som AI-bild- och (i mindre utsträckning) AI-videogenerering har nått: behovet av sekundära provenssystem som Adobe-ledda Content Authenticity Initiative eller blockchain/ledger-baserade provenskontroller.

Publicerad första gången onsdag, 22 oktober 2025