Connect with us

Den ‘Survey Paper DDoS-Attack’ som Överväldigar Vetenskaplig Forskning

Andersons vinkel

Den ‘Survey Paper DDoS-Attack’ som Överväldigar Vetenskaplig Forskning

mm
An Oxbridge professor, a white middle-aged man, is shocked to see the entrance to his office clogged with an avalanche of books. ChatGPT-40; Firefly V3.

Generativa AI-modeller som ChatGPT översvämmar nu akademiska publiceringsplattformar med AI-genererade survey-papper i en omfattning som gör signal-till-brus-förhållandet kritiskt. En ny studie hävdar att denna översvämning överväldigar forskare, förvränger citeringar och urholkar förtroendet för den vetenskapliga rapporten, liknande floden av AI-assisterade papper vid en “DDoS-attack” mot vetenskapen i sig.

 

(Delvis) åsikt  Förra veckan, för första gången på sju år av att hålla mig uppdaterad med den vetenskapliga litteraturen relaterad till AI, var jag tvungen att erkänna nederlag och medge att, åtminstone under toppmöten, jag nu måste välja mellan att hålla mig uppdaterad med viktiga nya publikationer eller ha någon tid kvar att skriva om några av dem.

Det totala antalet inlägg i ett mycket begränsat antal relevanta kategorier (Datorseende, Maskinlärning, Språkmodeller, och några färre prenumererade avsnitt) låg på väsentligt över tusen – för bara en dags inlämningsförsök.

Vid en sådan volym skulle även att bläddra igenom alla nya titlar och ibland njuta av några av sammanfattningarna ha gjort för en improduktiv dag.

Detta var tisdagen den 7 oktober. I jämförelse erbjöd Maskinlärningskategorin förra tisdagen (14 oktober) en publiceringsvolym som var något mindre intensiv än de 400-odds inlämningsförsöken för tisdagen föregående vecka; den hade 354 inlämningsförsök:

354 inlämningsförsök för Maskinlärningskategorin på en dag. Källa: https://arxiv.org/

354 inlämningsförsök för Maskinlärningskategorin på en dag. Källa: https://arxiv.org/

Man måste ha läst Arxiv varje dag i flera år för att inse hur galna dessa siffror blir.

Medgivande, tisdag är Arxivs “rusningstid” för inlämningsförsök, kanske för att det är den första arbetsdagen som inträffar bort från långa helger som inflytelserika personer som forskare hoppas nå; och Maskinlärningskategorin är en “catch-all”-sektion med ett lägre antal unika papper (papper som inte publiceras samtidigt i mer specialiserade kanaler) än de flesta andra kategorierna.

Ändå är ökningen av pappersinlämningsförsök redan ett noterat fenomen inom akademin och i media.

Kanske är det mest chockerande aspekten av denna eskalation hur alla andra angränsande kategorier är mer eller mindre oförändrade i sin frekvens under de senaste tre åren, medan datavetenskapskategorin (se om du kan hitta den i Arxivs officiella siffror nedan) är på en allvarlig uppåtgående bana:

Ökningen av datavetenskapsartiklar under de senaste tre åren. Källa: https://info.arxiv.org/about/reports/submission_category_by_year.html

Ökningen av datavetenskapsartiklar under de senaste tre åren. Källa: https://info.arxiv.org/about/reports/submission_category_by_year.html

För drygt tre år sedan var Arxivs AI-pappersinlämningsutgång uppskattad till att fördubblas vartannat år; och det kommer att vara intressant att läsa Arxivs egen årliga sammanfattning av trender i slutet av 2025.

Volym på 11

De två mest uppenbara anledningarna till att detta händer är a) ohistoriskt finansiellt engagemang för generativ AI lockar massiva forskningsinvesteringar i den privata och akademiska sektorn, som ofta samarbetar; och b) det faktum att AI-språkmodeller som ChatGPT nu gör det möjligt att lämna in forskningspapper (inklusive papper om AI) som en nästan industrialiserad process.

Men forskningsinlämningskvaliteten ökar inte i takt med volymen (även om AI:s felbenägna utdata tenderar att skapa fler rubriker i den juridiska sektorn än den akademiska, inte minst för att konsekvenserna är mer uppenbara där).

En nolltoleranspolicy är svår att genomföra i det här fallet, även om att känna igen AI-genererat innehåll vore lättare; förutom det faktum att AI i sig är en manifest fördel för vetenskaplig forskning i allmänhet, har dess användning i forskningsinlämningsförsök generellt* förbättrat tydligheten i arbetet från många icke-engelska inlämnare – individer och team som har tills nu fungerat på en nackdel.

Men problemet med att sänka språkbarriären på detta sätt är att det också höjer det rena antalet globala inlämnare, utan att höja den mänskliga tillsynen som ger värde åt ett sådant arbete.

Om inlämningsnivåerna fortsätter att stiga exponentiellt kommer signal-till-brus-förhållandet att bli så ohållbart att endast AI själv skulle kunna navigera de nya floderna och biflödena av AI-papper; en uppgift som det inte är mer lämpat för att utföra än att korrekturläsa sin egen utdata. Ironiskt nog är vetenskaplig forskning en intensivt mänsklig strävan.

En attack mot forskning

Orsaken till denna reflektion är en intressant ny samarbetsinsats från Kina med titeln Stop DDoS Attacking the Research Community with AI-Generated Survey Papers.

Den nya positionspapperet fokuserar specifikt på survey-inlämningsförsök – höginsatsiga sammanfattningar av specifika strängar i forskning, som traditionellt både har listat och kontextualiserat, tolkat trender och gjort informerade förutsägelser:

En bråkdel av den väldiga och ständigt växande mängden av undersökningar som finns tillgängliga i avsnitt relaterade till maskinlärning och AI, på arxiv.org

En bråkdel av den väldiga och ständigt växande mängden av undersökningar som finns tillgängliga i avsnitt relaterade till maskinlärning och AI, på arxiv.org

Eftersom undersökningar kuraterar snarare än skapar är de ovanligt lätta att automatisera med AI, och författarna till det nya arbetet karakteriserar spridningen av låginsatsiga undersökningar i termer av en säkerhetshot mot forskningssektorn:

‘[Den] nyliga ökningen av AI-genererade undersökningar, särskilt möjliggjorda av stora språkmodeller (LLM), har förvandlat denna traditionellt arbetsintensiva genre till en låginsats, högvolymproduktion. Medan en sådan automatisering sänker inträdesbarriärerna introducerar den också ett kritiskt hot: fenomenet som vi kallar “survey paper DDoS-attack” mot forskarsamhället.

‘Detta avser den oreglerade spridningen av ytligt omfattande men ofta redundant, lågkvalitativ eller till och med hallucinerad undersökningsmanus, som översvämmar preprint-plattformar, överväldigar forskare och urholkar förtroendet för den vetenskapliga rapporten.

‘[Vi] hävdar att vi måste stoppa upp laddningen av massiva mängder AI-genererade survey-papper (dvs. survey paper DDoS-attack) till forskarsamhället, genom att införa starka normer för AI-assisterad överskrivning.’

Författarna hävdar att denna obehindrade acceleration av undersökningsproduktion hotar att svämma över forskningsekosystemet med polerade rapporter som saknar kritisk djup, och som sannolikt kommer att sprida faktamässiga fel och/eller hallucinerade citeringar.

Papperet varnar för att utan bättre regler eller tillsyn kan AI-genererade undersökningar förvandlas till ytliga kopior som missrepresenterar vilka ämnen som är viktiga, döljer meningsfull analys och gör litteraturöversikter mindre tillförlitliga:

‘Konsekvenserna för forskningskvalitet och förtroende är djupgående. Först riskerar äkta framsteg att döljas av algoritmiskt genererade omformuleringar av befintligt arbete.

‘Nykomlingar och tvärvetenskapliga forskare kan ha svårt att hitta tillförlitliga översikter mitt i bruset. Dessutom kan fel eller bias som introduceras av automatiserad utformning spridas obehindrat, och sålla följande forskning med felaktiga antaganden.

‘Sammanfattningsvis hotar floden av icke-granskade AI-genererade undersökningar både rigor i litteraturöversikter och trovärdigheten i den vetenskapliga rapporten.’

‘Abnorma’ författare

Forskarna bakom det nya papperet tillhandahåller några intressanta analyser av utvecklingen av undersökningsinlämningsförsök:

Vänster: det årliga antalet datavetenskapsundersökningar från 2020 till 2024. Mitten: genomsnittliga AI-genereringsscore för dessa papper under samma period. Höger: antalet författare som flaggats som abnorma (de med ovanligt hög undersökningsutgång, begränsad samförfattardiversitet och återkommande institutionella mönster) varje år. Alla tre trender visar en skarp ökning från och med 2023, samtidigt som ChatGPT och andra storskaliga språkmodeller släpptes.

Vänster: det årliga antalet datavetenskapsundersökningar från 2020 till 2024. Mitten: genomsnittliga AI-genereringsscore för dessa papper under samma period. Höger: antalet författare som flaggats som abnorma (de med ovanligt hög undersökningsutgång, begränsad samförfattardiversitet och återkommande institutionella mönster) varje år. Alla tre trender visar en skarp ökning från och med 2023, samtidigt som ChatGPT och andra storskaliga språkmodeller släpptes.

I den första kolumnen ser vi tillväxttrender: kurvan börjar bli brant runt 2022, just när ChatGPT dök upp och storskaliga språkmodeller började bli mainstream, och uppföljningsmodeller som Claude, PaLM och Gemini skulle hålla den momentum som fortsatte under 2023.

Mitten grafen visar en brant ökning av inlämningsförsök efter 2022, samtidigt som ChatGPT lanserades. Ett forskningsteam fann att 2024 hade mer än 10% av de vetenskapliga sammanfattningarna körts genom en LLM. En separat rapport från en AI-upptäcktsfirma satte ChatGPT-ökningen till 72% för papper på arXiv som kan ha skrivits med AI-hjälp. Antalet papper med höga AI-genereringsscore fördubblades på ett år, från 3,6% till 6,2%.

Den tredje, högersta grafen visar en stadig ökning av “abnorma” författarmönster (forskare som lämnar in tre eller fler undersökningar inom en månad medan de arbetar med färre än två samarbetspartner), med en skarpare ökning från och med 2022.

Författarna hävdar att många av dessa undersökningar kan ha skrivits av AI, av olika skäl; vissa är skrivna av ensamförfattare eller små grupper som lämnar in flera undersökningar på kort tid; många täcker orelaterade ämnen; och i vissa fall har författarna ingen tidigare erfarenhet inom de områden de sammanfattar.

Dessutom är vissa publicerade under anonyma kollektiv med inga tydliga institutionella kopplingar – mönster som tyder på en koordinerad översvämning av fältet med snabba undersökningar, möjligen för att vinna citeringar eller förbättra akademiska profiler, snarare än att bidra till litteraturen.

Problem

Även om vi inte kan täcka allt innehåll i det nya papperet, bör vi ta en titt på några av de mest anmärkningsvärda observationerna, samt kasta en kritisk blick över författarnas föreslagna lösningar på dessa problem.

Kvalitet och originalitet

Problemet är inte bara volym: många AI-skrivna undersökningar hoppar över vad som gör en bra undersökning användbar: tydlig struktur, djup analys, korrekt och omsorgsfull kredit, och riktigt insikt. Istället föreslår papperet att AI-genererade/assisterade undersökningar ofta läser som ihopsatta sammanfattningar, utan den omsorg eller kurering som krävs.

Författarna observerar vidare att AI-skrivna undersökningar ofta saknar struktur, men snarare bara listar papper utan tydlig riktning, hoppar över viktiga avsnitt och misslyckas med att skapa kontext. Mänskligt skrivna undersökningar tenderar däremot att etablera ordentliga kategorier och berätta en mer sammanhängande historia.

Dessutom verkar många potentiellt AI-assisterade undersökningar enbart kopiera befintliga ämnesuppdelningar, ibland direkt från Wikipedia. Till exempel noterar papperet att flera undersökningar om Vision Transformers innehåller gemensamma avsnittstitlar och struktur, vilket avslöjar mallbaserad AI-utdata:

‘I kontrast kan en välkonstruerad mänskligt skriven undersökning introducera en ny taxonomi, t.ex. kategorisera ViT efter effektivitetsstrategier. Avsaknaden av sådan originalstruktur i många nyliga undersökningar väcker farhågor om att de kan ha genererats av AI med begränsad mänsklig insikt.’

Citaten stämmer inte

Kanske det mest offentligt pinsamma är att AI-skrivna undersökningar ofta får citeringar fel, saknar viktiga papper, inklusive icke-relevanta papper och ibland till och med listar icke-existerande papper – fel som tyder på att referenserna härrör från ytlig mönsterigenkänning, snarare än sann expertis.

Författarna påpekar också att vissa nyliga undersökningar, ofta från helt olika team, delar så mycket som 70% av sina referenslistor – en sådan hög nivå av överlappning att den, enligt författarna, tyder på en gemensam tillit till LLM, som drar från samma smala källmaterial.

Verkligen, casuala användare av ChatGPT vet att ju mer obskyrt ämnet är, desto färre diverse källor finns det för modellen att ha generaliserat; mycket ofta är det mer användbart att hitta modellens egna begränsade källor på webben än att interagera med den informationen via en AI som inte hade tillräckligt med data inom ett visst område.

En ‘homogen stil’ uppstår

Författarna noterar också att många AI-skrivna undersökningar på samma ämne ser och låter nästan identiska, eftersom LLM återanvänder frasering och struktur, särskilt för populära ämnen, vilket resulterar i en ström av nästan identiska papper som bidrar med lite värde och också tillför betydande brus till forskare som söker efter svar inom området*:

‘När flera författare ber en LLM att “skriva en litteraturöversikt om X” producerar modellen ofta mycket lika svar, särskilt för vanliga definitioner eller välkända fakta. Nylig forskning har visat en skarp ökning av vissa skrivmönster kopplade till LLM, vilket tyder på att många papper nu delar samma stil.’

Din ChatGPT syns

Papperet observerar att ett snabbt sätt att upptäcka AI-skrivna undersökningar är genom närvaron av fraser som ‘som en AI-språkmodell’ eller ‘min kunskapsgräns’, vilket tyder på minimal eller till och med noll kurering av utdata från språkmodellerna innan papperen lämnas in (även om en riktad sökning vid skrivningstidpunkt inte avslöjade några sådana ledtråd som är indexerade i Google Sök).

Papperet noterar att många “misstänkta” undersökningar visar lägre orddiversitet och upprepad frasering, till exempel genom att börja flera stycken med dessutom. Denna typ av mönster, föreslår författarna, är typiskt för GPT-liknande skrivande, och kunde vara en användbar flagga för att upptäcka auto-genererat text.

(Min personliga kommentar till detta är att restriktionerna för online-journalistik ofta kräver att en författare listar många punkter i en prosa-baserad, ostrukturerad form. Därför är ChatGPT och dess likar sannolikt lärt sig denna dåliga vana från mänskliga författare som stod inför ett begränsat antal lexikala alternativ. Dessutom visar författarnas gissning att de sysslar med principerna för AI-innehålls-upptäckt, som är ett komplext och utvecklande område, med få bestående konstanter av den typ som författarna föreslår)

Även om forskarna fortsätter att utveckla en fascinerande diskurs om de negativa effekterna av AI-undersökningar på forskningskultur och förtroende, måste vi hänvisa läsaren till källpapperet för djupare insikt i detta.

Lösningar?

Papperets lösning är fascinerande, radikal och samtidigt underligt ooriginal: att nyttan av undersökningar bör ersättas av en Dynamisk Livsundersökning – genom tolkning, en sorts hybrid mellan en Wiki och en GitHub-sida, konstant matad med ny data från LLM och andra AI-system, men med incheckningar som endast görs av människor, så att AI inte kan “auto-publicera” uppdateringar.

Det föreslagna systemet skulle dela versionering och grenar med GitHub, i princip förvandla en informationsresurs till en konstant uppdaterad lista liknande ‘awesome’-strängen av kuraterade listor på GitHub:

‘Under detta ramverk etablerar en samhällsmedlem först en undersökningsämneswiki genom att specificera omfattning, nyckelforskningsfrågor och seminala referenser, vilket därmed sätter en tydlig tematisk gräns och initial struktur.

‘Därefter övervakar en LLM-baserad inkörselagent kontinuerligt preprint-arkiv, konferensrapporter och benchmark-ledare. Den extraherar automatiskt sammanfattningar, figurer och nyckelprestandamått; syntetiserar koncisa sammanfattningar av nya resultat; uppdaterar citeringsgrafen för att reflektera inter-pappersrelationer; och flaggar framväxande forskningstrender för ytterligare granskning.

‘Genom design sker dessa automatiserade uppdateringar inom timmar efter publicering, vilket säkerställer att lagret förblir i framkant.’

‘Mänskliga bidragsgivare går sedan in för att tillföra den tolkande djupet som maskiner ensamma inte kan erbjuda. De finslipar utvecklande taxonomier för att fånga subtila metodologiska distinktioner, koordinerar motsägelsefulla tolkningar av algoritmiska innovationer över olika underfält och tillhandahåller djupare kritiska jämförelser till dokumentet.’

Förändringarnas bok

Författarna utvecklar entusiastiskt och i detalj detta förslag, och rättfärdigar det i princip med något som är mycket sant: höginsatsiga mänskligt skrivna undersökningar om flyktiga ämnen runt AI åldras så snabbt att de knappt är värda att skriva; och papperet noterar att en tre månaders omloppstid för en ny undersökning troligen innebär att den kommer att vara föråldrad (eller till och med allvarligt föråldrad) vid tidpunkten för dess planerade publiceringsdag:

‘År efter år översvämmas samhällen av upprepade eller ytliga översikter som snabbt förlorar relevans, vilket gör det svårt för praktiker och nykomlingar att skilja signal från brus. Den traditionella publiceringscykeln (dvs. utkast, skicka in, granska och publicera) kan sträcka sig över flera månader, vilket innebär att kritiska genombrott redan kan ha förändrat landskapet.

‘Dessutom bidrar den ökande volymen av statiska undersökningar till kognitiv överbelastning, eftersom läsare måste gå igenom många överlappande dokument för att hitta substantiella insikter.’

Tyvärr delar papperets lösning många av de sämsta och mest föraktade egenskaperna hos Discord: mest specifikt att den skulle vara en konstant föränderlig och föränderlig resurs.

Eftersom valfri del av en Dynamisk Livsundersökning kan försvinna eller ändras när som helst, skulle den vara omöjlig att använda som en citerbar, stabil källa; förutom möjligen genom att länka till en “tidigare commit”, på samma sätt som archive.is och Wayback Machine, bland andra arkivsitessidor, tillhandahåller länkbara ögonblicksbilder av webbinnehåll, frysta vid en viss tidpunkt. Men vilka resurser skulle en sådan commit behöva, och kunde den lita på att förbli aktiv över tid?

Dessutom skulle en plattform/Wiki med konstant föränderliga definitioner och innehåll vara utmanande att indexera, antingen av traditionella sökmotorer eller LLM.

Kanske den svagaste delen av det föreslagna systemet är idén att verkliga människor bör övervaka incheckningarna från LLM-agenter; som alltid är verkliga människor dyra. Vad som föreslås är något mellan ett museum och ett bibliotek – båda kommer att behöva “kött- och blod”-resurser proportionella till datavolymen och antalet ämnen som täcks.

Om ‘använd verkliga människor‘ är det enda svaret på ett AI-utvecklingsproblem, är det rättvist att säga att problemet förblir öppet och olöst.

Slutsats

För tillfället är den korta livslängden för undersökningar om AI irriterande; om den nuvarande trenden mot högskalig automatiserad skrivning och inlämning fortsätter, som avses i det nya papperet, kommer signal-till-brus-förhållandet att bli kroniskt, och litteraturen kommer att bli ohållbar.

I en sådan situation skulle det bli ännu svårare för mindre, sub-FAANG-röster att höras i stormen av inlämningsförsök, och stora marknadsledare skulle troligen vinna ännu större framträdande.

Förutom livsundersökningar föreslår det nya papperet att författare inte bara bör begränsas till att deklarera när AI används i någon del av en inlämning, utan också att AI-assisterade avsnitt bör märkas tydligt inom en pappersram (kanske med en sido-JSON-fil…?).

Eftersom detta är ett betungande perspektiv föreslår papperet alternativt vad jag bara kan karakterisera som en “AI-getto” – en särskild sektion i inlämningen som är avsatt för AI-bidrag.

Sammanfattningsvis har det nya arbetet, i min åsikt, inga realistiska svar att erbjuda; men författarna har utfört en användbar tjänst genom att ramla in utmaningarna som ligger framför.

 

Papperet Stop DDoS Attacking the Research Community with AI-Generated Survey Papers kan hittas på https://arxiv.org/abs/2510.09686, och är skrivet av sex författare över avdelningar på Shanghai Jiao Tong University.

___________________________________

* Inte alla anser att detta är fallet.

Författarnas betoning, inte min. Dessutom, där tillämpligt, min konvertering av författarnas inline-citationer till hyperlänkar.

Publicerad första gången fredagen den 17 oktober 2025

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.