Andersons hoek

De ‘Survey Paper DDoS-aanval’ die het wetenschappelijk onderzoek overweldigt

Published October 17, 2025

Updated May 17, 2026

Martin Anderson

An Oxbridge professor, a white middle-aged man, is shocked to see the entrance to his office clogged with an avalanche of books. ChatGPT-40; Firefly V3.

Generatieve AI-modellen zoals ChatGPT overspoelen nu academische publicatieplatforms met AI-gegenereerde survey-papers in een volume dat het signaal-ruisverhouding kritiek maakt. Een nieuwe studie beweert dat deze overstroming onderzoekers overweldigt, citaties vertekent en het vertrouwen in het wetenschappelijk record ondermijnt, en vergelijkt de overvloed aan AI-gegenereerde papers met een ‘DDoS-aanval’ op de wetenschap zelf.

(Gedeeltelijk) mening Laatst week, voor het eerst in zeven jaar dat ik me op de hoogte houd van de wetenschappelijke literatuur over AI, moest ik toegeven dat ik, althans op piekmomenten, moet kiezen tussen bijhouden van essentiële nieuwe publicaties of tijd hebben om erover te schrijven.

Het totale aantal ingangen in een zeer beperkt aantal relevante categorieën (Computer Vision, Machine Learning, Language Models, en een paar andere minder populaire secties) lag boven de duizend – voor slechts één dag’s inzendingen.

Bij een dergelijk volume zou zelfs het scannen van alle nieuwe titels en af en toe het lezen van sommige abstracte samenvattingen een onproductieve dag opleveren.

Dit was dinsdag 7 oktober. In tegenstelling tot de Machine Learning-categorie, bood deze dinsdag (14 oktober) een publicatievolume dat iets minder intens was dan de 400 inzendingen van dinsdag van de vorige week; het had een 354 inzendingen:

354 inzendingen voor de Machine Learning-categorie in één dag. Bron: https://arxiv.org/

Je zou elke dag Arxiv moeten lezen, voor een aantal jaar, om te beseffen hoe absurd deze aantallen worden.

Toegegeven, dinsdag is Arxiv’s ‘spitsuur’ voor inzendingen, misschien omdat het de eerste werkdag is die ver van lange weekends plaatsvindt die invloedrijke mensen die onderzoekers hopen te bereiken; en de Machine Learning-categorie is een ‘vangnet’-sectie met een lager aantal unieke papers (papers die niet tegelijkertijd in meer gespecialiseerde kanalen worden gepubliceerd) dan de meeste andere categorieën.

Nonetheless, de stijging van het aantal inzendingen is al een opgemerkte fenomeen in de academische wereld en in de media.

Misschien het meest verontrustende aspect van deze escalatie is hoe alle andere aangrenzende categorieën ongeveer onveranderd zijn in hun frequentie in de afgelopen drie jaar, terwijl de Computer Science-categorie (zie of u deze kunt vinden in Arxiv’s officiële cijfers hieronder) op een ernstige opwaartse traject zit:

De stijging van computer science (CS) papers in de afgelopen drie jaar. Bron: https://info.arxiv.org/about/reports/submission_category_by_year.html

Ruim drie jaar geleden werd Arxiv’s AI-paperinzendingsoutput geschat als verdubbelend om de paar jaar; en het zal interessant zijn om Arxiv’s eigen jaarlijkse samenvatting van trends te lezen aan het einde van 2025.

Volume op 11

De twee meest voor de hand liggende redenen waarom dit gebeurt, zijn a) ongekende financiële inzet voor generatieve AI, die een enorme hoeveelheid onderzoeksinvesteringen in de private en academische sectoren aantrekt, die vaak samenwerken; en b) het feit dat AI-taalmodellen zoals ChatGPT het indienen van onderzoeksartikelen (inclusief artikelen over AI) nu een bijna geïndustrialiseerd proces maken.

Hoewel de kwaliteit van de onderzoeksinzendingen niet toeneemt in tandem met het volume (hoewel de foutgevoelige output van AI meer aandacht trekt in de juridische sector dan in de academische, niet in de laatste plaats omdat de gevolgen daar meer voor de hand liggen),

Een zero-tolerancebeleid is moeilijk te implementeren in dit geval, zelfs als het herkennen van AI-gegenereerde inhoud gemakkelijker was; naast het feit dat AI op zichzelf een manifeste zegen is voor wetenschappelijk onderzoek in het algemeen, heeft het gebruik van AI in onderzoeksartikelen over het algemeen* de duidelijkheid van het werk van veel niet-Engelstalige indieners – individuen en teams die tot nu toe op een nadeel hebben gewerkt – verbeterd.

Maar het probleem van het verlagen van de taalbarrière op deze manier is dat dit ook het aantal wereldwijde indieners verhoogt, zonder de menselijke toezicht te verhogen dat waarde geeft aan dit soort werk.

Als het aantal inzendingen blijft stijgen, zal de signaal-ruisverhouding zo onbeheersbaar worden dat alleen AI zelf deze nieuwe overstromingen en rivieren van AI-papers zou kunnen navigeren; een taak waarvoor het niet meer geschikt is dan het controleren van zijn eigen output. Ironicamente is wetenschappelijk onderzoek een intens menselijke onderneming.

Een aanval op onderzoek

De oorzaak van deze reflectie is een interessante nieuwe samenwerking uit China met de titel Stop DDoS-aanval op de onderzoekscommunity met AI-gegenereerde survey-papers.

De nieuwe positiepaper richt zich specifiek op survey-inzendingen – moeilijke overzichten van bepaalde onderzoeksgebieden, die traditioneel zowel zijn gelijst als gecontextualiseerd, trends hebben geïnterpreteerd en geïnformeerde voorspellingen hebben gedaan:

Een klein deel van de enorme en steeds groeiende hoeveelheid surveys beschikbaar in secties gerelateerd aan machine learning en AI, op arxiv.org

Aangezien surveys cureren in plaats van oorspronkelijk zijn, zijn ze ongewoon gemakkelijk te automatiseren met AI, en de auteurs van het nieuwe werk karakteriseren de proliferatie van laag-inspannings-surveys in termen van een beveiligingsbedreiging voor de onderzoekssector^†:

‘[De] recente toename van AI-gegenereerde surveys, met name mogelijk gemaakt door grote taalmodellen (LLM’s), heeft dit traditioneel arbeidsintensieve genre omgevormd tot een laag-inspannings-, hoog-volume-output. Hoewel zo’n automatisering de toegangsdrempel verlaagt, introduceert het ook een kritieke bedreiging: het fenomeen dat wij de “survey paper DDoS-aanval” noemen op de onderzoekscommunity.

‘Dit verwijst naar de ongecontroleerde proliferatie van oppervlakkig volledige maar vaak redundante, lage kwaliteit of zelfs hallucinatie survey-manuscripten, die preprint-platforms overspoelt, onderzoekers overweldigt en het vertrouwen in het wetenschappelijk record ondermijnt.

‘[We] betogen dat we moeten stoppen met het uploaden van grote hoeveelheden AI-gegenereerde survey-papers (d.w.z. survey paper DDoS-aanval) naar de onderzoekscommunity, door sterke normen voor AI-ondersteund schrijven in te voeren.’

De auteurs beweren dat deze ongehinderde versnelling van survey-productie de onderzoeks-ecosysteem dreigt te overspoelen met gepolijste rapporten die desondanks een kritieke diepgang missen, en die waarschijnlijk feitelijke fouten en/of hallucinaties zullen verspreiden.

Het papier waarschuwt dat zonder betere regels of toezicht, AI-gegenereerde surveys kunnen veranderen in oppervlakkige kopieën die misleidende onderwerpen vertegenwoordigen, belangrijke analyses verhullen en literatuuroverzichten minder betrouwbaar maken:

‘De implicaties voor onderzoeks-kwaliteit en vertrouwen zijn diepgaand. Eerst riskeren echte vooruitgang te worden verduisterd door algoritmisch gegenereerde herschrijvingen van bestaand werk.

‘Nieuwkomers en interdisciplinaire onderzoekers kunnen moeite hebben om betrouwbare overzichten te vinden tussen de ruis. Bovendien kunnen fouten of vooroordelen die worden geïntroduceerd door geautomatiseerde opmaak ongecontroleerd worden verspreid, waardoor vervolgonderzoek wordt gezaaid met ondeugdelijke aannamen.

‘Samengevat, de overstroming van niet-gepubliceerde AI-gegenereerde surveys vormt een gevaar voor zowel de strengheid van literatuuroverzichten als de geloofwaardigheid van het wetenschappelijk record.’

‘Abnormale’ auteurs

De onderzoekers van het nieuwe papier bieden enkele interessante analyses over de evolutie van survey-inzendingen:

Links: het jaarlijkse aantal computer science survey-papers van 2020 tot 2024. Midden: gemiddelde AI-generatie-scores voor die papers in dezelfde periode. Rechts: aantal auteurs die als abnormaal zijn gemarkeerd (die met ongewoon hoge survey-output, beperkte co-auteursdiversiteit en terugkerende institutionele patronen) elk jaar. Alle drie trends laten een scherpe stijging zien vanaf 2023, samenvallend met de release van ChatGPT en andere grote taalmodellen.

In de eerste kolom zien we groeitrends: de curve begint te stijgen rond 2022, net toen ChatGPT opkwam en grote taalmodellen mainstream werden, en follow-up-modellen zoals Claude, PaLM, en Gemini zouden die impuls blijven geven in 2023.

De middelste grafiek toont een steile stijging van inzendingen na 2022, samenvallend met de lancering van ChatGPT. Een onderzoeksteam vond dat in 2024 meer dan 10% van de wetenschappelijke abstracts door een LLM waren gegenereerd. Een afzonderlijk rapport van een AI-detectiebedrijf plaatste de sprong na ChatGPT op 72% voor papers op arXiv die mogelijk met AI-hulp waren geschreven. Het aantal papers met hoge AI-generatie-scores verdubbelde in een jaar, van 3,6% naar 6,2%.

De derde, rechtsste grafiek toont een gestage stijging van het aantal ‘abnormale’ auteurpatronen (onderzoekers die drie of meer surveys binnen een maand indienen terwijl ze met minder dan twee medewerkers samenwerken), met een scherpere stijging vanaf 2022.

De auteurs beweren dat veel van deze survey-papers mogelijk door AI zijn geschreven, om diverse redenen; sommige zijn geschreven door solo-auteurs of kleine groepen die meerdere surveys in korte tijd indienen; veel behandelen ongerelateerde onderwerpen; en in sommige gevallen hebben de auteurs geen eerdere ervaring in de gebieden die ze samenvatten.

Bovendien zijn sommige onder een anonieme collectief gepubliceerd met geen duidelijke institutionele banden – patronen die een gecoördineerde overstroming van het veld met snelle surveys suggereren, mogelijk om citaties te verkrijgen of academische profielen te verbeteren, in plaats van een echte bijdrage aan de literatuur te leveren.

Problemen

Hoewel we niet alle contentions van het nieuwe papier kunnen behandelen, zouden we enkele van de meest opvallende observaties moeten bekijken, evenals een kritische blik op de auteurs’ voorgestelde oplossingen voor deze problemen.

Kwaliteit en originaliteit

Het probleem is niet alleen het volume: veel AI-gegenereerde surveys missen wat een goede survey nuttig maakt: duidelijke structuur, diepe analyse, correcte en zorgvuldige credits, en echte inzichten. In plaats daarvan suggereren de auteurs dat AI-gegenereerde/ondersteunde surveys vaak als samengestelde samenvattingen lezen, zonder de vereiste zorg of curatie.

De auteurs merken verder op dat AI-gegenereerde surveys vaak geen structuur missen, maar simpelweg papers lijsten zonder duidelijke richting, belangrijke secties overslaan en geen context creëren. Door mensen geschreven surveys daarentegen hebben de neiging om een juiste categorie te vestigen en een meer samenhangend verhaal te vertellen.

Ook lijken veel potentieel AI-ondersteunde surveys simpelweg bestaande onderwerpbreakdowns te kopiëren, soms rechtstreeks van Wikipedia. Zo merkt het papier op dat meerdere surveys over Vision Transformers gemeenschappelijke sectietitels en structuur bevatten, wat template-georiënteerde AI-output verraadt:

‘In tegenstelling tot een goed geschreven door mensen geschreven survey, zou een menselijke auteur een nieuwe taxonomie kunnen introduceren, bijvoorbeeld door ViT te categoriseren op efficiency-strategieën. Het gebrek aan dergelijke originele structuur in veel recente survey-preprints wekt bezorgdheid dat ze mogelijk door AI zijn gegenereerd met beperkte menselijke inzichten.’

Citeer me niet

Misschien wel het meest publiekelijk beschamend, AI-gegenereerde surveys krijgen citaties verkeerd, missen belangrijke papers, inclusief niet-relevante papers, en soms zelfs non-bestaande papers – fouten die suggereren dat de referenties afkomstig zijn van oppervlakkige patroonherkenning, in plaats van echte expertise.

De auteurs wijzen er ook op dat sommige recente survey-papers, vaak van geheel andere teams, tot 70% van hun referentielijsten delen – een niveau van overlap zo hoog dat het, naar hun mening, op een gedeelde afhankelijkheid van LLM’s wijst, die putten uit hetzelfde smalle pool van bronmateriaal.

Inderdaad, casual gebruikers van ChatGPT weten dat hoe obscuurder het onderwerp, hoe minder diverse bronnen er zijn voor het model om te generaliseren; heel vaak is het vinden van de eigen beperkte bronnen van het model op internet nuttiger dan het proberen om via een AI te interacteren met die informatie, die niet voldoende gegevens had in een bepaald domein.

Een ‘homogene stijl’ ontstaat

De auteurs merken ook op dat veel AI-gegenereerde surveys over hetzelfde onderwerp er bijna identiek uitzien en klinken, omdat LLM’s zinnen en structuur hergebruiken, vooral voor populaire onderwerpen, waardoor een overvloed aan bijna identieke papers ontstaat die weinig waarde toevoegen en significante ruis toevoegen aan onderzoekers die domein-antwoorden zoeken*:

‘Wanneer meerdere auteurs een LLM vragen om “een literatuuroverzicht over X” te schrijven, produceert het model vaak zeer vergelijkbare antwoorden, vooral voor gemeenschappelijke definities of bekende feiten. Recent onderzoek heeft een scherpe toename van het gebruik van bepaalde schrijfpatronen in verband met LLM’s aangetoond, wat suggereert dat veel papers nu dezelfde stijl delen.’

Je ChatGPT is zichtbaar

Het papier merkt op dat een snelle manier om AI-gegenereerde surveys te herkennen is door de aanwezigheid van zinnen zoals ‘als een AI-taalmodel’ of ‘mijn kennislimiet’, wat suggereert dat er minimale of zelfs geen curatie van de output van de taalmodellen is voordat de papers worden ingediend (hoewel een gerichte zoekopdracht op het moment van schrijven geen dergelijke aanwijzingen onthulde die zijn geïndexeerd in Google Search).

Het papier merkt op dat veel ‘verdachte’ surveys een lagere woorddiversiteit en herhaalde zinnen vertonen, bijvoorbeeld door meerdere alinea’s te beginnen met Verder. Dit soort patroon, naar de mening van de auteurs, is typerend voor GPT-achtig schrijven en kan een nuttige vlag zijn voor het detecteren van automatisch gegenereerde tekst.

(Mijn persoonlijke commentaar hierop is dat de beperkingen van online-journalistiek vaak een schrijver dwingen om veel items in een prozaïsche, niet-geformatteerde vorm te noemen. Daarom zijn ChatGPT en zijn peers waarschijnlijk dit slechte gewoonte geleerd van menselijke schrijvers die werden geconfronteerd met een beperkt aantal lexicale alternatieven. Bovendien toont de auteurs’ veronderstelling aan dat ze zich bezighouden met de beginselen van AI-inhoudsdetectie, wat een complex en evoluerend veld is, met weinig duurzame constanten van het soort dat de auteurs suggereren)

Hoewel de onderzoekers verdergaan met een fascinerende verhandeling over de negatieve invloed van AI-surveys op onderzoeks-cultuur en vertrouwen, moeten we de lezer verwijzen naar het bron-papier voor meer diepgang over dit onderwerp.

Oplossingen?

Het papier biedt een fascinerende, radicale en tegelijkertijd vreemd onoriginale oplossing: dat de nuttigheid van survey-papers zou moeten worden vervangen door een Dynamische Live Survey – naar interpretatie, een soort hybride tussen een Wiki en een GitHub-pagina, constant gevoed met nieuwe gegevens van LLM en andere AI-systemen, maar met commits die alleen door mensen worden gemaakt, zodat AI niet essentieel ‘auto-publiceert’ updates.

Het voorgestelde systeem zou de versiebeheer en branching van GitHub delen, waardoor een informatiebron in feite een constant bijgewerkt overzicht zou worden, vergelijkbaar met de ‘awesome’ stam van gecureerde lijsten op GitHub:

‘Onder deze structuur stelt een community-lid eerst een survey-onderwerp-wiki in door het bereik, de belangrijkste onderzoeks-vragen en de seminal-referenties te specificeren, waardoor een duidelijke thematische grens en initiële structuur wordt ingesteld.

‘Vervolgens monitort een LLM-gebaseerde ingestion-agent voortdurend preprint-archieven, conferentie-bijdragen en benchmark-leaderboards. Het extracteert automatisch abstracts, figuren en belangrijke prestatie-metrics; synthetiseert korte samenvattingen van nieuwe resultaten; werkt de citatie-grafiek bij om inter-papier-relaties te weerspiegelen; en markeert opkomende onderzoeks-trends voor verdere beoordeling.

‘Door ontwerp vinden deze geautomatiseerde updates plaats binnen uren na publicatie, waardoor de repository up-to-date blijft.’

‘Menselijke bijdragers treden vervolgens op om de interpretatieve diepgang te bieden die machines alleen niet kunnen bieden. Ze verfijnen evoluerende taxonomieën om subtiele methodologische onderscheidingen te vangen, coördineren conflicterende interpretaties van algoritme-innovaties over verschillende subvelden, en bieden diepere kritische vergelijkingen met het document.’

Het boek van veranderingen

De auteurs ontwikkelen hun voorstel met enthousiasme en uitgebreid, en rechtvaardigen het met iets dat waar is: hoge-inspannings-menselijke surveys over vluchtige onderwerpen rond AI verouderen zo snel dat ze nauwelijks de moeite waard zijn om te schrijven; en het papier merkt op dat een omlooptijd van drie maanden voor een nieuwe survey-paper waarschijnlijk betekent dat deze tegen de tijd van publicatie verouderd (of ernstig verouderd) zal zijn:

‘Jaar na jaar worden gemeenschappen overspoeld met herhaalde of oppervlakkige overzichten die snel hun relevantie verliezen, waardoor beoefenaars en nieuwkomers moeite hebben om signaal van ruis te onderscheiden. De traditionele publicatiecyclus (d.w.z. concept, indienen, beoordelen en publiceren) kan enkele maanden duren, waardoor kritieke doorbraken mogelijk al de landschapsverandering hebben veroorzaakt.

‘Bovendien voegt de toenemende hoeveelheid statische surveys toe aan cognitieve overbelasting, omdat lezers door talloze overlappende documenten moeten zoeken naar substantiële inzichten.’

Helaas deelt het papier van de oplossing veel van de slechtste en meest verguisde kwaliteiten van Discord: vooral dat het een constant veranderende en veranderende resource zou zijn.

Omdat elk deel van een Dynamische Live Survey op elk moment zou kunnen verdwijnen of worden gewijzigd, zou het onmogelijk zijn om het te gebruiken als een citeerbare, stabiele bron; behalve, misschien, door te linken naar een ‘vorige commit’, op dezelfde manier als archive.is en de Wayback Machine, onder andere archiefsites, linkbare momentopnames van web-pagina-inhoud bieden, bevroren op een bepaald tijdstip. Maar welke middelen zou zo’n commit nodig hebben, en zou het te vertrouwen zijn om in de loop van de tijd in leven te blijven?

Bovendien zou een platform/Wiki met constant veranderende definities en inhoud moeilijk te indexeren zijn, hetzij door traditionele zoekmachines of LLM’s.

Misschien het zwakste deel van het voorgestelde systeem is het idee dat echte mensen de commits van de LLM-agents zouden moeten beheren; zoals altijd zijn echte mensen duur. Wat wordt voorgesteld, is iets tussen een museum en een bibliotheek – beide zullen vleesware-provisie nodig hebben die evenredig is met de hoeveelheid gegevens en het aantal onderwerpen dat wordt behandeld.

Als ‘gebruik echte mensen‘ het enige antwoord is op een AI-ontwikkelingsprobleem, is het redelijk om te zeggen dat het probleem nog steeds open en onopgelost is.

Conclusie

Op dit moment is de korte houdbaarheid van survey-papers over AI hinderlijk; als de huidige trend naar grootschalige geautomatiseerd schrijven en indienen voortduurt, zoals beschreven in het nieuwe papier, zal de signaal-ruisverhouding chronisch worden en het literatuur onbeheersbaar.

In een dergelijke situatie zou het nog moeilijker zijn voor minder belangrijke, sub-FAANG-stemmen om gehoord te worden in de storm van inzendingen, en grote marktleiders zouden waarschijnlijk nog meer aandacht krijgen.

Naast live-surveys stelt het nieuwe papier voor dat auteurs niet alleen moeten worden beperkt tot het zelf melden wanneer AI wordt gebruikt in een deel van een inzending, maar ook dat AI-ondersteunde secties expliciet moeten worden gelabeld binnen een papier (misschien met een sidecar JSON-bestand…?).

Omdat dit een omslachtig vooruitzicht is, stelt het papier als alternatief voor wat ik alleen maar kan karakteriseren als een ‘AI-getto’ – een aparte sectie in de inzending die is gereserveerd voor AI-bijdragen.

Samengevat, het nieuwe werk heeft, naar mijn mening, geen realistische antwoorden te bieden; maar de auteurs hebben een nuttige dienst bewezen door de uitdagingen die voor ons liggen te formuleren.

Het papier Stop DDoS-aanval op de onderzoekscommunity met AI-gegenereerde survey-papers kan worden gevonden op https://arxiv.org/abs/2510.09686, en is geschreven door zes auteurs uit verschillende afdelingen van de Shanghai Jiao Tong University.

___________________________________

* Niet iedereen is het hiermee eens.

^† Auteurs’ nadruk, niet de mijne. Ook, waar van toepassing, mijn conversie van auteurs’ inline-citaten naar hyperlinks.

Eerst gepubliceerd op vrijdag 17 oktober 2025