Andersons vinkel

Den ‘Survey Paper DDos-angrepet’ som Overvelder Vitenskapelig Forskning

Published October 17, 2025

Updated May 17, 2026

Martin Anderson

An Oxbridge professor, a white middle-aged man, is shocked to see the entrance to his office clogged with an avalanche of books. ChatGPT-40; Firefly V3.

Generative AI-modeller som ChatGPT flomer akademiske publikasjonsplattformer med AI-genererte survey-papirer i et slikt omfang at signal-til-støy-forholdet blir kritisk. En ny studie hevder at denne flommen overvelder forskerne, forvrenger sitater og undergraver tillit til den vitenskapelige rekorden, og ligner den massive strømmen av AI-baserte papirer til en ‘DDoS-angrep’ på vitenskapen selv.

(Delvis) mening I fjor uke, for første gang i syv år med å holde meg oppdatert med den vitenskapelige litteraturen relatert til AI, måtte jeg innrømme nederlag og innrømme at, på toppen av det, må jeg nå velge mellom å holde meg oppdatert med viktige nye publikasjoner eller ha tid til å skrive om noen av dem.

Det totale antallet innførsler i et svært begrenset antall relevante kategorier (Computer Vision, Machine Learning, Language Models, og noen andre mindre abonnerte seksjoner) lå på vesentlig over tusen – bare for en dags innførsler.

Med en slik volum, ville selv å skumme alle nye titler og bare av og til dykke ned i noen av sammendragene, gjort for en uproduktiv dag.

Dette var tirsdag 7. oktober. I sammenligning, i Machine Learning-kategorien, tilbød denne tirsdagen (14. oktober) en publikasjonsvolum som var litt mindre intens enn de 400-odd innførslene for tirsdagen i forrige uke; det hadde bare 354 innførsler:

354 innførsler for Machine Learning-kategorien på en dag. Kilde: https://arxiv.org/

Man måtte ha lest Arxiv hver dag i noen år for å innse hvor galskapene disse tallene er.

Det er ingen tvil om at tirsdag er Arxivs ‘rush hour’ for innførsler, kanskje fordi det er den første arbeidsdagen som skjer utenfor lange helger som forskere håper å nå; og Machine Learning-kategorien er en ‘catch-all’-seksjon med færre unike papirer (papirer som ikke er publisert samtidig i mer spesialiserte kanaler) enn de fleste andre kategoriene.

Likevel er økningen i papirinnsendinger allerede et notert fenomen i akademia og i media.

Kanskje det mest sjokkerende aspektet ved denne eskaleringen er hvordan alle andre tilstøtende kategorier er mer eller mindre uendret i sin frekvens over de siste tre årene, mens Computer Science-kategorien (se om du kan finne den i Arxivs offisielle tall nedenfor) er på en alvorlig oppadgående kurve:

Økningen av computer science-papirer (CS) de siste tre årene. Kilde: https://info.arxiv.org/about/reports/submission_category_by_year.html

For litt over tre år siden var Arxivs AI-papirinnsendinger estimert til å doble seg hver få år; og det vil være interessant å lese Arxivs egen årlige sammendrag av trender ved årets slutting i 2025.

Volum på 11

De to mest åpenbare grunnene til at dette skjer er a) utenkelig finansiell forpliktelse til generativ AI tiltrekker massive forskningsinvesteringer i både private og akademiske sektorer, som ofte samarbeider; og b) det faktum at AI-språkmodeller som ChatGPT nå gjør det nesten industrialisert å sende inn forskningspapirer (inkludert papirer om AI).

Men kvaliteten på forskningsinnsendingene øker ikke i takt med volumet (selv om AI-feilfulle utgangstender til å gjøre flere overskrifter i den juridiske sektoren enn den akademiske, ikke minst fordi konsekvensene er mer åpenbare der).

En nulltoleransepolitikk er vanskelig å implementere i dette tilfelle, selv om å gjenkjenne AI-generert innhold var enklere; foruten det faktum at AI i seg selv er en manifest fordel for vitenskapelig forskning generelt, har dens bruk i forskningspapirinnsendinger generelt* forbedret klargjøringen av arbeid fra mange ikke-engelske innsendere – individer og lag som har operert med en ulempe til nå.

Men problemet med å senke språkbarrieren på denne måten er at det også øker det rene antallet globale innsendere, uten å øke nivået av menneskelig tilsyn som gir verdi til slikt arbeid.

Hvis innsendingsnivået fortsetter å stige eksponentielt, vil signal-til-støy-forholdet bli så ustyrbart at bare AI selv kunne muligens navigere de nye flommene og sideelvene av AI-papirer; en oppgave det ikke er bedre egnet til å utføre enn å korrigere sin egen utgang.

Et Angrep på Forskning

Årsaken til denne refleksjonen er en interessant ny samarbeid fra Kina med tittelen Stop DDoS-angrepet på forskningssamfunnet med AI-genererte survey-papirer.

Den nye posisjonsrapporten konsentrerer seg spesielt om survey-innsendinger – høysatsende sammenfattinger av bestemte forskningsretninger, som tradisjonelt både har listet og kontekstualisert, tolket trender og gjort informerte forutsigelser:

En brøkdel av den enorme og stadig voksende mengden survey-papirer i seksjoner relatert til maskinlæring og AI, på arxiv.org

Siden surveyer kuraterer fremfor å opprinnelse, er de usedvanlig lette å automatisere med AI, og forfatterne av den nye rapporten karakteriserer den massive økningen av lav-innsats surveyer som en sikkerhetstrussel mot forskningssektoren^†:

‘[Den] nylige økningen av AI-genererte surveyer, spesielt muliggjort av store språkmodeller (LLM), har transformert denne tradisjonelt arbeidskrevende sjangeren til en lav-innsats, høy-volumutgang. Mens slik automatisering senker inngangsbarene, introduserer den også en kritisk trussel: fenomenet vi betegner som “survey paper DDoS-angrepet” mot forskningssamfunnet.

‘Dette refererer til den ukontrollerte proliferasjonen av overfladiske, men ofte redundante, lavkvalitets- eller til og med hallucinerte survey-manuskrifter, som flomer forhåndsutgivelsesplattformer, overvelder forskere og undergraver tillit til den vitenskapelige rekorden.

‘[Vi] argumenterer for at vi må stoppe å laste opp massive mengder AI-genererte survey-papirer (dvs. survey paper DDoS-angrep) til forskningssamfunnet, ved å etablere sterke normer for AI-assistert skriving av anmeldelser.’

Forfatterne hevder at denne uhemmede akselerasjonen av surveyproduksjon truer med å oversvømme forskningsøkosystemet med polerte rapporter som likevel mangler kritisk dybde, og som sannsynligvis vil propagere feilaktige fakta og/eller hallusinerte sitater.

Rapporten advarer mot at uten bedre regler eller tilsyn, kan AI-genererte surveyer bli til overfladiske kopier som misrepresenterer hvilke emner som er viktige, skjuler meningsfulle analyser og gjør litteraturgjennomgangene mindre pålitelige:

‘Konsekvensene for forskningskvalitet og tillit er dyptgående. Først risikerer ekte fremsteg å bli skjult av algoritmer genererte gjentakelser av eksisterende arbeid.

‘Nykommerne og tverrfaglige forskere kan ha vanskelig for å finne pålitelige oversikter blant støyen. I tillegg kan feil eller forvrengninger introdusert av automatisert utkast kunne forplante seg uhemmet, og således gi etterfølgende forskning feilaktige premisser.

‘Samlet sett, truer flommen av ikke fagfellevurderte AI-genererte surveyer både rigorøsiteten i litteraturgjennomgangene og troverdigheten av den vitenskapelige rekorden.’

‘Abnormale’ Forfattere

Forskerne bak den nye rapporten presenterer noen interessante analyser av utviklingen av survey-innsendinger:

Venstre: det årlige antallet computer science-survey-papirer fra 2020 til 2024. Midten: gjennomsnittlige AI-genereringsskårer for disse papirene over samme periode. Høyre: antallet forfattere som er merket som “abnormale” (de med uvanlig høy survey-utgang, begrenset samarbeidsdiversitet og gjentakende institusjonelle mønster) hvert år. Alle tre trender viser en skarp økning fra 2023, sammenfallende med lanseringen av ChatGPT og andre store språkmodeller.

I den første kolonnen ser vi veksttrender: kurven begynner å stige rundt 2022, nettopp når ChatGPT dukket opp og store språkmodeller begynte å bli mainstream, og etterfølgende modeller som Claude, PaLM og Gemini ville holde denne momentummen gående gjennom 2023.

Den midterste grafen viser en skarp økning i innsendinger etter 2022, sammenfallende med lanseringen av ChatGPT. En forskningsgruppe fant at i 2024 var mer enn 10% av vitenskapelige abstracts blitt kjørt gjennom en LLM. En separat rapport fra en AI-oppdager virksomhet satte hoppet etter ChatGPT til 72% for papirer på arXiv som muligens var skrevet med AI-hjelp. Antallet papirer med høye AI-genereringsskårer doblet også på ett år, fra 3,6% til 6,2%.

Den høyre grafen viser en jevn økning i antallet “abnormale” forfattermønster (forskere som sender inn tre eller flere surveyer innen en måned mens de samarbeider med færre enn to medforfattere), med en skarpere økning fra 2022.

Forfatterne hevder at mange av disse survey-papirene muligens ble skrevet av AI, av ulike årsaker; noen er skrevet av solo-forfattere eller små grupper som sender inn multiple surveyer på kort tid; mange dekker ubeslektede emner; og i noen tilfeller har forfatterne ingen tidligere rekord i feltene de summerer.

I tillegg er noen publisert under anonyme kollektiver uten klare institusjonelle bånd – mønster som tyder på en koordinert flomming av feltet med rask survey, muligens for å få sitater eller forbedre akademiske profiler, snarere enn å bidra til litteraturen.

Problemer

Selv om vi ikke kan dekke alle kontroversene i den nye rapporten, bør vi se på noen av de mest bemerkelsesverdige observasjonene, samt kaste et kritisk øye over forfatternes foreslåtte løsninger på disse problemene.

Kvalitet og Originalitet

Problemet er ikke bare volum: mange AI-skrevne surveyer hopper over hva som gjør en god survey nyttig: klar struktur, dyp analyse, riktig og omhyggelig kreditering, og ekte innsikt. Istedenfor, foreslår rapporten at AI-genererte/assisterte surveyer ofte ligner sammenføyde sammendrag, uten den nødvendige omsorgen eller kurateringen.

Forfatterne observerer videre at AI-skrevne surveyer ofte mangler struktur, men heller bare lister papirer uten klar retning, hopper over nøkkelavsnitt og ikke skaper kontekst. Menneskeskrevne surveyer, på den andre siden, tenderer til å etablere korrekte kategorier og fortelle en mer sammentrengt historie.

Også, mange potensielt AI-assisterte surveyer ser ut til å bare kopiere eksisterende emneoppdelinger, noen ganger rett fra Wikipedia. For eksempel, merker rapporten at, multiple surveyer om Vision Transformers inneholder felles seksjons titler og struktur, som avslører mal-basert AI-utgang:

‘I motsetning til dette, kan en velkonstruert menneskeskrevet survey innføre en ny taksonomi, f.eks. kategorisere ViT etter effisiensstrategier. Mangel på slik original struktur i mange nylige survey-forhåndsutgivelser våkner bekymring for at de kan ha blitt generert av AI med begrenset menneskelig innsikt.’

Ikke Sitat Meg på Det

Kanskje det mest offentlig ydmykende, får AI-skrevne surveyer ofte siteringer galt, mangler nøkkelartikler, inkludert ikke-relevante artikler og noen ganger sogar ikke-eksisterende artikler – feil som tyder på at referansene stammer fra overfladisk mønster-gjenkjenning, snarere enn ekte ekspertise.

Forfatterne peker også på at noen nylige survey-papirer, ofte fra helt forskjellige lag, deler så mye som 70% av sine referanselister – et nivå av overlapping så høyt at det tyder på en felles avhengighet av LLM-er, som trekker fra samme smale kildebasen.

Faktisk, vil casual brukere av ChatGPT kjenne at jo mer obskure emnet er, jo færre diverse kilder det er for modellen å ha generalisert; svært ofte er å finne modellens egne begrensede kilder på nettet mer nyttig enn å interagere med den informasjonen via en AI som ikke hadde adekvat data i et bestemt domene.

En ‘Homogen Stil’ som Vokser Frem

Forfatterne påpeker også at mange AI-skrevne surveyer om samme emne ligner nesten identiske, ettersom LLM-er gjentar frasering og struktur, spesielt for populære emner, og resulterer i en strøm av nesten identiske papirer som tilfører liten verdi og også tilfører betydelig støy til forskere som søker etter domene-svar*:

‘Når flere forfattere ber en LLM om å “skrive en litteraturgjennomgang om X,” produserer modellen ofte svært like svar, spesielt for vanlige definisjoner eller velkjente fakta. Nylig forskning har vist en skarp økning i bruken av bestemte skrive-mønster knyttet til LLM-er, og tyder på at mange papirer nå deler samme stil.’

Din ChatGPT Viser Seg

Rapporten observerer at en rask måte å spore AI-skrevne surveyer på er gjennom tilstedeværelsen av fraser som ‘as an AI language model’ eller ‘my knowledge cutoff’, som tyder på minimal eller ingen kuratering av utgangen fra språkmodellene før papirene ble sendt inn (selv om en målrettet søk på skrivetid ikke avslørte noen slike “tells” i Google-søk).

Rapporten påpeker at mange “mistenkte” surveyer viser lavere ord-diversitet og gjentakende frasering, for eksempel ved å starte flere avsnitt med Furthermore. Dette mønsteret, foreslår forfatterne, er typisk for GPT-stil skriving, og kunne være en nyttig indikator for å oppdage auto-generert tekst.

(Min personlige kommentar til dette er at restriksjonene i nett-journalistikk ofte krever at en forfatter lister mange punkter i en prosa-basert, ikke-stil form. Derfor er ChatGPT og dens like sannsynligvis lært denne dårlige vanen fra menneskelige forfattere som ble konfrontert med et begrenset antall leksikalske alternativer. I tillegg viser forfatternes konjektur at de dabbler i grunnleggende prinsipper for AI-innhold-oppdager, som er et komplekst og utviklende felt med få varige konstanter av den typen som forfatterne foreslår)

Selv om forskerne går videre med å utvikle en fascinerende diskusjon om den negative innvirkningen av AI-surveyer på forskningskultur og tillit, må vi henvisende lesere til kilde-rapporten for større dybde på dette.

Løsninger?

Rapportens løsning er fascinerende, radikal og på samme tid underlig uoriginal: at nyttelsen av survey-papirer bør erstattes av en Dynamisk Live Survey – ved tolkning, en slags hybrid mellom en Wiki og en GitHub-side, konstant fôret med nye data fra LLM og andre AI-systemer, men med commits som bare gjøres av mennesker, så AI ikke essensielt kan “auto-publisere” oppdateringer.

Det foreslåtte systemet ville dele versjonering og branching av GitHub, essensielt gjøre en informasjonsressurs til en konstant oppdaterende liste lignende ‘awesome’-typen kurerte lister på GitHub:

‘Under denne rammen, etablerer en samfunnsmedlem først en survey-tema-wiki ved å spesifisere omfanget, nøkkel-forskningsspørsmål og seminale referanser, som deretter setter en klar tematisk grense og initial struktur.

‘Deretter overvåker en LLM-basert innsugningsagent kontinuerlig forhåndsutgivelsesarkiv, konferanserapporter og benchmark-ledere. Den trekker automatisk ut abstracts, figurer og nøkkel-ytelsesmetrikker; syntetiserer konsise sammendrag av nye resultater; oppdaterer sitat-grafen for å reflektere inter-papir-relasjoner; og markerer fremvoksende forskningstrender for videre gjennomgang.

‘Ved design, skjer disse automatiske oppdateringene innen timer etter publikasjon, og sikrer at repositoriet forblir på forkant.’

‘Menneskelige bidragsytere trer deretter inn for å gi den tolkende dybden som maskiner alene ikke kan tilby. De finjusterer utviklende taksonomier for å fange subtile metodiske distinksjoner, koordinerer motstridende tolkninger av algoritmeriske innovasjoner over forskjellige underfelt, og gir dypere kritiske sammenligninger til dokumentet.’

Boken om Endringer

Forfatterne utdyper entusiastisk og i detalj dette forslaget, og rettferdiggjør det i stor grad med noe som er svært sant: høysatsende, menneskeskrevne surveyer om flyktige emner rundt AI eldes så raskt at de knapt er verdt å skrive; og rapporten påpeker at en tre-måneders omgangstid for en ny survey-rapport sannsynligvis vil bety at den vil være foreldet (eller svært foreldet) på tidspunktet for planlagt publikasjon:

‘Året etter år, flommer samfunnene med repetitive eller overfladiske oversikter som raskt mister relevans, og etterlater både praktikere og nykommerne å slite med å skille signal fra støy. Den tradisjonelle publikasjons-syklusen (dvs. utkast, send inn, gjennomgang og publiser) kan strekke seg over flere måneder, og på det tidspunktet kan kritiske gjennombrudd allerede ha endret landskapet.

‘I tillegg øker den økende volumet av statiske surveyer til kognitivt overbelastning, ettersom lesere må gjennomse flere overlappende dokumenter for å finne substansielle innsikter.’

Uheldigvis deler rapportens løsning mange av de verste og mest kritiserte kvalitetene til Discord: spesielt at den ville være en konstant skiftende og endrende ressurs.

Siden noen deler av en Dynamisk Live Survey kan forsvinne eller bli endret når som helst, ville det være umulig å bruke som en sitert, stabil kilde; unntatt kanskje ved å lenke til en ‘tidligere commit’, på samme måte som archive.is og Wayback Machine, blant andre arkiv-sider, tilbyr lenkbare øyeblikksbilder av nettinnhold, frosset på et bestemt tidspunkt. Men hvilke ressurser ville en slik commit trenge, og kunne den stole på å forbli aktiv over tid?

I tillegg ville en plattform/Wiki med konstant endrende definisjoner og innhold være utfordrende å indeksere, både av tradisjonelle søkemotorer og LLM-er.

Kanskje det svakeste punktet i det foreslåtte systemet er ideen om at ekte mennesker bør overvåke commits fra LLM-agenter; som alltid, er ekte mennesker dyre. Hva som foreslås, er noe mellom et museum og en bibliotek – begge vil trenge “kjøtt- og blod”-tilførsler i forhold til datamengden og antallet emner dekket.

Hvis ‘bruk ekte mennesker‘ er det eneste svaret på et AI-utviklingsproblem, er det rettferdig å si at problemet forblir åpent og uløst.

Konklusjon

For øyeblikket er den korte holdbarheten av survey-papirer om AI irriterende; hvis den nåværende trenden mot høyskala automatisk skriving og innsending fortsetter, som beskrevet i den nye rapporten, vil signal-til-støy-forholdet bli kronisk, og litteraturen blir ustyrbart.

I en slik situasjon ville det være enda vanskeligere enn det er nå for mindre, under-FAANG-stemmer å bli hørt i stormen av innsendinger, og markedets ledere ville sannsynligvis få enda større fremtreden.

Foruten live-surveyer, foreslår den nye rapporten at forfattere ikke bare bør begrenses til å erklære når AI brukes i noen del av en innsending, men også at AI-assisterte avsnitt bør være uttrykkelig merket i en rapport (kanskje med en side-JSON-fil…?).

Siden dette er et omfattende prosjekt, foreslår rapporten alternativt hva jeg bare kan karakterisere som en ‘AI-getto’ – en distinkt seksjon i innsendingen som er satt av til AI-bidrag.

Kort sagt, den nye rapporten har, i mitt syn, ingen realistiske løsninger å tilby; men forfatterne har utført en nyttig tjeneste ved å ramme ut utfordringene som ligger foran.

Rapporten Stop DDoS-angrepet på forskningssamfunnet med AI-genererte survey-papirer kan finnes på https://arxiv.org/abs/2510.09686, og er skrevet av seks forfattere fra ulike avdelinger ved Shanghai Jiao Tong University.

___________________________________

* Ikke alle mener at dette er tilfelle.

^† Forfatterens betoning, ikke min. Og, hvor aktuelt, min konvertering av forfatterens inline-citater til hyperlenker.

Først publisert fredag, 17. oktober 2025