Angolo di Anderson

L’‘Attacco DDoS ai Lavori di Ricerca’ che Sta Sommergendo la Ricerca Scientifica

Pubblicato il 17 ottobre 2025

Aggiornato il 17 maggio 2026

Martin Anderson

An Oxbridge professor, a white middle-aged man, is shocked to see the entrance to his office clogged with an avalanche of books. ChatGPT-40; Firefly V3.

I modelli di intelligenza artificiale generativa come ChatGPT stanno inondando le piattaforme di pubblicazione accademica con lavori di ricerca generati da AI a livelli che stanno rendendo il rapporto segnale/rumore critico. Uno studio recente afferma che questo flusso sta sommergendo i ricercatori, distorcendo le citazioni e minando la fiducia nel registro scientifico, paragonando la valanga di lavori di ricerca aiutati da AI a un ‘attacco DDoS’ alla scienza stessa.

(Parzialmente) opinione La scorsa settimana, per la prima volta in sette anni di aggiornamento sulla letteratura scientifica relativa all’AI, ho dovuto ammettere la sconfitta e riconoscere che, almeno nei periodi di picco, devo ora scegliere tra stare al passo con le nuove pubblicazioni essenziali o avere del tempo per scrivere su alcune di esse.

Il numero totale di voci in un numero molto limitato di categorie rilevanti (Visione artificiale, Apprendimento automatico, Modelli linguistici, e alcune altre sezioni meno frequentate) era di significativamente oltre mille – solo per le domande di un giorno.

A tale volume, anche solo sfogliare tutti i nuovi titoli e occasionalmente indulgere in alcune delle sintesi degli abstract avrebbe reso la giornata improduttiva.

Questo era martedì 7 ottobre. Al contrario, nella categoria Apprendimento automatico, questo martedì scorso (14 ottobre) ha offerto un volume di pubblicazioni leggermente meno intenso rispetto ai 400 lavori della settimana precedente; aveva solo 354 voci:

354 domande per la categoria Apprendimento automatico in un solo giorno. Fonte: https://arxiv.org/

Dovresti aver letto Arxiv ogni giorno, per alcuni anni, per rendersi conto di quanto questi numeri stiano diventando folli.

Ammettendo che martedì è il ‘rush hour’ di Arxiv per le domande, forse perché è il primo giorno lavorativo che si verifica lontano da weekend lunghi goduti dalle persone influenti che i ricercatori sperano di raggiungere; e la categoria Apprendimento automatico è una sezione ‘catch-all’ con un minor numero di lavori unici (lavori che non sono pubblicati contemporaneamente in canali più specializzati) rispetto alla maggior parte delle altre categorie.

Nonostante ciò, l’aumento delle domande di lavori di ricerca è già un fenomeno notato nell’ambito accademico e nei media.

Forse l’aspetto più sorprendente di questa escalation è come tutte le altre categorie adiacenti siano più o meno invariate nella loro frequenza negli ultimi tre anni, mentre la categoria Informatica (vedi se puoi individuare la categoria CS nei dati ufficiali di Arxiv di seguito) è su una traiettoria severamente ascendente:

L’aumento dei lavori di informatica (CS) negli ultimi tre anni. Fonte: https://info.arxiv.org/about/reports/submission_category_by_year.html

Poco più di tre anni fa, la produzione di lavori di ricerca di Arxiv era stata stimata come raddoppiando ogni pochi anni; e sarà interessante leggere il proprio riassunto annuale di Arxiv delle tendenze alla fine del 2025.

Volume a 11

Le due ragioni più ovvie per cui questo sta accadendo sono a) un impegno finanziario senza precedenti per l’intelligenza artificiale generativa che sta attirando livelli massicci di investimenti nella ricerca nel settore privato e accademico, che spesso collaborano; e b) il fatto che i sistemi di modelli linguistici di intelligenza artificiale come ChatGPT rendono ora la presentazione di lavori di ricerca (inclusi lavori sulla stessa intelligenza artificiale) un processo quasi industrializzato.

Tuttavia, la qualità delle domande di ricerca non sta aumentando in tandem con il volume (anche se la produzione errata dell’AI tende a fare più titoli nel settore legale che in quello accademico, non da ultimo perché le ramificazioni sono più ovvie lì).

Una politica di tolleranza zero è difficile da implementare in questo caso, anche se riconoscere il contenuto generato da AI fosse più facile; oltre al fatto che l’AI in sé è una benedizione manifesta per la ricerca scientifica in generale, il suo utilizzo nelle domande di lavori di ricerca ha generalmente* migliorato la chiarezza del lavoro di molti non madrelingua inglesi – individui e squadre che fino ad ora hanno operato con svantaggio.

Ma il problema di abbassare la barriera linguistica in questo modo è che ciò aumenta anche il numero di presentatori globali, senza aumentare il livello di supervisione umana che dà valore a tale lavoro.

Se i livelli di presentazione continuano ad aumentare esponenzialmente, il rapporto segnale/rumore diventerà così ingestibile che solo l’AI stessa potrebbe possibilmente navigare le nuove inondazioni e affluenti di lavori di ricerca AI; un compito per cui non è più adatta di quanto non lo sia per verificare la propria produzione.

Un Attacco alla Ricerca

La causa di questa riflessione è una collaborazione interessante e nuova dalla Cina intitolata Fermare l’Attacco DDoS alla Comunità di Ricerca con Lavori di Ricerca Generati da AI.

Il nuovo lavoro di ricerca si concentra specificamente sulle domande di survey – resoconti ad alto impegno di particolari filoni di ricerca, che hanno tradizionalmente elencato e contestualizzato, interpretando tendenze e facendo previsioni informate:

Una frazione minima del vasto e sempre crescente corpo di survey disponibili in sezioni relative all’apprendimento automatico e all’intelligenza artificiale, su arxiv.org

Poiché le survey curano piuttosto che originino, sono insolitamente facili da automatizzare con l’AI, e gli autori del nuovo lavoro caratterizzano la proliferazione di survey a basso impegno in termini di minaccia per la sicurezza per il settore della ricerca:

‘[L’]ondata recente di survey generate da AI, in particolare abilitate da grandi modelli linguistici (LLM), ha trasformato questo genere tradizionalmente impegnativo in un output a basso impegno e alto volume. Sebbene tale automazione abbassi le barriere all’ingresso, introduce anche una minaccia critica: il fenomeno che noi chiamiamo “attacco DDoS di survey” alla comunità di ricerca.

‘Ciò si riferisce alla proliferazione incontrollata di manoscritti di survey superficialmente completi ma spesso ridondanti, di bassa qualità o anche allucinati, che inonda le piattaforme di pre-stampa, sommerge i ricercatori e mina la fiducia nel registro scientifico.

‘[Noi] sosteniamo che dobbiamo smettere di caricare massive quantità di lavori di ricerca generati da AI (cioè, attacco DDoS di survey) nella comunità di ricerca, istituendo forti norme per la scrittura di recensioni assistita da AI.’

Gli autori affermano che questa accelerazione incontrollata della produzione di survey minaccia di sommergere l’ecosistema della ricerca con relazioni ben rifinite che mancano tuttavia di profondità critica, e che sono probabili propagare errori fattuali e/o allucinazioni di citazioni.

Il lavoro di ricerca avverte che senza regole o supervisione migliori, le survey generate da AI potrebbero trasformarsi in copie superficiali che rappresentano male quali argomenti sono importanti, nascondono analisi significative e rendono le recensioni della letteratura meno attendibili:

‘Le implicazioni per la qualità della ricerca e la fiducia sono profonde. In primo luogo, i progressi genuini rischiano di essere oscurati da rielaborazioni generate algoritmicamente di lavori esistenti.

‘I nuovi arrivati e gli studiosi interdisciplinari potrebbero lottare per trovare panorami affidabili tra il rumore. Inoltre, gli errori o i pregiudizi introdotti dalla stesura automatizzata possono propagarsi incontrollati, seminando la ricerca successiva con premesse errate.

‘In sintesi, l’ondata di survey generate da AI non peer-reviewed mette in pericolo sia la rigore delle recensioni della letteratura che la credibilità del registro scientifico.’

‘Autori Anomali’

I ricercatori del nuovo lavoro forniscono alcune analisi interessanti sull’evoluzione delle domande di survey:

Sinistra: il conteggio annuale di lavori di survey di informatica dal 2020 al 2024. Centro: punteggi di generazione AI per quei lavori nello stesso periodo. Destra: numero di autori contrassegnati come anomali (quelli con output di survey insolitamente alto, limitata diversità di co-autorship e modelli istituzionali ricorrenti) ogni anno.

Nella prima colonna vediamo le tendenze di crescita: la curva inizia a farsi più ripida intorno al 2022, proprio quando ChatGPT è emerso e i grandi modelli linguistici hanno iniziato a diventare mainstream, e modelli successivi come Claude, PaLM, e Gemini avrebbero mantenuto quell’impeto per tutto il 2023.

Il grafico centrale mostra una forte crescita delle domande dopo il 2022, coincidendo con il lancio di ChatGPT. Un team di ricerca ha scoperto che entro il 2024, più del 10% degli abstract scientifici erano stati eseguiti con un LLM. Un rapporto separato di un’azienda di rilevamento AI ha collocato il balzo post-ChatGPT al 72% per i lavori su arXiv che potrebbero essere stati scritti con l’aiuto dell’AI. Il numero di lavori con punteggi di generazione AI alti è anche raddoppiato in un anno, dal 3,6% al 6,2%.

Il grafico di destra mostra una crescita costante nel numero di modelli di autori ‘anomali’ (ricercatori che presentano tre o più survey in un mese lavorando con meno di due collaboratori), con una crescita più forte a partire dal 2022.

Gli autori affermano che molti di questi lavori di survey potrebbero essere stati redatti da AI, per diverse ragioni; alcuni sono scritti da autori solitari o piccoli gruppi che presentano più survey in un breve periodo; molti coprono argomenti non correlati; e in alcuni casi, gli autori non hanno alcun precedente nella materia che stanno riassumendo.

Inoltre, alcuni sono pubblicati sotto collettivi anonimi senza chiari legami istituzionali – modelli che suggeriscono un’inondazione coordinata del campo con survey rapide, possibilmente per ottenere citazioni o migliorare i profili accademici, piuttosto che fare un contributo reale alla letteratura.

Questioni

Sebbene non possiamo coprire tutte le controversie del nuovo lavoro, dovremmo dare uno sguardo ad alcune delle osservazioni più notevoli, nonché gettare uno sguardo critico sulle soluzioni proposte dagli autori a queste questioni.

Qualità e Originalità

Il problema non è solo il volume: molti lavori di survey scritti da AI saltano ciò che rende una buona survey utile: chiara struttura, profonda analisi, credito corretto e assiduo, e vera comprensione. Invece, il lavoro di ricerca suggerisce che le survey generate da AI/aiutate spesso leggono come somme cucite insieme, senza alcuna delle cure o cura richiesta.

Gli autori osservano, inoltre, che le survey scritte da AI spesso mancano di struttura, ma semplicemente elencano lavori senza chiara direzione, saltando sezioni chiave e fallendo nel creare contesto. Le survey scritte da esseri umani, al contrario, tendono a stabilire categorie adeguate e raccontare una storia più coerente.

Inoltre, molte survey potenzialmente aiutate da AI sembrano semplicemente copiare esistenti suddivisioni di argomenti, a volte direttamente da Wikipedia. Ad esempio, il lavoro di ricerca nota che molte survey su Vision Transformers contengono titoli di sezioni comuni e struttura, tradendo un output di template di AI:

‘In contrasto, una survey scritta da un essere umano potrebbe introdurre una nuova tassonomia, ad esempio categorizzando ViT per strategie di efficienza. La mancanza di tale struttura originale in molte survey recenti solleva preoccupazioni che potrebbero essere state generate da AI con limitata comprensione umana.’

Non Citarmi

Forse l’aspetto più imbarazzante pubblicamente, le survey scritte da AI spesso sbagliano le citazioni, mancano lavori chiave, inclusi lavori non rilevanti, e a volte elencano addirittura lavori inesistenti – errori che suggeriscono che le referenze derivino da un abbinamento di pattern di superficie, piuttosto che da vera competenza.

Gli autori fanno anche notare che alcune survey recenti, spesso da squadre completamente diverse, condividono fino al 70% delle loro liste di referenze – un livello di sovrapposizione così alto che, sostengono, suggerisce una dipendenza condivisa da LLM, che attingono dallo stesso pool ristretto di materiale di origine.

In effetti, gli utenti casuali di ChatGPT sanno che più l’argomento è oscuro, meno fonti diverse ci sono per il modello da generalizzare; molto spesso, localizzare le fonti del modello stesso su Internet è più utile che cercare di interagire con quelle informazioni tramite un’AI che non ha avuto dati adeguati in un particolare dominio.

Uno Stile Omogeneo che Emergono

Gli autori notano anche che molte survey scritte da AI sullo stesso argomento appaiono e suonano quasi identiche, poiché gli LLM riutilizzano frasi e struttura, specialmente per soggetti popolari, risultando in un torrente di lavori quasi identici che aggiungono poco valore e aggiungono anche molto rumore ai ricercatori che cercano risposte di dominio:

‘Quando più autori chiedono a un LLM di “scrivere una recensione della letteratura su X”, il modello spesso produce risposte molto simili, specialmente per definizioni comuni o fatti ben noti. Ricerche recenti hanno mostrato un forte aumento nell’uso di certi modelli di scrittura collegati agli LLM, suggerendo che molti lavori condividano ora lo stesso stile.’

Il Tuo ChatGPT si Sta Mostrando

Il lavoro di ricerca osserva che un modo rapido per individuare le survey scritte da AI è attraverso la presenza di frasi come ‘come modello linguistico di AI‘ o ‘la mia conoscenza si ferma‘, suggerendo una cura minima o addirittura zero dell’output dei modelli linguistici prima della presentazione dei lavori (anche se una ricerca mirata al momento della scrittura non ha rivelato alcuno di questi segni indicati in Google Search).

Il lavoro di ricerca nota che molte survey ‘sospette’ mostrano una minore diversità di parole e frasi ripetute, ad esempio iniziando più paragrafi con Inoltre. Questo tipo di modello, suggeriscono gli autori, è tipico della scrittura di stile GPT e potrebbe essere un utile indicatore per rilevare il testo generato automaticamente.

(Il mio commento personale su questo è che le restrizioni del giornalismo online spesso richiedono a uno scrittore di elencare molti elementi in una forma di prosa non stilizzata. Pertanto, ChatGPT e i suoi pari sono probabilmente appresi questa cattiva abitudine da scrittori umani che si sono trovati di fronte a un numero limitato di alternative lessicali. Inoltre, la congettura degli autori mostra che stanno trafficando con i princìpi del rilevamento del contenuto AI, che è un campo complesso e in evoluzione, con poche costanti durature del tipo che gli autori suggeriscono)

Sebbene i ricercatori continuino a sviluppare un discorso affascinante sull’impatto negativo delle survey AI sulla cultura della ricerca e sulla fiducia, dobbiamo rimandare il lettore al lavoro di ricerca originale per una maggiore profondità su questo argomento.

Soluzioni?

La soluzione del lavoro di ricerca è affascinante, radicale e allo stesso tempo strana e non originale: che l’utilità dei lavori di survey dovrebbe essere sostituita da una Survey Dinamica Live – per interpretazione, una sorta di ibrido tra un wiki e una pagina GitHub, costantemente alimentata con nuovi dati da LLM e altri sistemi AI, ma con commit eseguiti solo da esseri umani, in modo che l’AI non possa essenzialmente ‘auto-pubblicare’ aggiornamenti.

Il sistema proposto condividerebbe la versione e la ramificazione di GitHub, trasformando essenzialmente una risorsa di informazione in un elenco costantemente aggiornato simile alla ‘filone awsome’ di elenchi curati su GitHub:

‘In questo quadro, un membro della comunità stabilisce prima una wiki di survey di un argomento specificando l’ambito, le domande di ricerca chiave e le referenze seminali, che stabiliscono così un chiaro confine tematico e una struttura iniziale.

‘Successivamente, un agente di ingestione basato su LLM monitora costantemente gli archivi di pre-stampa, le procedure di conferenza e le classifiche di benchmark. Estraeva automaticamente gli abstract, le figure e le metriche di prestazione chiave; sintetizza sommari concisi di nuovi risultati; aggiorna il grafico di citazione per riflettere le relazioni inter-cartacee; e segnala tendenze di ricerca emergenti per un’ulteriore revisione.

‘Per progetto, questi aggiornamenti automatici si verificano entro ore dalla pubblicazione, garantendo che il repository rimanga all’avanguardia.

‘Gli contributori umani intervengono poi per fornire la profondità interpretativa che le macchine da sole non possono offrire. Raffinano le tassonomie in evoluzione per catturare sottili distinzioni metodologiche, coordinano interpretazioni conflittuali di innovazioni algoritmiche in diversi sottocampi e forniscono confronti critici più approfonditi del documento.’

Il Libro dei Mutamenti

Gli autori espongono con entusiasmo e a lungo questa proposta, e la giustificano essenzialmente con qualcosa di molto vero: le survey ad alto impegno scritte da esseri umani su argomenti volatili intorno all’AI invecchiano così in fretta che non vale la pena scriverle; e il lavoro di ricerca nota che un ritorno di tre mesi su una nuova survey significherebbe che sarà superata (o gravemente superata) al momento della sua pubblicazione programmata:

‘Anno dopo anno, le comunità sono inondate di panorami ripetitivi o superficiali che perdono rapidamente la loro rilevanza, lasciando i pratici e i nuovi arrivati a lottare per distinguere il segnale dal rumore. Il ciclo di pubblicazione tradizionale (ad esempio, bozza, invio, revisione e pubblicazione) può durare diversi mesi, nel quale tempo potrebbero già essersi verificati importanti progressi.

‘Inoltre, il volume crescente di survey statiche aggiunge al sovraccarico cognitivo, poiché i lettori devono setacciare numerosi documenti sovrapposti per trovare intuizioni sostanziali.’

Purtroppo, la soluzione del lavoro di ricerca condivide molte delle peggiori e più derise qualità di Discord: soprattutto che sarebbe una risorsa costantemente in movimento e in cambiamento.

Dal momento che qualsiasi parte di una Survey Dinamica Live potrebbe scomparire o essere modificata in qualsiasi momento, sarebbe impossibile utilizzarla come fonte citabile e stabile; a meno che, forse, collegandosi a un ‘precedente commit’, in modo simile a come archive.is e il Wayback Machine, tra altri siti di archiviazione, forniscono collegamenti a snapshot di contenuti di pagine web, congelati in un momento specifico. Ma quali risorse avrebbe bisogno un tale commit, e potrebbe essere affidabile per rimanere attivo nel tempo?

Inoltre, una piattaforma/wiki con definizioni e contenuti costantemente in cambiamento sarebbe difficile da indicizzare, sia per i motori di ricerca tradizionali che per gli LLM.

Forse la parte più debole del sistema proposto è l’idea che le persone reali dovrebbero sovrintendere ai commit degli agenti LLM; come sempre, le persone reali sono costose. Ciò che viene proposto è qualcosa a metà tra un museo e una biblioteca – entrambi avranno bisogno di una fornitura di ‘carne’ proporzionata al volume di dati e al numero di argomenti trattati.

Se ‘usare persone reali‘ è l’unica risposta a un problema di sviluppo AI, è giusto dire che il problema rimane aperto e irrisolto.

Conclusione

Al momento, la breve durata di vita delle survey sui lavori di ricerca sull’AI è fastidiosa; se la tendenza attuale verso la scrittura automatizzata e la presentazione continua, come previsto nel nuovo lavoro di ricerca, il rapporto segnale/rumore diventerà cronico e la letteratura sarà ingestibile.

In una tale situazione, sarebbe ancora più difficile per le voci minoritarie, non FAANG, farsi sentire nella tempesta di presentazioni, e i leader di mercato maggiori guadagnerebbero probabilmente ancora più prominenza.

Oltre alle survey live, il nuovo lavoro di ricerca propone che gli autori non solo debbano dichiarare quando l’AI viene utilizzata in qualsiasi parte di una presentazione, ma anche che le sezioni aiutate dall’AI debbano essere etichettate esplicitamente all’interno di un lavoro (forse con un file JSON laterale…?).

Dal momento che questo è un prospetto oneroso, il lavoro di ricerca suggerisce alternativamente ciò che posso solo caratterizzare come un ‘ghetto AI’ – una sezione distinta nella presentazione che è riservata ai contributi AI.

In breve, il nuovo lavoro di ricerca ha, almeno nella mia opinione, nessuna risposta realistica da offrire; ma gli autori hanno reso un servizio utile nel delineare le sfide che ci attendono.

Il lavoro di ricerca Fermare l’Attacco DDoS alla Comunità di Ricerca con Lavori di Ricerca Generati da AI può essere trovato all’indirizzo https://arxiv.org/abs/2510.09686, ed è scritto da sei autori di dipartimenti diversi presso l’Università Jiao Tong di Shanghai.

___________________________________

* Non tutti ritengono che questo sia il caso.

^†Enfasi degli autori, non mia. Inoltre, dove applicabile, la mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.

Pubblicato per la prima volta venerdì, 17 ottobre 2025