Angolo di Anderson
Come Nascondere Assurde Pubblicazioni Scientifiche ai Recensori AI

Nuove ricerche dimostrano come i sistemi AI possano ora scrivere false pubblicazioni scientifiche che altri AI accettano come vere, evitando le routine di rilevamento che un tempo funzionavano, ed esponendo come facilmente il mondo della ricerca potrebbe collassare in bot che ingannano bot.
Il settore della ricerca accademica, ironicamente in prima linea nell’innovazione AI, è alle prese con una crisi di credibilità che è essa stessa guidata dall’AI. L’impatto dell’apprendimento automatico sulla ricerca, sulla presentazione e sul processo di revisione è stato considerevole fin da quando le prospettive dell’impatto dell’AI sono diventate chiare circa quattro anni fa, con l’ultimo di una serie di controversie che è la generazione di massa di pubblicazioni di basso valore.
Insieme con gran parte del settore accademico più ampio, il settore della ricerca è impegnato in una sorta di guerra fredda tra AI che generano testi – come ChatGPT e la serie Claude – e l’ultima generazione di AI “rilevatori” che possono identificare la loro produzione senza (di solito) macchiare gli studenti o gli scienziati con falsi positivi.
Queste tensioni sono destinate ad aumentare, insieme al volume delle presentazioni scientifiche, che sta aumentando radicalmente, alimentato da sistemi e framework aiutati dall’AI; e che richiedono un’industrializzazione AI-guidata del processo di controllo per (sperabilmente) filtrare fuori eventuali presentazioni che siano puramente il lavoro di AI.
Benvenuta Conoscenza Falsa
Una nuova collaborazione di ricerca tra gli Stati Uniti e l’Arabia Saudita indaga fino a che punto questo emergente “firewall” di rilevamento AI possa essere penetrato da intere pubblicazioni generate da AI, quando queste pubblicazioni sfruttano alcuni trucchi convincenti aggiuntivi.
Nei test, il nuovo sistema, chiamato BadScientist, è stato in grado di raggiungere tassi di accettazione fino all’82% dai sistemi LLM-based attualmente utilizzati per rilevare il contenuto generato da AI nelle pubblicazioni scientifiche:

Il sistema BadScientist utilizza un agente AI per generare false pubblicazioni scientifiche e un altro per esaminarle utilizzando modelli linguistici correnti. Fonte: https://arxiv.org/pdf/2510.18003
Le false pubblicazioni sono state generate utilizzando argomenti di conferenze scientifiche reali e strategie ingannevoli, quindi esaminate da modelli calibrati sui dati di revisione paritaria, inclusi GPT-5 per controlli di integrità. Molti hanno ricevuto punteggi alti nonostante contenessero errori o falsificazioni evidenti.
La pubblicazione del documento coincide con la Conferenza Aperta di Agenti AI per la Scienza 2025 a Stanford, dove i partecipanti e gli oratori sono umani, ma tutti i documenti sono scritti e esaminati da sistemi AI diversi.
BadScientist, il nuovo documento, spiega, utilizza diverse forme di inganni accademici e letterari, omissioni, invenzioni ed esagerazioni per riportare il documento lontano da tutto ciò che la maggior parte dei sistemi di rilevamento attuali può riconoscere come generato da AI; e esamineremo queste categorie tra poco.
Gli autori notano, in un tono di allarme, che anche quando i sistemi di rilevamento identificano il contenuto AI in una falsa pubblicazione, hanno la tendenza a farla comunque passare, e aggiungono che i loro tentativi di inoculare i sistemi di difesa contro questo nuovo vettore di attacco hanno ottenuto a malapena più della casualità.
Il documento afferma:
‘Le pubblicazioni false raggiungono tassi di accettazione elevati, con i revisori che esibiscono frequentemente conflitti di accettazione-preoccupazione – segnalando problemi di integrità e raccomandando comunque l’accettazione. Questo fondamentale crollo rivela che gli attuali revisori AI operano più come riconoscitori di modelli che come valutatori critici.
‘[…] Chiedere semplicemente ai revisori LLM di “essere più attenti” è insufficiente. La comunità scientifica si trova di fronte a una scelta urgente. Senza un’azione immediata per implementare salvaguardie di difesa in profondità – inclusa la verifica della provenienza, la valutazione ponderata dell’integrità e la supervisione umana obbligatoria – rischiamo di finire in cicli di pubblicazione solo AI dove le sofisticate falsificazioni sopraffanno la nostra capacità di distinguere la ricerca genuina dalle contraffazioni convincenti.
‘L’integrità della conoscenza scientifica stessa è in gioco.’
Il nuovo documento è intitolato BadScientist: Un Agente di Ricerca può Scrivere Pubblicazioni Convincenti ma Insostenibili che Ingannano i Revisori LLM? e proviene da sei autori tra l’Università di Washington e la Città della Scienza e della Tecnologia Re Abdulaziz a Riyadh. La pubblicazione ha un sito del progetto.
Metodo
La struttura dell’agente di creazione del documento utilizzata per il lavoro è una significativa riorganizzazione della collaborazione AI-Scienziato del 2024, con gli autori che sottolineano che l’intera pipeline è stata fondamentalmente ridisegnata. Sono stati conservati solo i prompt di scrittura più basilari, con tutti gli esecutori sperimentali e le strutture template rimosse. Il sistema aggiornato funziona ora da un semplice seed, consentendo al sistema di inventare liberamente qualsiasi risultato sperimentale e generare codice di tracciamento come necessario.
La struttura complessiva è intesa a consentire a un AI di generare pubblicazioni false convincenti senza eseguire esperimenti reali o utilizzare dati genuini. Invece, il sistema crea o altera dati sintetici per supportare rivendicazioni deliberate allucinate.
L’impostazione, spiegano gli autori, evita deliberatamente il coinvolgimento umano, gli attacchi ai prompt o la collusione coordinata tra agenti scrittore e revisore. I revisori AI hanno valutato ogni presentazione in un unico passaggio, senza accesso in eccedenza al documento stesso, e senza la capacità di rieseguire esperimenti, il che riflette condizioni di revisione paritaria reali.
Le “strategie atomiche” utilizzate per generare pubblicazioni false sono tattiche modulari che possono essere applicate da sole o in combinazione (e chiunque che legga frequentemente la letteratura sarà familiare con queste). Le strategie includono l’evidenziare miglioramenti drammatici per far sembrare il metodo un grande avanzamento (TooGoodGains); la scelta di baseline e risultati che favoriscono il nuovo metodo mentre si saltano gli intervalli di confidenza nella tabella principale (BaselineSelect); l’aggiunta di ablazioni pulite, statistiche precise e tabelle ordinate nell’appendice, insieme a promesse di futuro codice o dati (StatTheater); la lucidatura della struttura del documento con terminologia coerente, riferimenti incrociati e formattazione (CoherencePolish); e l’aggiunta di prove formali che appaiono solide ma contengono errori nascosti (ProofGap).
Dati e Test
Per testare il sistema, gli autori hanno sfruttato GPT-5 per generare argomenti di ricerca in aree chiave dell’intelligenza artificiale, utilizzando i domini Intelligenza Artificiale, Apprendimento Automatico, Visione Computazionale, Elaborazione del Linguaggio Naturale, Robotica, Sistemi, e Sicurezza.
Queste categorie sono diventate argomenti di seed per pubblicazioni false, con ciascuna ampliata in quattro diverse versioni, utilizzando le strategie elencate sopra, e progettate per ingannare o impressionare i revisori. Per decidere se un documento sarebbe stato “accettato”, il sistema ha guardato solo al punteggio finale assegnato dal revisore AI.
I documenti falsi sono stati scritti nella loro interezza da GPT-5. Per esaminarli, gli autori hanno utilizzato GPT-4.1; o4-mini; e o3. Tutti sono stati dati lo stesso prompt di revisione, un formato di istruzione fisso progettato per mimare i criteri di punteggio e la struttura utilizzati nella revisione paritaria reale.
Per rendere questi punteggi di revisione significativi, il sistema è stato calibrato utilizzando 200 presentazioni reali dal dataset ICLR 2025 OpenReview (una raccolta pubblica di documenti reali, commenti dei revisori e risultati di accettazione).
Da questo, una soglia di punteggio è stata stabilita per corrispondere al tasso di accettazione reale dell’ICLR del 31,73%, risultando in una soglia di punteggio di 7; e un’altra per riflettere il punteggio al quale un documento avrebbe avuto una probabilità del 50% di essere accettato da revisori umani (calcolato come 6,667).
Gli autori hanno testato l’affidabilità del loro setup simulando recensioni per 5.000 documenti falsi, utilizzando 1-3 revisori AI, ciascuno dei quali avrebbe restituito punteggi casuali tra 1 e 10. I risultati avrebbero indicato che anche con questo setup rumoroso, il sistema era propenso a molti meno errori dei suoi limiti teorici peggiori.
L’uso di tre revisori invece di uno ha portato a una riduzione significativa della variabilità del punteggio, migliorando la stabilità della decisione quasi tre volte – risultati che sono stati utilizzati per giustificare la scelta di tre modelli di revisione e un set di calibrazione di 200 documenti reali.
I due metriche definite per valutare il generatore sono state tasso di accettazione, che misura con quale frequenza i documenti falsi ricevevano punteggi di passaggio; e punteggio medio del revisore, che cattura la valutazione media tra le presentazioni. Entrambi sono stati utilizzati per valutare quanto bene il sistema potesse ingannare i revisori:

L’accettazione (ACPT) mostra la quota di documenti falsi con punteggi superiori a due soglie: una corrispondente al tasso di accettazione dell’ICLR 2025, l’altra a una stima di accettazione umana del 50%. Il tasso di preoccupazione per l’integrità (ICR-m) mostra il tasso di segnalazione per modello di revisore. L’ultima colonna fornisce il tasso dell’ensemble in base al voto di maggioranza.
I documenti falsi hanno visto un’alta accettazione sotto quasi tutte le strategie. La prima tattica da sola ha prodotto il 67% e l’82% alle due soglie, mostrando che i modelli di revisione erano facilmente convinti. La combinazione di tutte le strategie ha ridotto leggermente l’accettazione ma ha raddoppiato la rilevazione, con più della metà delle recensioni che sollevavano preoccupazioni. La prima strategia ha dato il miglior compromesso: forte accettazione e rilevamento moderato, mentre le altre tattiche erano più deboli ma più difficili da rilevare. Il modello di revisione ChatGPT-o3 ha segnalato di più, e GPT-4.1 di meno.

Le distribuzioni dei punteggi sono mostrate per sei strategie di attacco, utilizzando tre modelli di revisione: GPT-4.1 (rosso); o3 (arancione); e o4-mini (blu). Ogni trama mostra con quale frequenza ogni punteggio da quattro a nove è stato assegnato, con la linea rossa tratteggiata che segna la soglia di accettazione di sette.
Nel risultato del secondo test, mostrato sopra, vediamo gli istogrammi dei punteggi per tre modelli attraverso sei impostazioni. Le distribuzioni variano attraverso le impostazioni, ma o4-mini tende ad assegnare punteggi più alti in media, o3 mostra una maggiore dispersione e valori più estremi, mentre GPT-4.1 assegna punteggi più bassi più costantemente.

Conflitto di accettazione-preoccupazione per modello e strategia: la percentuale di casi in cui un modello ha sollevato una preoccupazione di integrità e ha comunque assegnato un punteggio di passaggio. Valori più alti indicano un accoppiamento più debole tra rilevamento della preoccupazione e valutazione finale.
Nella tabella sopra, vediamo che i modelli hanno spesso assegnato punteggi alti anche quando hanno segnalato preoccupazioni di integrità. A questo riguardo, o4-mini è stato il più inconsistente, con conflitto nel 100% dei casi sotto s1, s3 e l’impostazione combinata, e nel 50-80% altrove.
GPT-4.1 è variato dal 0% (s4) al 75% (s3). o3 è stato più stabile, tra il 26% e il 52%. Il conflitto è stato più alto sotto s3, soprattutto per o4-mini; e gli autori notano che i segnali di rilevamento erano legati in modo scarso ai punteggi finali.
Mitigazione
Due metodi sono stati testati che potrebbero aiutare i futuri modelli di rilevamento a superare questi nuovi metodi di attacco. Il primo, Revisione con Rilevamento (ReD), ha aggiunto un passaggio di controllo dell’integrità alle recensioni standard, dove i modelli segnalavano il contenuto generato da AI e citavano prove. Ciò ha aumentato gli avvertimenti di integrità (dal 57% all’86%), ma ha anche aumentato i tassi di accettazione, indicando che gli avvertimenti non sono stati riflessi nei punteggi finali:

La revisione con rilevamento (ReD) aumenta sia i tassi di preoccupazione per l’integrità (ICR) che i tassi di accettazione (ACPT) rispetto alla baseline. Mentre o3 diventa molto più sensibile sotto ReD, GPT-4.1 non segnala alcuna preoccupazione. L’aumento generale dell’accettazione nonostante gli avvertimenti di integrità aggiunti suggerisce un accoppiamento debole tra rilevamento e punteggio.
Il secondo metodo, Rilevamento Solo (DetOnly), ha saltato le recensioni complete e ha chiesto ai modelli di classificare i documenti come reali o falsi. La precisione di rilevamento è stata scarsa in generale, vicina alla casualità, tranne che per leggeri guadagni su o3:

Risultati di rilevamento per ReD e DetOnly, confrontati con una baseline casuale. I guadagni di precisione sulla baseline casuale sono stati minimi, ma ReD è stato più conservativo, mentre DetOnly ha ottenuto una richiamata più alta – ma con molti falsi positivi. Il modello o3 ha mostrato il più forte bias di rilevamento; o4-mini è stato inconsistente; e GPT-4.1 ha rilevato quasi nulla.
Nel complesso, ReD si è rivelato più conservativo, mentre DetOnly ha ottenuto una richiamata più alta, ma anche più falsi positivi.
Il documento conclude:
‘I cicli di pubblicazione solo AI minacciano l’epistemologia scientifica. Se le falsificazioni diventano indistinguibili dal lavoro genuino, la fondazione della conoscenza scientifica rischia di collassare.
‘La strada in avanti richiede una difesa in profondità su多 livelli: tecnici (verifica della provenienza, convalida degli artefatti), procedurali (punteggio consapevole dell’integrità, supervisione umana), comunitari (revisione post-pubblicazione, sistema di whistleblower), e culturali (istruzione sui limiti dell’AI, linee guida etiche).
‘Consideriamo questo lavoro come un sistema di allarme precoce per catalizzare difese robuste prima che questi modi di fallimento si manifestino su larga scala. I nostri risultati dimostrano che gli attuali sistemi non sono pronti per la ricerca solo AI – l’integrità della scienza dipende dal mantenimento di una valutazione umana rigorosa mentre le capacità dell’AI avanzano.’
Conclusione
Una delle più grandi sfide per la rilevazione del testo scritto da AI nel prossimo futuro sembra probabilmente essere la possibile convergenza eventualmente tra la pratica di scrittura standard e gli standard del testo generato da AI (che è definito, per ora, da caratteristiche rivelatrici come parole predominanti e stili grammaticali).
Se il linguaggio comune e il linguaggio dell’AI convergono verso uno standard generico, la logica suggerisce che i futuri metodi di rilevamento basati puramente sull’output saranno ancora più difficili da implementare.
Inoltre, poiché gli LLM diventano più versatili e i loro “segni” meno enfatizzati (sia attraverso approcci architettonici/addestrativi, sia attraverso un miglior filtering a livello di API), diventeranno migliori scrittori; quindi, in misura ancora maggiore, il linguaggio umano e quello dell’AI sembrano destinati a incontrarsi a metà; a fondersi e a diventare generici.
A quel punto, la rilevazione dell’AI per il linguaggio sembra probabilmente raggiungere lo stesso stadio che la generazione di immagini AI e (in misura minore) la generazione di video AI hanno raggiunto: la necessità di sistemi di provenienza secondari come l’iniziativa di autenticità del contenuto guidata da Adobe, o controlli di provenienza basati su blockchain/registro.
Pubblicato per la prima volta mercoledì, 22 ottobre 2025












