Intelligenza artificiale

Verso la scrittura scientifica automatizzata

Published October 10, 2021

Updated April 5, 2026

Martin Anderson

Questa mattina, mentre sfogliavo le sezioni di Informatica di Arxiv, come faccio la maggior parte delle mattine, mi sono imbattuto in un recente articolo dell’Università Federale di Ceara in Brasile, che offre un nuovo framework di Elaborazione del Linguaggio Naturale per automatizzare la sintesi e l’estrazione dei dati chiave da articoli scientifici.

Poiché questo è più o meno ciò che faccio ogni giorno, l’articolo mi ha fatto venire in mente un commento su un thread di scrittori di Reddit all’inizio di quest’anno – una profezia secondo cui la scrittura scientifica sarà tra i primi lavori giornalistici a essere presi in carico dall’apprendimento automatico.

Lasciatemi essere chiaro – credo assolutamente che lo scrittore scientifico automatizzato stia arrivando, e che tutte le sfide che illustro in questo articolo sono o risolvibili adesso, o lo saranno in futuro. Dove possibile, fornisco esempi a sostegno di questo. Inoltre, non sto affrontando la questione se gli attuali o futuri scrittori di scienza basati sull’IA saranno in grado di scrivere in modo coerente; sulla base del livello di interesse attuale in questo settore dell’Elaborazione del Linguaggio Naturale, presumo che questa sfida sarà eventualmente risolta.

Invece, sto chiedendo se uno scrittore di scienza basato sull’IA sarà in grado di identificare storie scientifiche rilevanti in accordo con i (molto vari) risultati desiderati degli editori.

Non credo che sia imminente; sulla base della sfogliatura dei titoli e/o del testo di circa 2000 nuovi articoli scientifici sull’apprendimento automatico ogni settimana, ho un’opinione più cinica sull’estensione in cui le presentazioni accademiche possono essere decomposte algoritmicamente, sia per gli scopi dell’indicizzazione accademica che per la giornalismo scientifico. Come al solito, sono le persone che si frappongono tra noi.

Requisiti per lo scrittore scientifico automatizzato

Consideriamo la sfida di automatizzare la relazione scientifica sugli ultimi risultati di ricerca accademica. Per essere equi, ci limiteremo principalmente alle categorie di Informatica del molto popolare dominio non a pagamento Arxiv dell’Università di Cornell, che ha almeno una serie di caratteristiche sistematiche e template che possono essere inserite in una pipeline di estrazione dei dati.

Supponiamo anche che il compito in questione, come nel caso del nuovo articolo del Brasile, sia quello di iterare attraverso i titoli, le sintesi, i metadati e (se giustificato) il contenuto del corpo di nuovi articoli scientifici alla ricerca di costanti, parametri affidabili, token e informazioni di dominio azionabili e riducibili.

Questo è, dopo tutto, il principio su cui si basano i nuovi framework che stanno guadagnando terreno nelle aree di reporting sui terremoti, scrittura sportiva, giornalismo finanziario e copertura sanitaria, e un ragionevole punto di partenza per lo scrittore di scienza basato sull’IA.

Il flusso di lavoro della nuova offerta brasiliana. Il documento scientifico in PDF viene convertito in testo plain UTF-8 (anche se ciò rimuoverà le enfasi in corsivo che possono avere un significato semantico), e le sezioni dell’articolo vengono etichettate e estratte prima di essere passate attraverso il filtro del testo. Il testo destrutturato viene suddiviso in frasi come data-frame, e i data-frame vengono fusi prima dell’identificazione del token e della generazione di due matrici di token di documento Fonte: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Complicare il template

Un livello di conformità e regolarizzazione incoraggiante è che Arxiv impone un template abbastanza ben definito per le presentazioni, e fornisce linee guida dettagliate per gli autori che presentano. Pertanto, gli articoli di solito si conformano a quelle parti del protocollo che si applicano al lavoro descritto.

Così il sistema di pre-elaborazione dell’IA per lo scrittore scientifico automatizzato può generalmente trattare tali sezioni come sottodomini: riassunto, introduzione, lavoro correlato/precedente, metodologia/dati, risultati/scoperte, studi di ablazione, discussione, conclusione.

Tuttavia, nella pratica, alcune di queste sezioni possono essere mancanti, rinominate o contenere contenuti che, strettamente parlando, appartengono a una sezione diversa. Inoltre, gli autori includeranno naturalmente intestazioni e sottointestazioni che non si conformano al template. Pertanto spetterà all’Elaborazione del Linguaggio Naturale/Comprensione del Linguaggio Naturale identificare il contenuto pertinente della sezione in base al contesto.

Destinato a incontrare problemi

Una gerarchia di intestazioni è un modo facile per i sistemi di Elaborazione del Linguaggio Naturale per categorizzare inizialmente i blocchi di contenuto. Molti degli articoli di Arxiv vengono esportati da Microsoft Word (come evidenziato nei PDF di Arxiv mal gestiti che lasciano ‘Microsoft Word’ nell’intestazione del titolo – vedi immagine sotto). Se si utilizzano le intestazioni di sezione appropriate in Word, un’esportazione in PDF li ricreerà come intestazioni gerarchiche utili ai processi di estrazione dei dati di una macchina reporter.

Tuttavia, ciò presume che gli autori stiano effettivamente utilizzando tali funzionalità in Word, o altri framework di creazione di documenti, come TeX e derivati (raramente forniti come formati nativi alternativi nelle presentazioni di Arxiv, con la maggior parte delle offerte limitate a PDF e, occasionalmente, il più opaco PostScript).

Sulla base di anni di lettura di articoli di Arxiv, ho notato che la stragrande maggioranza di essi non contiene alcun metadati strutturali interpretabili, con il titolo riportato nel lettore (ad esempio un browser web o un lettore PDF) come il titolo completo (inclusa l’estensione) del documento stesso.

In questo caso, l’interpretabilità semantica del documento è limitata, e un sistema di scrittura scientifica basato sull’IA dovrà collegare programmaticamente il documento ai suoi metadati associati nel dominio Arxiv. La convenzione Arxiv impone che i metadati di base vengano inseriti anche lateralmente in grande carattere grigio nella pagina 1 di un PDF presentato (vedi immagine sotto). Purtroppo – non meno perché questo è l’unico posto affidabile in cui è possibile trovare una data di pubblicazione o un numero di versione – spesso viene escluso.

Molti autori utilizzano nessuno stile, o solo lo stile H1 (intestazione/titolo più alto), lasciando all’Elaborazione del Linguaggio Naturale estraere le intestazioni o dal contesto (probabilmente non così difficile), o analizzando il numero di riferimento che costituisce il titolo nel percorso del documento (ad esempio https://arxiv.org/pdf/2110.00168.pdf) e avvalendosi dei metadati basati sulla rete (piuttosto che locali) per la presentazione.

Sebbene quest’ultimo non risolva le intestazioni mancanti, almeno stabilirà a quale sezione di Informatica si applica la presentazione e fornirà informazioni sulla data e sulla versione.

Testo incollato al ritorno del paragrafo

Con PDF e PostScript come formati più comuni disponibili presentati dagli autori, il sistema di Elaborazione del Linguaggio Naturale dovrà avere una routine per dividere le parole alla fine della riga dalle parole all’inizio della riga successiva che vengono ‘attaccate’ a esse a causa dei metodi di ottimizzazione predefiniti del formato PDF.

La deconcatenazione (e deidratazione) delle parole può essere effettuata in Perl e in molte altre routine ricorsive semplici, anche se un approccio basato su Python potrebbe essere meno dispendioso in termini di tempo e più adatto a un framework di apprendimento automatico. Adobe, l’originatore del formato PDF, ha anche sviluppato un sistema di conversione abilitato all’IA chiamato Liquid Mode, in grado di ‘riorganizzare’ il testo fisso in PDF, anche se il suo lancio al di fuori dello spazio mobile si è rivelato lento.

Inglese scadente

L’inglese rimane lo standard scientifico globale per la presentazione di articoli scientifici, anche se ciò è controverso. Pertanto, articoli interessanti e degni di nota possono talvolta contenere standard di inglese scoraggianti, da parte di ricercatori non di lingua inglese. Se l’uso accorto dell’inglese viene incluso come metrica di valore quando un sistema di IA valuta il lavoro, allora non solo le buone storie saranno spesso perse, ma l’output pedante e di basso valore sarà valutato più alto solo perché dice molto poco molto bene.

I sistemi di Elaborazione del Linguaggio Naturale che sono inflessibili in questo senso sono probabilmente destinati a sperimentare un ulteriore livello di ostacoli nell’estrazione dei dati, a meno che non si tratti delle scienze più rigide e parametrizzate, come la chimica e la fisica teorica, dove i grafici e le tabelle si conformano più uniformemente alle comunità scientifiche globali. Sebbene gli articoli di apprendimento automatico presentino frequentemente formule, queste possono non rappresentare il valore definitivo della presentazione in assenza del consenso scientifico pienamente stabilito sulla metodologia che le scienze più antiche godono.

Selezione: determinazione dei requisiti del pubblico

Ritorniamo ai molti problemi della decomposizione di articoli scientifici eccentrici in punti di dati discreti. Ora, consideriamo il nostro pubblico e gli obiettivi, poiché questi saranno essenziali per aiutare lo scrittore scientifico di IA a setacciare migliaia di articoli ogni settimana. Prevedere il successo di potenziali storie di notizie è già un’area attiva nell’apprendimento automatico.

Se, ad esempio, il traffico scientifico ad alto volume è l’unico obiettivo in un sito web in cui la scrittura scientifica è solo una parte di un’offerta giornalistica più ampia (come nel caso della sezione scientifica del Daily Mail del Regno Unito), un’IA potrebbe essere richiesta per determinare gli argomenti di maggiore traffico in termini di traffico e ottimizzare la propria selezione verso quello. Questo processo probabilmente darà priorità a frutti relativamente a portata di mano come robot, drone, deepfake, privacy e vulnerabilità di sicurezza.

In linea con lo stato attuale dell’arte nei sistemi di raccomandazione, questo raccolto ad alto livello probabilmente porterà a problemi di ‘bolla di filtro’ per il nostro scrittore scientifico di IA, poiché l’algoritmo darà maggiore attenzione a una serie di articoli scientifici più spurii che presentano ‘desiderabili’ parole e frasi chiave ad alta frequenza su questi argomenti (ancora una volta, perché c’è denaro da guadagnare, sia in termini di traffico per i siti di notizie, che di finanziamenti per i dipartimenti accademici), mentre ignora alcune delle ‘uova di Pasqua’ (vedi sotto) più facilmente scrivibili che possono essere trovate in molti degli angoli meno frequentati di Arxiv.

Una volta e fatto!

Un buon materiale per notizie scientifiche può provenire da posti strani e inaspettati, e da settori e argomenti precedentemente infruttuosi. Per confondere ulteriormente il nostro scrittore scientifico di IA, che sperava di creare un indice produttivo di fonti di notizie ‘fruttuose’, la fonte di un ‘colpo’ fuori tema (come un server Discord, un dipartimento di ricerca accademica o una startup tecnologica) non produrrà mai più materiale azionabile, mentre continuerà a produrre un flusso di informazioni rumoroso e di minor valore.

Cosa può dedurre un’architettura di apprendimento automatico iterativo da ciò? Che i molti migliaia di fonti di notizie ‘outlier’ che aveva precedentemente identificato ed escluso debbano essere improvvisamente prioritizzati (anche se ciò creerebbe un rapporto segnale/rumore ingestibile, considerando il grande volume di articoli pubblicati ogni anno)? Che l’argomento stesso sia più degno di un livello di attivazione rispetto alla fonte di notizie da cui proviene (il che, nel caso di un argomento popolare, è un’azione ridondante)?

Più utilmente, il sistema potrebbe imparare che deve spostarsi verso l’alto o verso il basso nella gerarchia della dimensionalità dei dati alla ricerca di modelli – se ce ne sono – che costituiscono ciò che mio nonno giornalista chiamava ‘il naso per le notizie’, e definiscono la funzione degno di nota come una qualità itinerante e astratta che non può essere prevista con precisione in base alla provenienza sola, e che può essere attesa a mutare quotidianamente.

Identificazione del fallimento dell’ipotesi

A causa della pressione della quota, i dipartimenti accademici pubblicheranno talvolta lavori in cui l’ipotesi centrale è fallita completamente (o quasi completamente) nel test, anche se il progetto e i risultati sono comunque degni di un certo interesse.

Tali delusioni sono spesso non segnalate nelle sintesi; nei casi peggiori, le ipotesi smentite sono discernibili solo leggendo i grafici dei risultati. Ciò non solo richiede di inferire una comprensione dettagliata della metodologia dai dati di informazione selezionati e limitati che l’articolo può fornire, ma richiederebbe anche algoritmi di interpretazione dei grafici abili che possano interpretare in modo significativo tutto, da una torta a un grafico a dispersione, nel contesto.

Un sistema di Elaborazione del Linguaggio Naturale che si affida alle sintesi ma non può interpretare i grafici e le tabelle potrebbe essere molto entusiasta di un nuovo articolo, alla prima lettura. Purtroppo, gli esempi precedenti di ‘fallimento nascosto’ in articoli accademici sono (per gli scopi di formazione) difficili da generalizzare in modelli, poiché questo ‘crimine accademico’ è principalmente uno di omissione o di sottolineatura, e quindi elusivo.

In un caso estremo, il nostro scrittore di IA potrebbe dover localizzare e testare i dati del repository (ad esempio da GitHub), o analizzare eventuali materiali supplementari, per capire cosa significano i risultati in termini di obiettivi degli autori. Pertanto, un sistema di apprendimento automatico dovrà attraversare le molteplici fonti non mappate e i formati coinvolti in questo, rendendo la automazione dei processi di verifica una sfida architettonica.

Scenari ‘White Box’

Alcune delle affermazioni più oltraggiose fatte in articoli di sicurezza basati sull’IA si rivelano richiedere livelli straordinari e molto improbabili di accesso al codice sorgente o all’infrastruttura sorgente – ‘attacchi white box’. Sebbene ciò sia utile per extrapolare precedenti unknown quirks nelle architetture dei sistemi di IA, quasi mai rappresenta una superficie di attacco realisticamente sfruttabile. Pertanto, lo scrittore scientifico di IA avrà bisogno di un buon rilevatore di bufale per decomporre le affermazioni sulla sicurezza in probabilità per un’efficace distribuzione.

Lo scrittore scientifico automatizzato avrà bisogno di una routine di Elaborazione del Linguaggio Naturale capace per isolare le menzioni di ‘white box’ in un contesto significativo (ad esempio, per distinguere le menzioni dalle implicazioni centrali per l’articolo), e la capacità di dedurre la metodologia white box nei casi in cui la frase non compare nell’articolo.

Altri ‘gotcha’

Altri posti in cui l’infattibilità e il fallimento dell’ipotesi possono finire abbastanza sepolti sono negli studi di ablazione, che eliminano sistematicamente elementi chiave di una nuova formula o metodo per vedere se i risultati sono negativamente influenzati, o se una ‘scoperta centrale’ è resistente. Nella pratica, gli articoli che includono studi di ablazione sono generalmente abbastanza fiduciosi dei loro risultati, anche se una lettura attenta può spesso scoprire un ‘bluff’. Nella ricerca sull’IA, quel bluff si traduce frequentemente in sovrapprendimento, dove un sistema di apprendimento automatico si esegue in modo ammirevole sui dati di ricerca originali, ma non riesce a generalizzare a nuovi dati, o opera sotto altre limitazioni non riproducibili.

Un’altra sezione di intestazione utile per l’estrazione sistematica è Limitazioni. Questa è la prima sezione a cui ogni scrittore scientifico (IA o umano) dovrebbe saltare, poiché può contenere informazioni che annullano l’intera ipotesi dell’articolo, e saltare direttamente a essa può risparmiare ore di lavoro perso (almeno, per l’umano). Un caso peggiore qui è che un articolo abbia effettivamente una sezione Limitazioni, ma i ‘fatti compromettenti’ sono inclusi altrove nel lavoro, e non qui (o sono sottovalutati qui).

Successivo è Lavoro precedente. Ciò si verifica all’inizio del template Arxiv, e rivela spesso che l’articolo attuale rappresenta solo un progresso minore rispetto a un progetto molto più innovativo, di solito degli ultimi 12-18 mesi. A questo punto, lo scrittore di IA avrà bisogno della capacità di stabilire se il lavoro precedente ha ottenuto trazione; c’è ancora una storia qui? Il lavoro precedente è sfuggito indebitamente all’attenzione pubblica al momento della pubblicazione? O l’articolo nuovo è solo un postscriptum posticcio a un progetto precedente ben coperto?

Valutazione di ritocchi e ‘freshness’

Oltre a correggere gli errori in una versione precedente, la versione 2 di un articolo rappresenta spesso poco più che gli autori che chiedono l’attenzione che non hanno ottenuto quando la versione 1 è stata pubblicata. Frequentemente, tuttavia, un articolo merita effettivamente un secondo morso alla ciliegia, poiché l’attenzione dei media potrebbe essere stata deviata altrove al momento della pubblicazione originale, o il lavoro è stato oscurato dal traffico elevato di presentazioni in periodi di ‘simposio’ e conferenze (come l’autunno e la fine dell’inverno).

Una funzione utile in Arxiv per distinguere una ripetizione è il tag [AGGIORNATO] allegato ai titoli delle presentazioni. Il sistema di raccomandazione interno dello scrittore di IA avrà bisogno di considerare attentamente se [AGGIORNATO] == ‘Giocato’ , specialmente poiché può (presumibilmente) valutare l’articolo ri-riscaldato molto più velocemente di un giornalista scientifico sotto pressione, e quindi ha un notevole vantaggio rispetto agli umani, grazie a una convenzione di denominazione che probabilmente durerà, almeno in Arxiv.

Arxiv fornisce anche informazioni nella pagina di riepilogo su是否 un articolo è stato identificato come avente ‘sovrapposizione significativa’ di testo con un altro articolo (spesso degli stessi autori), e ciò può anche potenzialmente essere analizzato in uno stato di ‘duplicato/ritocco’ da un sistema di scrittore di IA in assenza del tag [AGGIORNATO].

Determinazione della diffusione

Come la maggior parte dei giornalisti, il nostro scrittore scientifico di IA proiettato sta cercando notizie non segnalate o sottosegnalate, al fine di aggiungere valore al flusso di contenuti che supporta. Nella maggior parte dei casi, riportare nuovamente le scoperte scientifiche presentate per la prima volta in grandi testate come TechCrunch, The Verge e EurekaAlert et al è inutile, poiché tali grandi piattaforme supportano i propri contenuti con esaurienti macchine pubblicitarie, garantendo virtualmente la saturazione dei media per l’articolo.

Pertanto, il nostro scrittore di IA deve determinare se la storia è abbastanza fresca da essere degna di essere perseguita.

Il modo più semplice, in teoria, sarebbe quello di identificare i collegamenti in entrata recenti alle pagine di ricerca principali (riassunto, PDF, sezione notizie del sito web del dipartimento accademico, ecc.). In generale, i framework che possono fornire informazioni sui collegamenti in entrata aggiornate non sono open source o a basso costo, ma i principali editori potrebbero presumibilmente sostenere la spesa SaaS come parte di un framework di valutazione della newsworthiness.

Supponendo di avere accesso a tali informazioni, il nostro scrittore scientifico di IA si trova di fronte al problema che un gran numero di testate di giornalismo scientifico non citano gli articoli che stanno scrivendo, anche nei casi in cui tale informazione è disponibile gratuitamente. Dopo tutto, una testata vuole che la segnalazione secondaria si collega a loro, piuttosto che alla fonte. Poiché, nella maggior parte dei casi, hanno effettivamente ottenuto l’accesso privilegiato o semi-privilegiato a un articolo di ricerca (vedi Lo scrittore scientifico ‘sociale’ di seguito), hanno un pretesto disonesto per questo.

Pertanto, lo scrittore di IA avrà bisogno di estrarre parole chiave azionabili dall’articolo e eseguire ricerche limitate nel tempo per stabilire dove, se mai, la storia è già stata pubblicata – e poi valutare se la diffusione precedente può essere ignorata, o se la storia è conclusa.

A volte gli articoli forniscono materiale video supplementare su YouTube, dove il ‘conto dei visualizzazioni’ può servire come indice di diffusione. Inoltre, il nostro scrittore di IA può estrarre immagini dall’articolo e eseguire ricerche basate su immagini sistematiche per stabilire se, quando e dove le immagini sono state ripubblicate.

Uova di Pasqua

A volte un articolo ‘asciutto’ rivela scoperte che hanno implicazioni profonde e degne di nota, ma che sono sottovalutate (o anche trascurate o sminuite) dagli autori, e saranno rivelate solo leggendo l’intero articolo e facendo i calcoli.

In casi rari, credo, ciò avviene perché gli autori sono molto più preoccupati per la ricezione in ambito accademico che per il pubblico in generale, forse perché sentono (non sempre scorrettamente) che i concetti centrali coinvolti semplicemente non possono essere semplificati abbastanza per il consumo generale, nonostante gli sforzi spesso iperbolici dei loro dipartimenti di PR.

Ma più o meno altrettanto spesso, gli autori possono sottovalutare o non vedere o non riconoscere le implicazioni del loro lavoro, operando ufficialmente sotto ‘riserva scientifica’. A volte queste ‘uova di Pasqua’ non sono indicatori positivi per il lavoro, come menzionato sopra, e possono essere cinicamente oscurate in tabelle di scoperte complesse.

Oltre Arxiv

Dovrebbe essere considerato che parametrizzare articoli sulla scienza informatica in token e entità discreti sarà molto più facile in un dominio come Arxiv, che fornisce una serie di ‘ganci’ di analisi coerenti e template, e non richiede login per la maggior parte della funzionalità.

Non tutte le pubblicazioni scientifiche sono open source, e rimane da vedere se (da un punto di vista pratico o legale) il nostro scrittore scientifico di IA possa o debba ricorrere all’elusione dei paywall attraverso Sci-Hub; all’uso di siti di archiviazione per aggirare i paywall; e se sia praticabile costruire architetture di mining del dominio simili per una vasta gamma di altre piattaforme di pubblicazione scientifica, molte delle quali sono strutturalmente resistenti alla prospezione sistematica.

Dovrebbe essere inoltre considerato che anche Arxiv ha limiti di velocità che probabilmente rallenteranno le routine di valutazione delle notizie dell’IA writer a un ritmo più ‘umano’.

Lo scrittore scientifico ‘sociale’ di IA

Oltre il regno aperto e accessibile di Arxiv e piattaforme di pubblicazione scientifica ‘aperte’ simili, anche ottenere l’accesso a un nuovo articolo interessante può essere una sfida, che coinvolge la localizzazione di un canale di contatto per un autore e l’avvicinamento per richiedere di leggere il lavoro, e anche per ottenere citazioni (laddove la pressione del tempo non è un fattore determinante – un caso raro per i reporter scientifici umani questi giorni).

Ciò potrebbe richiedere l’attraversamento automatizzato dei domini scientifici e la creazione di account (è necessario accedere per rivelare l’indirizzo e-mail di un autore di un articolo, anche su Arxiv). La maggior parte delle volte, LinkedIn è il modo più veloce per ottenere una risposta, ma i sistemi di IA sono attualmente proibiti dal contattare i membri.

Per quanto riguarda come i ricercatori riceverebbero sollecitazioni via e-mail da uno scrittore scientifico di IA – beh, come nel mondo della scrittura scientifica ‘in carne e ossa’, probabilmente dipende dall’influenza della testata. Se un presunto scrittore basato sull’IA da Wired contattasse un autore che era ansioso di diffondere il proprio lavoro, è ragionevole supporre che potrebbe non incontrare una risposta ostile.

Nella maggior parte dei casi, si può immaginare che l’autore spererebbe che questi scambi semi-automatizzati potrebbero eventualmente convocare un umano nel loop, ma non è oltre il regno delle possibilità che le interviste di follow-up VOIP potrebbero essere facilitate da un’IA, almeno laddove la fattibilità dell’articolo è prevista essere al di sotto di una certa soglia, e laddove la pubblicazione ha abbastanza trazione per attirare la partecipazione umana in una conversazione con un ‘ricercatore’ di IA.

Identificazione di notizie con IA

Molti dei principi e delle sfide delineati qui si applicano al potenziale di automazione in altri settori del giornalismo, e, come sempre, identificare una storia potenziale è la sfida centrale. La maggior parte dei giornalisti umani ammetterà che scrivere effettivamente la storia è solo l’ultimo 10% dello sforzo, e che una volta che la tastiera sta ticchettando, il lavoro è per lo più finito.

La sfida principale, quindi, è sviluppare sistemi di IA che possano individuare, indagare e autenticare una storia, sulla base delle molteplici vicissitudini del gioco delle notizie, e attraversando una vasta gamma di piattaforme che sono già state consolidate contro la prospezione e l’estrazione, umana o altrimenti.

Nel caso del giornalismo scientifico, gli autori di nuovi articoli hanno un’agenda auto-servizievole altrettanto profonda quanto qualsiasi altra fonte primaria di una storia di notizie, e decostruire la loro produzione richiederà l’incorporazione di conoscenze precedenti sui motivi sociologici, psicologici ed economici. Pertanto, uno scrittore scientifico automatizzato avrà bisogno di più di routine di Elaborazione del Linguaggio Naturale riduttive per stabilire dove sono le notizie oggi, a meno che il dominio delle notizie non sia particolarmente stratificato, come nel caso di notizie azionarie, cifre pandemiche, risultati sportivi, attività sismica e altre fonti di notizie puramente statistiche.