Angolo di Anderson

Verso la Scrittura Scientifica Automatizzata

mm

Questa mattina, scorrendo le sezioni di Informatica di Arxiv, come faccio ogni mattina, sono incappato in un articolo recente dell’Università Federale di Ceará in Brasile, che propone un nuovo framework di Elaborazione del Linguaggio Naturale per automatizzare la sintesi e l’estrazione dei dati essenziali da articoli scientifici.

Considerando che questo è più o meno ciò che faccio ogni giorno, l’articolo mi ha fatto venire in mente un commento su un thread di scrittori di Reddit all’inizio di quest’anno – una previsione secondo cui la scrittura scientifica sarà uno dei primi lavori giornalistici a essere preso in carico dall’apprendimento automatico.

Vorrei essere chiaro – credere assolutamente che lo scrittore scientifico automatizzato sta arrivando, e che tutte le sfide che elenco in questo articolo sono o risolvibili ora, o lo saranno in futuro. Dove possibile, fornisco esempi a sostegno di questo. Inoltre, non sto affrontando la questione se gli attuali o futuri scrittori di scienza basati sull’AI saranno in grado di scrivere in modo coerente; sulla base del livello di interesse attuale in questo settore dell’NLP, presumo che questa sfida sarà eventualmente risolta.

Al contrario, sto chiedendo se uno scrittore di scienza basato sull’AI sarà in grado di identificare storie scientifiche rilevanti in accordo con i (molto vari) risultati desiderati degli editori.

Non credo che ciò sia imminente; sulla base della lettura dei titoli e/o del testo di circa 2000 nuovi articoli scientifici sull’apprendimento automatico ogni settimana, ho una visione più cinica sull’estensione in cui le pubblicazioni accademiche possono essere decomposte algoritmicamente, sia per gli scopi dell’indicizzazione accademica che per il giornalismo scientifico. Come al solito, sono le persone che si frappongono.

Requisiti per lo Scrittore Scientifico Automatizzato

Consideriamo la sfida di automatizzare la segnalazione scientifica sull’ultima ricerca accademica. Per essere equi, ci limiteremo principalmente alle categorie di Informatica del molto popolare dominio non a pagamento Arxiv dell’Università di Cornell, che almeno ha una serie di caratteristiche sistematiche e template che possono essere inserite in una pipeline di estrazione dei dati.

Supponiamo anche che il compito a cui ci siamo dedicati, come nel caso del nuovo articolo del Brasile, sia quello di iterare attraverso i titoli, le sintesi, i metadati e (se giustificato) il contenuto del corpo degli articoli scientifici nuovi in cerca di costanti, parametri affidabili, token e informazioni di dominio azionabili e riducibili.

Questo è, dopotutto, il principio su cui si basano i nuovi framework di grande successo nuovi framework che stanno guadagnando terreno nelle aree di rapporti sui terremoti, scrittura sportiva, giornalismo finanziario e copertura sanitaria, e un ragionevole punto di partenza per il giornalista scientifico basato sull’AI.

Il flusso di lavoro della nuova offerta brasiliana. Il documento scientifico in PDF viene convertito in testo plain UTF-8 (anche se ciò rimuoverà le enfasi in corsivo che possono avere un significato semantico), e le sezioni dell'articolo vengono etichettate ed estratte prima di essere passate attraverso il filtro del testo. Il testo destrutturato viene suddiviso in frasi come frame di dati, e i frame di dati vengono fusi prima dell'identificazione del token e della generazione di due matrici di token di documento Fonte: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Il flusso di lavoro della nuova offerta brasiliana. Il documento scientifico in PDF viene convertito in testo plain UTF-8 (anche se ciò rimuoverà le enfasi in corsivo che possono avere un significato semantico), e le sezioni dell’articolo vengono etichettate ed estratte prima di essere passate attraverso il filtro del testo. Il testo destrutturato viene suddiviso in frasi come frame di dati, e i frame di dati vengono fusi prima dell’identificazione del token e della generazione di due matrici di token di documento Fonte: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Complicare il Template

Un livello di conformità e regolarizzazione incoraggiante è che Arxiv impone un template abbastanza ben definito per le presentazioni, e fornisce linee guida dettagliate per gli autori che presentano. Pertanto, gli articoli di solito si conformano alle parti del protocollo che si applicano al lavoro descritto.

Così il sistema di pre-elaborazione dell’AI per lo scrittore scientifico automatizzato può generalmente trattare tali sezioni come sottodomini: riassunto, introduzione, lavoro correlato/precedente, metodologia/dati, risultati/trovate, studi di ablazione, discussione, conclusione.

Tuttavia, nella pratica, alcune di queste sezioni possono mancare, essere state rinominate o contenere contenuti che, strettamente parlando, appartengono a una sezione diversa. Inoltre, gli autori includeranno naturalmente intestazioni e sottointestazioni che non si conformano al template. Pertanto, spetterà all’NLP/NLU identificare il contenuto pertinente della sezione dal contesto.

Destreggiarsi con le Difficoltà

Una gerarchia di intestazioni è un modo semplice per i sistemi NLP per inizialmente categorizzare blocchi di contenuto. Molti degli articoli di Arxiv sono esportati da Microsoft Word (come si evince nei PDF di Arxiv mal gestiti che lasciano ‘Microsoft Word’ nell’intestazione del titolo – vedi immagine in basso). Se si utilizzano intestazioni di sezione appropriate in Word, un’esportazione in PDF li ricreerà come intestazioni gerarchiche utili ai processi di estrazione dei dati di una macchina reporter.

Tuttavia, ciò presume che gli autori stiano effettivamente utilizzando tali funzionalità in Word, o altri framework di creazione di documenti, come TeX e derivati (raramente forniti come formati alternativi nativi nelle presentazioni di Arxiv, con la maggior parte delle offerte limitate a PDF e, occasionalmente, al PostScript ancora più opaco).

Basandomi su anni di lettura di articoli di Arxiv, ho notato che la stragrande maggioranza di essi non contiene alcun metadati strutturali interpretabili, con il titolo riportato nel lettore (ad esempio un browser web o un lettore PDF) come il titolo completo (inclusa l’estensione) del documento stesso.

In questo caso, l’interpretazione semantica del documento è limitata e un sistema di scrittura scientifica basato sull’AI dovrà collegare programmaticamente il documento ai suoi metadati associati nel dominio Arxiv. La convenzione Arxiv prevede che i metadati di base siano anche inseriti lateralmente in grandi caratteri grigi nella pagina 1 di un PDF presentato (vedi immagine in basso). Purtroppo – non meno perché questo è l’unico posto affidabile in cui è possibile trovare una data di pubblicazione o un numero di versione – è spesso escluso.

Molti autori non utilizzano alcuno stile o utilizzano solo lo stile H1 (intestazione più alta/titolo), lasciando all’NLU l’estrazione delle intestazioni o dal contesto (probabilmente non così difficile), o analizzando il numero di riferimento che costituisce il titolo nel percorso del documento (ad esempio https://arxiv.org/pdf/2110.00168.pdf) e avvalendosi dei metadati basati su rete (piuttosto che locali) per la presentazione.

Sebbene quest’ultimo non risolva le intestazioni mancanti, stabilirà almeno a quale sezione di Informatica la presentazione si applica e fornirà informazioni sulla data e sulla versione.

Testo Incollato alle Ritornate di Paragrafo

Con PDF e PostScript come formati più comuni disponibili presentati dagli autori, il sistema NLP dovrà avere una routine per dividere le parole di fine riga dalle parole di inizio riga successive che vengono “attaccate” a esse a causa dei metodi di ottimizzazione predefiniti del formato PDF.

La deconcatenazione (e deidratazione) delle parole può essere effettuata in Perl e in molte altre routine ricorsive semplici, sebbene un approccio basato su Python potrebbe essere meno dispendioso in termini di tempo e più adatto a un framework di apprendimento automatico. Adobe, l’originatore del formato PDF, ha anche sviluppato un sistema di conversione abilitato all’AI chiamato Liquid Mode, in grado di “rifluire” il testo fisso in PDF, sebbene il suo lancio al di fuori dello spazio mobile sia stato lento.

Inglese Scadente

L’inglese rimane lo standard scientifico globale per la presentazione di articoli scientifici, anche se ciò è controverso. Pertanto, articoli interessanti e degni di nota possono talvolta contenere standard di inglese deplorevoli, da parte di ricercatori non di lingua inglese. Se l’uso accorto dell’inglese è incluso come metrica di valore quando un sistema di macchina valuta il lavoro, allora non solo le buone storie saranno spesso perse, ma anche l’output pedante e di basso valore sarà valutato più alto solo perché dice molto poco molto bene.

I sistemi NLP che sono inflessibili in questo senso sono probabilmente destinati a sperimentare un ulteriore livello di ostacoli nell’estrazione dei dati, tranne che nelle scienze più rigide e parametrizzate, come la chimica e la fisica teorica, dove i grafici e le tabelle si conformano più uniformemente attraverso le comunità scientifiche globali. Sebbene i documenti di apprendimento automatico presentino frequentemente formule, queste possono non rappresentare il valore definitivo della presentazione in assenza del consenso scientifico completamente stabilito sulla metodologia che le scienze più antiche godono.

Selezione: Determinazione dei Requisiti del Pubblico

Ritorniamo ai molti problemi della decomposizione di articoli scientifici eccentrici in punti di dati discreti. Ora, consideriamo il nostro pubblico e gli obiettivi, poiché questi saranno essenziali per aiutare lo scrittore scientifico basato sull’AI a setacciare migliaia di articoli ogni settimana. Prevedere il successo di potenziali storie di notizie è già un’area attiva nell’apprendimento automatico.

Se, ad esempio, il traffico “scientifico” ad alto volume è l’unico obiettivo in un sito web in cui la scrittura scientifica è solo una parte di un’offerta giornalistica più ampia (come nel caso della sezione scientifica del Daily Mail del Regno Unito), un’AI potrebbe essere richiesta per determinare gli argomenti di maggior traffico in termini di traffico e ottimizzare la propria selezione verso quelli. Questo processo probabilmente darà priorità (relativamente) a “frutta a portata di mano” come robot, drone, deepfake, vulnerabilità di sicurezza e privacy.

In linea con lo stato attuale dell’arte nei sistemi di raccomandazione, questo raccolto ad alto livello probabilmente porterà a problemi di “bolla di filtro” per il nostro scrittore scientifico basato sull’AI, poiché l’algoritmo darà maggiore attenzione a una serie di articoli scientifici più spurii che presentano parole chiave e frasi ad alta frequenza “desiderabili” su questi argomenti (ancora una volta, perché c’è denaro da guadagnare in essi, sia in termini di traffico per i siti di notizie, sia in termini di finanziamenti per i dipartimenti accademici), mentre ignora alcune delle storie più “scrivibili” e meno frequentate che possono essere trovate in molti angoli meno frequentati di Arxiv.

Una Volta e Via!

Il materiale per notizie scientifiche può provenire da posti strani e inaspettati e da settori e argomenti precedentemente infruttuosi. Per confondere ulteriormente il nostro scrittore scientifico basato sull’AI, che sperava di creare un indice produttivo di fonti di notizie “fruttuose”, la fonte di un “successo” insolito (come un server Discord, un dipartimento di ricerca accademica o un’azienda di tecnologia) spesso non produrrà mai più materiale azionabile, mentre continuerà a produrre un flusso di informazioni rumoroso e di scarso valore.

Cosa può dedurre un’architettura di apprendimento automatico iterativo da questo? Che i molti migliaia di fonti di notizie “anomalie” che una volta ha identificato ed escluso sono improvvisamente da priorizzare (anche se farlo creerebbe un rapporto segnale/rumore ingestibile, considerando il grande volume di articoli pubblicati ogni anno)? Che l’argomento stesso è più degno di un livello di attivazione rispetto alla fonte di notizie da cui proviene (il che, nel caso di un argomento popolare, è un’azione ridondante)..?

In modo più utile, il sistema potrebbe imparare che deve spostarsi verso l’alto o verso il basso nella gerarchia della dimensionalità dei dati in cerca di modelli – se ce ne sono – che costituiscono ciò che mio nonno giornalista chiamava ‘un naso per le notizie’, e definiscono la caratteristica degno di nota come una qualità itinerante e astratta che non può essere prevista con precisione in base alla provenienza sola, e che può essere previsto che muti quotidianamente.

Identificazione del Fallimento dell’Ipothesi

A causa della pressione delle quote, i dipartimenti accademici possono talvolta pubblicare lavori in cui l’ipotesi centrale è fallita completamente (o quasi completamente) nel test, anche se i metodi e i risultati del progetto sono comunque degni di un certo interesse per proprio conto.

Tali delusioni sono spesso non segnalate nelle sintesi; nei casi peggiori, le ipotesi smentite sono discernibili solo leggendo i grafici dei risultati. Ciò non solo richiede di inferire una comprensione dettagliata della metodologia dai limitati e selezionati informazioni che l’articolo può fornire, ma richiederebbe anche algoritmi di interpretazione dei grafici abili che possano interpretare in modo significativo tutto, da un grafico a torta a un grafico a dispersione, nel contesto.

Un sistema NLP che si affida alle sintesi ma non può interpretare i grafici e le tabelle potrebbe essere molto entusiasta di un nuovo articolo, alla prima lettura. Purtroppo, esempi precedenti di “fallimento nascosto” in articoli accademici sono (per scopi di formazione) difficili da generalizzare in modelli, poiché questo “crimine accademico” è principalmente uno di omissione o di sottolineatura, ed è quindi elusivo.

In un caso estremo, il nostro scrittore basato sull’AI potrebbe dover individuare e testare dati del repository (ad esempio da GitHub), o analizzare materiali supplementari disponibili, per capire cosa significano i risultati in termini degli obiettivi degli autori. Pertanto, un sistema di apprendimento automatico dovrebbe attraversare le molteplici fonti non mappate e formati coinvolti in questo, rendendo l’automazione dei processi di verifica una sfida architettonica.

Scenari “White Box”

Alcune delle affermazioni più oltraggiose fatte in articoli di sicurezza basati sull’AI si rivelano richiedere livelli straordinari e molto improbabili di accesso al codice sorgente o all’infrastruttura sorgente – “attacchi white box”. Sebbene ciò sia utile per extrapolare precedenti peculiarità sconosciute negli architetture dei sistemi di AI, quasi mai rappresenta una superficie di attacco realisticamente sfruttabile. Pertanto, lo scrittore scientifico basato sull’AI avrà bisogno di un buon rilevatore di “bufale” per decomporre le affermazioni sulla sicurezza in probabilità per un’efficace distribuzione.

Lo scrittore scientifico automatizzato avrà bisogno di una routine NLU capace per isolare le menzioni “white box” in un contesto significativo (ad esempio per distinguere le menzioni dalle implicazioni centrali dell’articolo), e la capacità di dedurre la metodologia “white box” nei casi in cui la frase non appare nell’articolo.

Altri “Gotchas”

Altri luoghi in cui l’impraticabilità e il fallimento dell’ipotesi possono finire molto sepolti sono negli studi di ablazione, che eliminano sistematicamente elementi chiave di una nuova formula o metodo per vedere se i risultati sono negativamente influenzati, o se una “scoperta centrale” è resistente. Nella pratica, gli articoli che includono studi di ablazione sono di solito abbastanza fiduciosi dei propri risultati, sebbene una lettura attenta possa spesso scoprire un “bluff”. Nella ricerca sull’AI, quel bluff si traduce frequentemente in sovrapprendimento, dove un sistema di apprendimento automatico si comporta in modo ammirevole sui dati di ricerca originali, ma non riesce a generalizzare a nuovi dati, o opera sotto altre condizioni non riproducibili.

Un’altra sezione di intestazione utile per l’estrazione sistematica potenziale è Limitazioni. Questa è la prima sezione a cui ogni scrittore scientifico (basato sull’AI o umano) dovrebbe scorrere, poiché può contenere informazioni che annullano l’intera ipotesi dell’articolo, e saltare in avanti può risparmiare ore di lavoro perse (almeno per l’umano). Uno scenario peggiore qui è che un articolo abbia effettivamente una sezione Limitazioni, ma i fatti “compromettenti” sono inclusi altrove nel lavoro, e non qui (o sono sottovalutati qui).

Il prossimo è Lavoro Precedente. Ciò si verifica all’inizio del template Arxiv e rivela spesso che l’articolo attuale rappresenta solo un progresso minore rispetto a un progetto molto più innovativo, di solito degli ultimi 12-18 mesi. A questo punto, lo scrittore basato sull’AI avrà bisogno della capacità di stabilire se il lavoro precedente ha ottenuto trazione; c’è ancora una storia qui? Il lavoro precedente è passato indebitamente inosservato al momento della pubblicazione? O l’articolo nuovo è solo un postscriptum posticcio a un progetto precedente ben coperto?

Valutazione dei Ritocchi e della “Freshness”

Oltre a correggere gli errori in una versione precedente, la versione 2 di un articolo rappresenta spesso poco più di un tentativo degli autori di richiamare l’attenzione che non hanno ricevuto quando la versione 1 è stata pubblicata. Spesso, tuttavia, un articolo merita effettivamente un secondo assaggio, poiché l’attenzione dei media potrebbe essere stata deviata altrove al momento della pubblicazione originale, o il lavoro è stato oscurato da un traffico elevato di presentazioni in periodi di “simposio” e conferenze (come l’autunno e la fine dell’inverno).

Una caratteristica utile in Arxiv per distinguere una riproposta è il tag [AGGIORNATO] allegato ai titoli delle presentazioni. Il sistema di “raccomandazione” interno dello scrittore basato sull’AI dovrà considerare attentamente se [AGGIORNATO] significhi “giocato” o no, specialmente poiché può (presumibilmente) valutare il riscaldato articolo molto più velocemente di un logorato scrittore scientifico. A questo proposito, ha un notevole vantaggio sugli esseri umani, grazie a una convenzione di denominazione che probabilmente durerà, almeno in Arxiv.

Arxiv fornisce anche informazioni nella pagina di riassunto su se l’articolo è stato identificato come avente un “significativo incrocio” di testo con un altro articolo (spesso dello stesso autore), e ciò potrebbe anche essere analizzato in uno stato di “ritocco/duplicato” da un sistema di scrittura basato sull’AI in assenza del tag [AGGIORNATO].

Determinazione della Diffusione

Come la maggior parte dei giornalisti, il nostro scrittore scientifico basato sull’AI proiettato sta cercando notizie non segnalate o sottosegnalate, al fine di aggiungere valore al flusso di contenuti che supporta. Nella maggior parte dei casi, riportare nuovamente i progressi scientifici presentati per la prima volta in grandi piattaforme come TechCrunch, The Verge e EurekaAlert et al è inutile, poiché tali grandi piattaforme supportano i propri contenuti con esaurienti macchine pubblicitarie, garantendo virtualmente la saturazione dei media per l’articolo.

Pertanto, il nostro scrittore basato sull’AI deve determinare se la storia è abbastanza fresca da essere degna di essere perseguita.

Il modo più semplice, in teoria, sarebbe quello di identificare i collegamenti in entrata recenti ai pagine di ricerca principali (riassunto, PDF, sezione di notizie del sito web del dipartimento accademico, ecc.). In generale, i framework che possono fornire informazioni sui collegamenti in entrata aggiornate non sono open source o a basso costo, ma i principali editori potrebbero presumibilmente sostenere la spesa del SaaS come parte di un framework di valutazione della newsworthiness.

Supponendo un tale accesso, il nostro scrittore scientifico basato sull’AI si trova di fronte al problema che un gran numero di testate giornalistiche scientifiche non citano gli articoli di cui scrivono, anche nei casi in cui tali informazioni sono disponibili gratuitamente. Dopo tutto, un’azienda vuole che la segnalazione secondaria si collega a loro, piuttosto che alla fonte. Poiché, in molti casi, hanno effettivamente ottenuto un accesso privilegiato o semiprivilegiato a un articolo di ricerca (vedi Lo Scrittore Scientifico “Social” di seguito), hanno un pretesto disonesto per questo.

Pertanto, il nostro scrittore basato sull’AI dovrà estrarre parole chiave azionabili dall’articolo e eseguire ricerche limitate nel tempo per stabilire dove, se del caso, la storia è già stata segnalata – e quindi valutare se una diffusione precedente può essere ignorata o se la storia è esaurita.

A volte gli articoli forniscono materiale video supplementare su YouTube, dove il “conteggio delle visualizzazioni” può servire come indice di diffusione. Inoltre, il nostro scrittore basato sull’AI può estrarre immagini dall’articolo e eseguire ricerche sistematiche basate su immagini per stabilire se, dove e quando alcune delle immagini sono state ripubblicate.

Uova di Pasqua

A volte un articolo “secco” rivela scoperte che hanno profonde e degne di nota implicazioni, ma che sono sottovalutate (o anche trascurate o sottostimate) dagli autori, e saranno rivelate solo leggendo l’intero articolo e facendo i calcoli.

Nel raro caso, credo, ciò sia perché gli autori sono molto più preoccupati per la ricezione in ambito accademico che per il pubblico in generale, forse perché sentono (non sempre a torto) che i concetti centrali coinvolti semplicemente non possono essere semplificati abbastanza per il consumo generale, nonostante gli sforzi iperbolici dei loro dipartimenti di PR.

Ma più o meno spesso, gli autori possono trascurare o non vedere o non riconoscere le implicazioni del loro lavoro, operando ufficialmente sotto “distacco scientifico”. A volte queste “uova di Pasqua” non sono indicatori positivi per il lavoro, come menzionato sopra, e possono essere cinicamente oscurate in tabelle complesse di scoperte.

Oltre Arxiv

Dovrebbe essere considerato che parametrizzare articoli di informatica in token e entità discrete sarà molto più facile in un dominio come Arxiv, che fornisce una serie di “ganci” consistenti e template da analizzare, e non richiede login per la maggior parte della funzionalità.

Non tutte le pubblicazioni scientifiche sono open source, e rimane da vedere se (da un punto di vista pratico o legale) il nostro scrittore scientifico basato sull’AI possa o debba ricorrere all’elusione dei paywall attraverso Sci-Hub; per utilizzare siti di archiviazione per evitare i paywall; e se sia praticabile costruire architetture di data mining simili per una vasta gamma di altre piattaforme di pubblicazione scientifica, molte delle quali sono strutturalmente resistenti alla sistematica sonde.

Dovrebbe essere inoltre considerato che anche Arxiv ha limiti di velocità che probabilmente rallenteranno le routine di valutazione delle notizie dello scrittore basato sull’AI a una velocità più “umana”.

Lo Scrittore Scientifico “Social” AI

Oltre il regno aperto e accessibile di Arxiv e piattaforme di pubblicazione scientifica “aperte” simili, anche ottenere l’accesso a un nuovo articolo interessante può essere una sfida, che coinvolge la localizzazione di un canale di contatto per un autore e l’avvicinamento per richiedere di leggere il lavoro, e persino per ottenere citazioni (laddove la pressione del tempo non è un fattore predominante – un caso raro per i reporter scientifici umani questi giorni).

Ciò potrebbe comportare l’attraversamento automatizzato di domini scientifici e la creazione di account (è necessario accedere per rivelare l’indirizzo e-mail di un autore di un articolo, anche su Arxiv). La maggior parte delle volte, LinkedIn è il modo più veloce per ottenere una risposta, ma i sistemi di AI sono attualmente proibiti dal contattare i membri.

Per quanto riguarda la ricezione da parte dei ricercatori di sollecitazioni via e-mail da parte di uno scrittore scientifico basato sull’AI – beh, come nel mondo dei giornalisti scientifici “in carne e ossa”, probabilmente dipende dall’influenza dell’azienda. Se un putativo scrittore basato sull’AI da Wired contattasse un autore che è ansioso di diffondere il proprio lavoro, è ragionevole supporre che potrebbe non incontrare una risposta ostile.

Nella maggior parte dei casi, si può immaginare che l’autore spererebbe che questi scambi semiautomatici potrebbero eventualmente far entrare un essere umano nel loop, ma non è al di fuori del regno del possibile che colloqui di follow-up VOIP potrebbero essere facilitati da un’AI, almeno laddove la fattibilità dell’articolo è prevista essere al di sotto di una certa soglia, e laddove la pubblicazione ha abbastanza trazione per attirare la partecipazione umana in una conversazione con un “ricercatore AI”.

Identificazione delle Notizie con l’AI

Molti dei principi e delle sfide delineati qui si applicano al potenziale dell’automazione in altri settori del giornalismo, e, come sempre, identificare una storia potenziale è la sfida centrale. La maggior parte dei giornalisti umani ammetterà che scrivere effettivamente la storia è solo l’ultimo 10% dello sforzo, e che una volta che la tastiera inizia a battere, il lavoro è già fatto.

La grande sfida, quindi, è sviluppare sistemi di AI che possano individuare, indagare e autenticare una storia, sulla base delle molteplici vicissitudini del gioco delle notizie, e attraversare un’ampia gamma di piattaforme che sono già state indurite contro la sonde, umane o altro.

Nel caso della segnalazione scientifica, gli autori di nuovi articoli hanno un’agenda auto-interessata altrettanto profonda quanto qualsiasi altra fonte primaria di una storia di notizie, e decostruire la loro produzione richiederà l’incorporazione di conoscenze precedenti sui motivi sociologici, psicologici ed economici. Pertanto, un putativo scrittore scientifico automatizzato avrà bisogno di più di routine NLP riduttive per stabilire dove si trova la notizia oggi, a meno che il dominio delle notizie non sia particolarmente stratificato, come nel caso di azioni, cifre pandemiche, risultati sportivi, attività sismica e altre fonti di notizie puramente statistiche.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.