Connect with us

Angolo di Anderson

Può l’AI Sviluppare un Naso per le Notizie?

mm
AI-generated image (GPT-1.5) featuring a dog journalist in a photorealistic newsroom, who has spotted a lead, and attracted the attention of his co-workers.

L’AI sta migliorando nella scrittura di storie di notizie, ma non sta migliorando molto nell’identificare loro.

 

Opinione Nel corso dei cinque anni da quando ho dato un’occhiata alla capacità dell’AI di trovare una storia di notizie calde, il panorama è cambiato notevolmente, con livelli aumentati di automazione guidata da AI accompagnati dai inevitabili dolori di crescita e controversie.

Recentemente, un rapporto del WSJ su un contributore prolifico di Fortune aiutato dall’AI ha presentato il giornalista del futuro come emancipato da lavori di routine come la trascrizione di comunicati stampa, lasciandogli lo spazio per scrivere i servizi e fare le ricerche che solo le pubblicazioni più grandi di solito hanno il budget per fare.

Ma cosa sentiamo parlare molto meno spesso è la capacità dell’AI di individuare una storia di notizie.

Riduzione del Rumore

Nel pezzo del 2021, mi sono concentrato sugli scrittori che coprono il settore della ricerca, poiché è lì che passo la maggior parte del mio tempo; e forse l’effetto più grande che la nuova rivoluzione dell’AI ha avuto su di esso è che ha creato un tempesta di sabbia di presentazioni di articoli di ricerca alimentati dall’AI, aumentando il rapporto segnale/rumore così in alto che anche coprire in modo esaustivo i domini dell’AI di Arxiv è ora al di là degli sforzi di una sola persona.

Sicuramente questo è dove l’AI eccelle – nell’iterare attraverso vasti tratti di dati che gli esseri umani non possono risolvere, per trovare ‘outlier’ (che affronteremo tra poco) in pochi secondi che avrebbero richiesto ai persone giorni, se avessero potuto farlo affatto.

Perché, allora, l’AI è ancora così scarsa nell’identificare una storia di notizie calde tra le migliaia, anche le decine di migliaia, di concorrenti quotidiani?

AI Rivolto al Passato

Questa massiccia proliferazione di contenuti generati dall’AI sta avvenendo ben al di là del settore accademico che ho discusso in precedenza. Alla fine dell’anno scorso è stato stimato che la metà di tutti i nuovi scritti sul web è ora ‘scritta da AI’, con un’accelerazione ancora maggiore di questa tendenza presumibilmente in arrivo. Pertanto, il rumore è assordante ovunque, non solo nell’ambito accademico.

Sebbene ci sia stato qualche progresso nell’identificazione algoritmica dell’AI di una ‘storia calda’ negli ultimi anni, questi sistemi tendono a concentrarsi su flussi di dati stratificati e organizzati in modo prevedibile, il che significa che possono operare solo in un contesto abbastanza fragile.

A questo proposito, il ricercatore post-dottorato di Stanford e ex giornalista del New York Times Alexander Spangher ha fatto diverse incursioni nel definire ‘newsworthiness’ in termini che possono essere applicati ai processi di apprendimento automatico e analisi statistica; e ha prodotto prove di generazione automatizzata di lead in corpora come atti di tribunale, progetti di legge statali e riunioni del consiglio comunale, nonché documenti pubblici generici – il tipo di output basato su schema che lo scrittore prolifico di Fortune alimentato dall’AI può trasformare in 6-7 pezzi di notizie al giorno:

Il 'calore' delle distribuzioni di parole tratte da corpora di documenti pubblici. In questo caso, possiamo vedere che 'authorizing' ha un punteggio alto, forse perché rappresenta decisione, cambiamento e novità. Fonte - https://arxiv.org/pdf/2311.09734

Il ‘calore’ delle distribuzioni di parole tratte da corpora di documenti pubblici. In questo caso, possiamo vedere che ‘authorizing’ ha un punteggio alto, forse perché rappresenta decisione, cambiamento e novità. Fonte

Tuttavia, il problema con approcci come l’offerta del 2023 di Spangher Tracking the Newsworthiness of Public Documents, è che, in tipico stile AI, si concentrano su tendenze osservate nei dati. In altre parole, osservano le cose che hanno fatto buone notizie in precedenza e vanno avanti a cercare altro dello stesso.

Nel mondo reale, le fonti inaspettate si rivelano quasi sempre un ‘one hit wonder’; e per quanto fossero oscure, nessuno avrebbe potuto prevedere la loro improvvisa prominenza. Poi, dopo essere state fruttuose una volta, e nonostante occasionali tentativi di capitalizzare la fama o notorietà effimera, di solito non produrranno mai nulla di utile di nuovo.

Segno dei Tempi

Pertanto, poiché monitorare questo tipo di fonte di notizie ‘one-and-done’ sarà probabilmente solo aggiungere altro rumore alla tempesta generale, l’AI non potrebbe invece identificare i segnaletici di una fonte che un giorno diventerà fruttuosa? Se si potesse scoprire che tipo di fonte potrebbe eventualmente produrre notizie, si potrebbe concentrare sulle sue caratteristiche piuttosto che sul suo contesto o sui suoi metodi.

Seguendo questa logica, si potrebbe dedurre dalle rivelazioni di Edward Snowden degli anni 2010 che chiunque abbia recentemente lasciato il servizio della CIA (o un’organizzazione simile) varrebbe la pena seguirlo come potenziale fonte di una futura soffiata.

Tuttavia, non ci sono feed RSS o API che siano probabilmente in grado di automatizzare questo tipo di monitoraggio continuo, poiché LinkedIn e molte altre fonti di dati un tempo aperte stanno ritirandosi di fronte a web-scrapers di AI rapaci e scofflaw. Anche se ci fossero, la frequenza sarebbe un problema, perché non si può interrogare un’API o un sito ogni cinque secondi; a parte il costo delle risorse, le risposte di blocco IP dalle piattaforme renderebbero questa un’attività insostenibile.

Inoltre, c’è chiaramente una ‘dimensione umana’ in tali rivelazioni che è difficile da automatizzare.

Raccolta di notizie con il tocco personale: cattura da un rilascio su disco del film del 1976 di Alan Pakula 'All The President's Men', con l'informatore che esce dall'ombra. Fonte - https://blueprintreview.co.uk/2016/11/all-the-presidents-men/

Raccolta di notizie con il tocco personale: cattura da un rilascio su disco del film del 1976 di Alan J. Pakula ‘All The President’s Men’, con l’informatore che esce dall’ombra. Fonte

Inoltre, nel mondo reale, è terribilmente difficile identificare le caratteristiche distintive di una futura fonte di notizie. Probabilmente non sono ‘persone che hanno lasciato la CIA di recente’, e certamente non sono definite da un protocollo: piattaforme come X o GitHub producono troppo segnale in se stesse, e anche restringendo a termini di ricerca o categorie di post non fa molta differenza – solo se si è coinvolti nel problema e si è impegnati con la comunità (o repo, ecc.) si è veramente probabile che si riconosca il significato di uno sviluppo.

Anche un termine come ‘allarme di sicurezza’ non può contestualizzare la vera gravità o newsworthiness di un incidente, poiché riferimenti di quel tipo vengono gettati in giro quotidianamente, a migliaia, in tali comunità – eppure non hanno alcun valore di notizie ampio; e anche se si restringe questo tipo di monitoraggio alla lingua inglese da sola, le variazioni potenziali nell’idioma, insieme all’uso di linguaggio obliquo, renderebbero molto difficile analizzare un post ‘in natura’ in un vero allarme di notizie.

La Strada Stretta

I sistemi di rilevamento di newsworthiness alimentati da AI attuali dipendono da strutture di dati formalizzate (come l’output JSON da un’API), o da strutture di dati informali che gli algoritmi sviluppati dall’AI hanno una possibilità di analizzare in uno schema strutturato (come comunicati stampa da un’organizzazione particolare):

Un feed RSS/XML analizzato, che rivela la rigida gerarchia dei contenitori di dati. Fonte - https://www.xml.com/articles/2023/03/06/visualising-xml-schemas/

Un feed RSS/XML analizzato, che rivela la rigida gerarchia dei contenitori di dati. Fonte

Chiaramente, approcci di questo tipo sono ben adatti per l’output programmatico, come il lavoro monotono che il suddetto reporter del WSJ dichiara che l’AI lo ha liberato da, compresa la segnalazione del tempo, delle azioni e dei punteggi sportivi, nonché le comunicazioni stampa di routine da parte di organizzazioni governative e municipali.

Mentre è possibile attaccare grilletti di ‘allarme umano’ a feed statistici come il tempo (tempeste improvvise), azioni (improvvisi crolli) e sport (vittorie/ sconfitte inaspettate, con un po’ di lavoro di preparazione), di nuovo, l’attenzione umana sarebbe ancora necessaria anche per le comunicazioni governative stratificate, al fine di valutare la newsworthiness.

Sebbene termini come ‘morte’, ‘malattia inaspettata’, ‘perdita’ e ‘incidente’ possano tutti aiutare a individuare eventi degni di nota, possono affrontare solo ‘eventualità di routine’ e non possono tenere conto di linguaggio alternativo (o lingue).

Il Ritorno degli Scrittori d’Élite?

Negli ultimi anni, il giornalismo basato sui dati è diventato un pilastro ascendente nella segnalazione di notizie, con dipartimenti editoriali non più limitati a ‘scoop’ dolci accordi che concedono loro la prima uscita su rapporti speciali e documenti bianchi da parte di importanti editori; invece, possono analizzare i numeri da soli.

Tuttavia, questo non è un pasto gratuito; poiché il valore evidente dell’analisi dei dati pubblici con l’AI in questo modo è cresciuto, una risposta di blocco dell’AI/rent-seeking è seguita – o addirittura ha anticipato – la domanda, spingendo i principali giocatori di AI affamati di dati in tattiche furtive.

L’attrito aggiuntivo della Nuova Ritirata restituisce probabilmente una certa quantità di potere dai ‘giornalisti cittadini’ ai media legacy – o almeno, alle organizzazioni di notizie ben finanziate che hanno la larghezza di banda per assorbire il lavoro manuale extra richiesto nel raccogliere, raffinare e valutare i dati, in un’era in cui gli editori e i domini stanno sempre più restringendo l’accesso casuale.

Quindi, in un certo senso, forse nello spirito del tempo, la manifestazione pratica dell’AI nel giornalismo, in termini di come i principali giocatori e i mercati hanno risposto all’innovazione e all’adozione dell’AI, potrebbe effettivamente riportarci indietro nel tempo: de-democratizzando i mezzi di produzione di notizie e aggiungendo ostacoli ai sistemi di valutazione della newsworthiness basati sui dati.

Instinti Comuni

Queste restrizioni ci portano chiaramente indietro all’istinto ‘di pancia’ come un componente inevitabile nella valutazione della newsworthiness di una storia.

Naturalmente, questo è confortante per coloro che sono impegnati professionalmente in questo aspetto; ma la compiacenza sarebbe un errore, poiché questo istinto può, in una certa misura, essere distillato e operazionalizzato in un modo molto generale che non dipende dallo studio delle ossessioni o dei cavalli di battaglia di un individuo o organizzazione particolare: in uno studio del 2022, i ricercatori dell’Università Northwestern hanno utilizzato valutazioni crowd-sourced di storie potenzialmente degne di nota per addestrare un modello predittivo, specificamente interessato alla newsworthiness di articoli di ricerca pubblicati di recente su Arxiv:

Domande del sondaggio presentate ai partecipanti allo studio per ottenere dati di addestramento per un modello di 'previsione della newsworthiness' AI. Fonte - https://nishalsach.github.io/pdfs/2022-newsworthiness.pdf

Domande del sondaggio presentate ai partecipanti allo studio per ottenere dati di addestramento per un modello di ‘previsione della newsworthiness’ AI. Fonte

Il sistema classifica i candidati abbastanza bene, con circa l’80% delle sue prime dieci scelte giudicate degne di nota anche dagli esperti. Tuttavia, l’accordo con gli esperti si è rivelato solo moderato, con i risultati che mancano di fattori come la cornice o l’adattamento del pubblico.

Il sistema si basa sui principi delineati nel documento del 2020 Computational News Discovery: Towards Design Considerations for Editorial Orientation Algorithms in Journalism. Come per la maggior parte dei progetti simili, questo lavoro affronta il giornalismo scientifico piuttosto che la raccolta di notizie astratte – forse perché la letteratura scientifica tende verso un output templatizzato che potrebbe potenzialmente essere analizzato in punti di dati formattabili e interpretabili.

Ebbene, come ho osservato nel 2021, sarebbe il caso, tranne che i ricercatori scientifici abusano frequentemente delle convenzioni della presentazione degli articoli di ricerca per nascondere o minimizzare risultati non impressionanti, o addirittura fallimenti totali.

Ancor più di una sfida è la grande difficoltà che i sistemi AI hanno nell’interpretare figure e tabelle negli articoli scientifici, al punto che questo inseguimento è diventato di recente un filone attivo nella letteratura:

Dal paper 'SciFigDetect: A Benchmark for AI-Generated Scientific Figure Detection', che mostra figure scientifiche reali, i loro prompt di generazione e controparti sintetiche prodotte da Nano Banana e GPT in tre categorie: illustrazione, panoramica e figure sperimentali. Fonte - https://arxiv.org/pdf/2604.08211v1

Dal paper ‘SciFigDetect: A Benchmark for AI-Generated Scientific Figure Detection’, che mostra figure scientifiche reali, i loro prompt di generazione e controparti sintetiche prodotte da Nano Banana e GPT in tre categorie: illustrazione, panoramica e figure sperimentali. Fonte

È spesso il caso che un grafico o una tabella contengano risultati che il corpo principale dell’articolo riporterà con pregiudizio selettivo, o che altrimenti ignorerà del tutto le conseguenze negative implicite nei risultati del grafico/ tabella. Pertanto, questo ostacolo nel giornalismo scientifico guidato dall’AI non è di poco conto.

Solo di Nuovo, Naturalmente

Il metodo crowd-sourced sopra descritto suggerisce un certo accordo tra il consenso comune sulle potenziali storie di notizie e la valutazione professionale delle stesse. Ma senza contesto, solo i tratti più ampi della newsworthiness possono apparentemente essere determinati.

La forza dell’AI risiede nella sua capacità, a seconda della configurazione, di isolare outlier – o per lo scopo di scartarli come eccezioni curve-blowing e non significative a tendenze in un set di dati, o (più rilevante per la raccolta di notizie) per identificare istanze e accadimenti significativi e preziosi:

Outlier (in rosso) in un grafico a dispersione. Fonte - https://stackoverflow.com/questions/73079324/python-removing-outliers-from-plotly-scatter-plot

Outlier (in rosso) in un grafico a dispersione. Fonte

Sul principio che il fulmine raramente colpisce due volte, quasi tutte le storie di notizie di successo sono outlier. Nei casi in cui provengono da un dominio attivo e volatile, come una guerra in corso, quel dominio può essere scansionato con una alta probabilità di storie di notizie degne di nota che emergono – ma al costo di una forte competizione, poiché l’attenzione comune è probabilmente focalizzata sul dominio.

Molte storie scientifiche degne di nota sono, per definizione, non al centro della distribuzione del linguaggio. Sono combinazioni rare di metodi, risultati negativi sorprendenti o repliche anomale. Se la competenza del modello si deteriora sproporzionatamente su tali raggruppamenti a bassa frequenza, allora l’area in cui un ‘naso’ editoriale deve essere affilato diventa l’area in cui il modello è meno affidabile.

Questioni di Fiducia

Nel cercare nuove storie, i giornalisti bilanciano molteplici vincoli, tra cui tempo, accesso, credibilità, pubblico e priorità organizzative), portando a scelte non ovvie. Un examine della letteratura del 2022 della Danimarca ha caratterizzato i giornalisti come bilanciamento di molteplici preoccupazioni, acutamente consapevoli che le fonti possono avere agende o essere disinformati; e spesso bypassando il controllo diretto in favore di segnali di fiducia indiretti quando operano sotto pressione.

Queste stesse ‘questioni di fiducia’ sarebbero un ostacolo allo sviluppo in qualsiasi sistema di identificazione della newsworthiness guidato dall’AI, poiché l’interazione con tale piattaforma richiede all’utente di fidarsi che qualsiasi articolo scartato dall’algoritmo non sia degno dell’attenzione dello scrittore.

Un’estensiva beta-testing e riaddestramento o affinamento, con la supervisione umana che raccoglie gli stragglers, potrebbe alla fine migliorare l’affidabilità di un tale approccio; ma un cambio di cultura nazionale o globale – come cambiamenti sorprendenti nel panorama politico, o lo scoppio di una guerra – potrebbe inevitabilmente rovesciare tutte le priorità di base di un tale sistema finemente calibrato, lasciando lo scrittore dipendente dall’AI a ricostruire il suo necessario ‘modello di dominio interno’ quasi da zero.

 

Pubblicato per la prima volta lunedì, 20 aprile 2026

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.