Seguici sui social

L'angolo di Anderson

Cosa può dirci l'intelligenza artificiale sui programmi nascosti nelle notizie

mm

Pubblicato il

 on

ChatGPT-4o e Firefly.

I modelli in stile ChatGPT vengono addestrati per rilevare cosa contiene un articolo di notizie veramente riflette su un problema, anche quando tale posizione è celata da virgolette, inquadrature o (a volte in modo disonesto) "neutralità". Suddividendo gli articoli in segmenti come titoli, introduzioni e citazioni, un nuovo sistema impara a individuare i pregiudizi anche nel giornalismo professionale di lungo respiro.

 

La capacità di comprendere il vero punto di vista di uno scrittore o di un oratore – una ricerca nota in letteratura come rilevamento della posizione – affronta uno dei problemi interpretativi più difficili del linguaggio: ricavare l'intento da un contenuto che potrebbe essere progettato per nasconderlo od oscurarlo.

Da Jonathan Swift Una proposta modesta, alle recenti performance di attori politici prendendo in prestito le polemiche dei loro oppositori ideologici, la superficie di una dichiarazione non è più un indicatore affidabile del suo intento; l'ascesa dell'ironia, del trolling, della disinformazione e ambiguità strategica ha reso più difficile che mai individuare esattamente da che parte un testo atterra, o se atterra o meno.

Spesso ciò che non viene detto ha lo stesso peso di ciò che viene affermato e la semplice scelta di trattare un argomento può segnalare la posizione dell'autore.

Ciò rende il compito di rilevamento automatico della posizione insolitamente impegnativo, poiché un sistema di rilevamento efficace deve fare più che contrassegnare frasi isolate come "di supporto" o "oppositive": deve invece scorrere strati di significato, soppesando piccoli indizi rispetto alla forma e alla direzione dell'intero articolo; e questo è più difficile nel giornalismo di lungo formato, dove il tono può cambiare e dove l'opinione può raramente essere espressa in modo diretto.

Agenti per il cambiamento

Per affrontare alcuni di questi problemi, i ricercatori della Corea del Sud hanno sviluppato un nuovo sistema chiamato JOA-ICL (Apprendimento agentico in contesto guidato dal giornalismo) per rilevare la posizione di articoli di notizie lunghi.

L'idea centrale di JOA-ICL è che la posizione a livello di articolo viene dedotta aggregando le previsioni a livello di segmento prodotte da un agente di modello linguistico separato. Fonte: https://arxiv.org/pdf/2507.11049

L'idea fondamentale alla base di JoA-ICL è che la posizione a livello di articolo viene dedotta aggregando le previsioni a livello di segmento prodotte da un agente modello linguistico separato. Fonte: https://arxiv.org/pdf/2507.11049

Invece di giudicare un articolo nel suo complesso, JOA-ICL lo scompone in parti strutturali (titolo, prefazione, citazioni e conclusione) e assegna a ciascuna un modello più piccolo. Queste previsioni locali vengono poi trasmesse a un modello più ampio, che le utilizza per determinare l'orientamento generale dell'articolo.

Il metodo è stato testato su un dataset coreano di nuova compilazione contenente 2,000 articoli di notizie, annotati per la posizione sia a livello di articolo che di segmento. Ogni articolo è stato etichettato con il contributo di un esperto di giornalismo, riflettendo la distribuzione della posizione nella struttura della scrittura giornalistica professionale.

Secondo l'articolo, JOA-ICL supera sia le baseline basate su prompting che quelle ottimizzate, dimostrando una particolare efficacia nell'individuazione di atteggiamenti di supporto (che i modelli con un ambito simile tendono a non rilevare). Il metodo si è dimostrato efficace anche quando applicato a un dataset tedesco in condizioni corrispondenti, a indicare che i suoi principi sono potenzialmente resilienti alle forme linguistiche.

Gli autori affermano:

"Gli esperimenti dimostrano che JOA-ICL supera in prestazioni i metodi di rilevamento della posizione esistenti, evidenziando i vantaggi dell'agenzia a livello di segmento nel catturare la posizione complessiva di articoli di notizie di formato lungo".

nuovo documento è intitolato Apprendimento agentico contestuale guidato dal giornalismo per il rilevamento della posizione delle notiziee proviene da varie facoltà della Soongsil University di Seul e dalla Graduate School of Future Strategy del KAIST.

Metodo

Parte della sfida nel rilevamento della posizione potenziato dall'intelligenza artificiale è di natura logistica e legata alla quantità di segnale che un sistema di apprendimento automatico può trattenere e confrontare contemporaneamente, allo stato attuale della tecnica.

Gli articoli di notizie tendono a evitare dichiarazioni dirette di opinione, basandosi invece su un implicito or assunto posizione, segnalata attraverso le scelte su quali fonti citare, come è strutturata la narrazione e quali dettagli vengono omessi, tra molte altre considerazioni.

Anche quando un articolo assume una posizione chiara, il segnale è spesso sparso nel testo, con segmenti diversi che puntano in direzioni diverse. Poiché i modelli linguistici (LM) hanno ancora difficoltà a finestre di contesto limitate, questo può rendere difficile per i modelli valutare la posizione nel modo in cui lo fanno con contenuti più brevi (come i tweet e altri social media in formato breve), in cui la relazione tra il testo e il target è più esplicita.

Per questo motivo, gli approcci standard spesso risultano insufficienti quando applicati al giornalismo di ampio respiro; un caso in cui l'ambiguità è una caratteristica più che un difetto.

Il documento afferma:

Per affrontare queste sfide, proponiamo un approccio di modellazione gerarchica che prima deduce la posizione a livello di unità discorsive più piccole (ad esempio paragrafi o sezioni) e successivamente integra queste previsioni locali per determinare la posizione complessiva dell'articolo.

"Questo quadro è progettato per mantenere il contesto locale e catturare spunti di posizione dispersi nel valutare in che modo diverse parti di una notizia contribuiscono alla sua posizione complessiva su una questione".

A tal fine, gli autori hanno compilato un nuovo set di dati intitolato K-NEWS-STANCE, tratto dalla copertura mediatica coreana tra giugno 2022 e giugno 2024. Gli articoli sono stati identificati per la prima volta attraverso BigKinds, un servizio di metadati finanziato dal governo e gestito dalla Korea Press Foundation, e i testi completi sono stati recuperati utilizzando l'API dell'aggregatore di notizie Naver. Il set di dati finale comprendeva 2,000 articoli provenienti da 31 testate, che coprivano 47 argomenti di rilevanza nazionale.

Ogni articolo è stato annotato due volte: una volta per la sua posizione generale verso un dato problema, e di nuovo per singoli segmenti; in particolare il titolo, portare, conclusione e citazioni dirette.

L'annotazione è stata guidata dall'esperta di giornalismo Jiyoung Han, anche terza autrice del documento, che ha guidato il processo attraverso l'uso di spunti consolidati dagli studi sui media, come la selezione della fonte, inquadramento lessicalee modelli di citazione. In questo modo sono state ottenute un totale di 19,650 etichette di posizione a livello di segmento.

Per garantire che gli articoli contenessero segnali di opinione significativi, ciascuno è stato prima classificato per genere e solo quelli etichettati come analisi o opinione (dove è più probabile trovare un'inquadratura soggettiva) sono stati utilizzati per l'annotazione della posizione.

Due annotatori qualificati hanno etichettato tutti gli articoli e hanno ricevuto istruzioni di consultare articoli correlati nel caso in cui la posizione non fosse chiara, mentre le divergenze sono state risolte attraverso la discussione e un'ulteriore revisione.

Esempi di voci dal dataset K-NEWS-STANCE, tradotte in inglese. Sono mostrati solo il titolo, l'introduzione e le citazioni; il corpo del testo è omesso. L'evidenziazione indica le etichette di posizione per le citazioni, con il blu per le affermazioni a favore e il rosso per quelle contrarie. Si prega di fare riferimento al PDF della fonte citata per una resa più chiara.

Esempi di voci dal dataset K-NEWS-STANCE, tradotte in inglese. Sono mostrati solo il titolo, l'introduzione e le citazioni; il corpo del testo è omesso. L'evidenziazione indica le etichette di posizione per le citazioni, con il blu per le affermazioni a favore e il rosso per quelle contrarie. Si prega di fare riferimento al PDF della fonte citata per una resa più chiara.

JoA-ICL

Invece di trattare un articolo come un singolo blocco di testo, il sistema proposto dagli autori lo divide in parti strutturali chiave: titolo, introduzione, citazioni e conclusione, assegnando ciascuna di queste a un agente modello linguistico, che etichetta il segmento come di supporto, oppositivo, o neutro.

Queste previsioni locali vengono trasmesse a un secondo agente che decide l'orientamento generale dell'articolo; i due agenti sono coordinati da un controllore che prepara i prompt e raccoglie i risultati.

In questo modo JoA-ICL adatta l'apprendimento in contesto (in cui il modello apprende dagli esempi nel prompt) per adattarlo al modo in cui vengono scritte le notizie professionali, utilizzando prompt basati sui segmenti anziché un singolo input generico.

(Si prega di notare che la maggior parte degli esempi e delle illustrazioni presenti nel documento sono lunghi e difficili da riprodurre in modo leggibile in un articolo online. Invitiamo pertanto il lettore a consultare il PDF originale.)

Dati e test

Nei test, i ricercatori hanno utilizzato macro F1 e accuratezza per valutare le prestazioni, calcolando la media dei risultati su dieci esecuzioni con seed casuali da 42 a 51 e riportando l'errore standard. I dati di allenamento sono stati utilizzati per sintonizzare modelli di base e agenti a livello di segmento, con pochi colpi campioni selezionati tramite ricerca di similarità utilizzando KLUE-RoBERTa-grande.

I test sono stati eseguiti su tre GPU RTX A6000 (ciascuna con 48 GB di VRAM), utilizzando Python 3.9.19, PyTorch 2.5.1, Transformers 4.52.0 e vLLM 0.8.5

GPT-4o-mini, Claude 3 Haiku e Gemelli 2 Flash sono stati utilizzati tramite API, a temperatura di 1.0 e con il numero massimo di token impostato a 1000 per spunti di riflessionee 100 per gli altri.

Per una messa a punto completa di Exaone-3.5-2.4B, l' Adam W l'ottimizzatore è stato utilizzato a 5e-5 tasso di apprendimento, con decadimento del peso pari a 0.01, 100 fasi di riscaldamento, e con i dati addestrati per 10 epoche alla dimensione del lotto di 6.

Per le linee di base, gli autori hanno utilizzato RoBERta, ottimizzato per il rilevamento della posizione a livello di articolo; Incorporamenti della catena di pensiero (CoT), un'accordatura alternativa di RoBERTa per il compito assegnato; LKI-BART, un modello di codificatore-decodificatore che aggiunge conoscenza contestuale da un ampio modello linguistico sollecitandolo sia con il testo di input che con l'etichetta di posizione prevista; e PT-HCL, un metodo che utilizza apprendimento contrastivo per separare le caratteristiche generali da quelle specifiche del problema in questione:

Prestazioni di ciascun modello sul set di test K-NEWS-STANCE per la previsione complessiva della posizione. I risultati sono mostrati come macro F1 e accuratezza, con il punteggio più alto in ciascun gruppo in grassetto.

Prestazioni di ciascun modello sul set di test K-NEWS-STANCE per la previsione complessiva della posizione. I risultati sono mostrati come macro F1 e accuratezza, con il punteggio più alto in ciascun gruppo in grassetto.

JOA-ICL ha ottenuto le migliori prestazioni complessive sia in termini di precisione che di macro F1, un vantaggio evidente in tutti e tre i modelli backbone testati: GPT-4o-mini, Claude 3 Haiku e Gemini 2 Flash.

Il metodo basato sui segmenti ha costantemente superato in prestazioni tutti gli altri approcci, con, osservano gli autori, un notevole vantaggio nell'individuazione di posizioni di supporto, una debolezza comune in modelli simili.

I modelli di base hanno ottenuto risultati complessivamente peggiori. Le varianti RoBERTa e Chain-of-Thought hanno avuto difficoltà con i casi più sfumati, mentre PT-HCL e LKI-BART hanno ottenuto risultati migliori, pur rimanendo inferiori a JOA-ICL nella maggior parte delle categorie. Il risultato singolo più accurato è stato ottenuto da JOA-ICL (Claude), con il 64.8% di macro F1 e il 66.1% di accuratezza.

L'immagine sottostante mostra la frequenza con cui i modelli hanno indovinato o sbagliato ogni etichetta:

Matrici di confusione che confrontano la linea di base e JoA-ICL, che mostrano che entrambi i metodi hanno maggiori difficoltà a rilevare posizioni "di supporto".

Matrici di confusione che confrontano la linea di base e JoA-ICL, che mostrano che entrambi i metodi hanno maggiori difficoltà a rilevare posizioni "di supporto".

JoA-ICL ha ottenuto risultati complessivamente migliori rispetto al modello di riferimento, ottenendo più etichette corrette in ogni categoria. Tuttavia, entrambi i modelli hanno incontrato le maggiori difficoltà con gli articoli di supporto, e il modello di riferimento ne ha classificati erroneamente quasi la metà, spesso scambiandoli per neutrali.

JoA-ICL ha commesso meno errori ma ha mostrato lo stesso schema, rafforzando il fatto che le posizioni "positive" sono più difficili da individuare per i modelli.

Per verificare se JoA-ICL funziona oltre i confini della lingua coreana, gli autori lo hanno eseguito su Formaggio, un set di dati tedesco per il rilevamento della posizione a livello di articolo. Poiché CheeSE non dispone di etichette a livello di segmento, i ricercatori hanno utilizzato supervisione a distanza, in cui a ogni segmento è stata assegnata la stessa etichetta di posizione dell'articolo completo.

Risultati del rilevamento della posizione sul dataset CheeSE in lingua tedesca. JoA-ICL migliora costantemente rispetto al prompt "zero-shot" in tutti e tre gli LLM e supera le prestazioni delle baseline ottimizzate, con Gemini-2.0-flash che offre le prestazioni complessive migliori.

Risultati del rilevamento della posizione sul dataset CheeSE in lingua tedesca. JoA-ICL migliora costantemente rispetto al prompt "zero-shot" in tutti e tre gli LLM e supera le prestazioni delle baseline ottimizzate, con Gemini-2.0-flash che offre le prestazioni complessive migliori.

Anche in queste condizioni "rumorose", JoA-ICL ha superato sia i modelli finemente ottimizzati che il prompting "zero-shot". Dei tre backbone testati, Gemini-2.0-flash ha ottenuto i risultati migliori.

Conclusione

Pochi compiti nell'apprendimento automatico sono più caricati politicamente della previsione di posizione; tuttavia, viene spesso gestita in termini freddi e meccanici, mentre nell'intelligenza artificiale generativa si presta maggiore attenzione a questioni meno complesse, come la creazione di video e immagini, che suscitano titoli molto più forti.

Lo sviluppo più incoraggiante del nuovo lavoro coreano è che offre un contributo significativo all'analisi di lunghezza intera contenuti, piuttosto che tweet e social media in formato ridotto, i cui effetti incendiari vengono dimenticati più rapidamente di un trattato, un saggio o un'altra opera significativa.

Una notevole omissione nel nuovo lavoro e (per quanto ne so) nel corpus di previsione della posizione in generale è la mancanza di considerazione data a collegamenti ipertestuali, che spesso sostituiscono le virgolette come risorse facoltative per i lettori che desiderano approfondire un argomento; tuttavia, deve essere chiaro che la scelta di tali URL è potenzialmente molto soggettiva e persino politica.

Detto questo, più prestigiosa è la pubblicazione, meno probabile che includerà nessun collegamento che indirizzano il lettore lontano dal dominio host; questo, insieme a diversi altri usi e abusi SEO dei collegamenti ipertestuali, li rende più difficili da quantificare rispetto a citazioni esplicite, titoli o altre parti di un articolo che potrebbero cercare, consapevolmente o meno, di influenzare l'opinione del lettore.

 

Prima pubblicazione mercoledì 16 luglio 2025