Connect with us

Unghiul lui Anderson

Poate IA să Dezvolte Un Simț pentru Știri?

mm
AI-generated image (GPT-1.5) featuring a dog journalist in a photorealistic newsroom, who has spotted a lead, and attracted the attention of his co-workers.

IA este tot mai bună la scrierea de articole de știri, dar nu prea bună la identificarea lor.

 

Opinie În cele cinci ani de când am analizat ultima dată capacitatea IA de a găsi o știre fierbinte, peisajul s-a schimbat considerabil, cu niveluri crescute de automatizare bazată pe IA, însoțite de inevitabilele dureri de creștere și controverse.

Recent, un raport WSJ despre un contribuitor prolific, ajutat de IA, de la Fortune a prezentat jurnalistul viitorului ca fiind eliberat de muncile repetitive, cum ar fi transliterarea comunicatelor de presă, lăsându-i spațiu să scrie articole și să facă cercetări, care de obicei numai publicațiile mai mari au buget pentru acestea.

Dar despre ce auzim mult mai puțin este despre capacitatea IA de a descoperi o știre.

Reducerea Zgomotului

În articolul din 2021, m-am concentrat pe scriitorii care acoperă bătălia cercetării, deoarece acolo este unde petrec cea mai mare parte a timpului meu; și poate cel mai mare efect pe care revoluția IA nouă l-a avut asupra acestuia este că a creat o furtună de necontrolat de încărcări de articole de cercetare bazate pe IA, ridicând raportul semnal-zgomot atât de mult, încât acoperirea completă a domeniilor legate de IA de pe Arxiv este acum dincolo de eforturile unei singure persoane.

Sigur, acesta este locul în care IA excelează – la iterarea prin cantități uriașe de date pe care oamenii nu le pot rezolva, pentru a găsi ‘outlieri’ (la care vom ajunge curând) în secunde, care ar fi luat oamenilor zile, dacă ar fi putut face acest lucru deloc.

De ce, atunci, IA este încă atât de slabă la identificarea unei știri fierbinți din miile, chiar zecile de mii, de concurenți zilnici?

IA Înapoi

Acestă proliferare masivă a conținutului generat de IA se întâmplă mult dincolo de sectorul academic pe care l-am discutat anterior. La sfârșitul anului trecut s-a estimat că jumătate din toate scrierile noi de pe web sunt scrise de IA, cu o accelerare și mai mare a acestui trend prezisă a veni. Prin urmare, zgomotul este asurzitor pretutindeni, nu doar în academia.

Deși a existat o anumită progres în identificarea algoritmică a IA a unei ‘știri fierbinți’ în ultimii ani, aceste sisteme tind să se concentreze pe fluxuri de date stratificate și organizate predictibil, ceea ce înseamnă că pot funcționa doar într-un context destul de fragil.

În acest sens, cercetătorul postdoctoral de la Stanford și fost jurnalist al New York Times, Alexander Spangher, a făcut mai multe incursiuni în definirea ‘noutății’ în termeni care pot fi aplicați proceselor de învățare automată și analize statistice; și a produs dovezi de generare automată de lead-uri în corpora cum ar fi depozitele instanțelor, proiectele de legi ale statului și ședințele consiliului municipal, precum și documente publice generale – tipul de ieșire bazat pe schemă pe care scribe-ul prolific AI-puternic de la Fortune o poate transforma în 6-7 articole de știri pe zi:

Căldura distribuțiilor de cuvinte extrase din corpora de documente publice. În acest caz, putem vedea că 'autorizarea' are un scor ridicat, poate pentru că reprezintă decizie, schimbare și noutate. Sursă - https://arxiv.org/pdf/2311.09734

Căldura distribuțiilor de cuvinte extrase din corpora de documente publice. În acest caz, putem vedea că ‘autorizarea’ are un scor ridicat, poate pentru că reprezintă decizie, schimbare și noutate. Sursă

Cu toate acestea, problema abordărilor de acest fel, cum ar fi oferta condusă de Spangher din 2023 Urmărirea noutății documentelor publice, este că, în mod tipic, se concentrează pe tendințele observate în date. Cu alte cuvinte, ele observă lucrurile care au făcut o știre bună înainte și merg mai departe să caute mai multe din aceleași.

În lumea reală, sursele neașteptate aproape întotdeauna se dovedesc a fi o ‘minune cu un singur hit’; și, pentru cât de obscure au fost, nimeni nu ar fi putut prezice promovarea lor bruscă. Apoi, după ce au fost roditoare o dată și, în ciuda unor încercări ocazionale de a capitaliza la faima sau notorietatea trecătoare, de obicei nu vor produce nimic util din nou.

Semn al Timpurilor

Prin urmare, deoarece monitorizarea acestui tip de sursă de știri ‘o dată și gata’ va adăuga doar mai mult zgomot la furtuna generală, nu ar putea IA să identifice indicatorii unei surse care va deveni roditoare într-o zi? Dacă ar putea afla ce tip de sursă ar putea produce în cele din urmă știri, s-ar putea concentra asupra caracteristicilor sale, mai degrabă decât asupra contextului sau metodelor sale.

Prin această logică, s-ar putea deduce din revelațiile lui Edward Snowden din anii 2010 că oricine a părăsit recent angajarea CIA (sau o organizație similară) ar fi demn de urmărit ca o potențială sursă de știri viitoare.

Cu toate acestea, nu există fluxuri RSS sau API-uri care ar putea să automatizeze acest tip de monitorizare continuă, deoarece LinkedIn și multe alte surse de date deschise sunt retrase în fața bot-urilor de antrenament AI rapace și încălcătoare de lege. Chiar dacă ar exista, frecvența ar fi o problemă, deoarece nu puteți sonda un API sau un site la fiecare cinci secunde; în afara costului resurselor, răspunsurile de interzicere a IP-urilor de la platforme ar face această activitate neviabilă.

Mai mult, există în mod evident o ‘dimensiune umană’ a unor astfel de dezvăluiri care este greu de automatizat.

Strângerea de știri cu atingere personală: captură de pe o lansare pe disc a filmului din 1976 'All The President's Men', cu informatorul ieșind din umbră. Sursă - https://blueprintreview.co.uk/2016/11/all-the-presidents-men/

Strângerea de știri cu atingere personală: captură de pe o lansare pe disc a filmului din 1976 ‘All The President’s Men’, cu informatorul ieșind din umbră. Sursă

De asemenea, în lumea reală, este foarte greu de identificat caracteristicile definitorii ale unei surse de știri viitoare. Probabil că nu este ‘oameni care au părăsit recent CIA’; și cu siguranță nu este definită de un protocol: platformele precum X sau GitHub produc prea mult semnal în ele însele, și chiar îngustarea la termeni de căutare sau categorii de postări nu face mare diferență – doar dacă sunteți implicat în problema respectivă și sunteți angajat în comunitate (sau depozit, etc.) sunteți cu adevărat probabil să recunoașteți semnificația unei dezvoltări.

Chiar și un termen cum ar fi ‘alertă de securitate’ nu poate contextualiza adevărata gravitate sau noutatea unui incident, deoarece referințe de acest fel sunt aruncate zilnic, de mii, în astfel de comunități – și totuși nu au nicio valoare de știri; și chiar dacă se restricționează această monitorizare la limba engleză, variațiile de idiom, împreună cu utilizarea limbajului ocolit, ar face foarte greu de a analiza un post ‘în sălbăticie’ într-un adevărat alert de știri.

Calea Îngustă

Sistemul actual de detectare a noutății bazat pe IA depinde de structuri de date formalizate (cum ar fi ieșirile JSON de la un API), sau de structuri de date informale pe care algoritmii dezvoltați de IA au o șansă de a le analiza într-un schema structurată (cum ar fi comunicatele de presă de la o anumită organizație):

Un flux RSS/XML parsat, care revelează ierarhia rigidă a containerelor de date. Sursă - https://www.xml.com/articles/2023/03/06/visualising-xml-schemas/

Un flux RSS/XML parsat, care revelează ierarhia rigidă a containerelor de date. Sursă

În mod evident, abordările de acest fel sunt bine adaptate pentru ieșirile programatice, cum ar fi munca monotonă pe care jurnalistul WSJ menționat anterior o declară IA a eliberat-o, inclusiv raportarea vremii, a acțiunilor și a rezultatelor sportive, precum și a comunicatelor de presă obișnuite de la organizațiile guvernamentale municipale și alte organizații guvernamentale.

Deși este posibil să se atașeze declanșatoare de alertă umană la fluxuri statistice, cum ar fi vremea (furtuni bruște), acțiunile (prăbușiri bruște) și sporturile (victorii/înfrângeri neașteptate, cu o pregătire prealabilă), din nou, atenția umană ar fi încă necesară chiar și pentru comunicatele de presă guvernamentale stratificate, pentru a evalua noutatea.

Deși termeni precum ‘moarte’, ‘boală neașteptată’, ‘scurgere’ și ‘accident’ pot ajuta la identificarea evenimentelor demne de știri, acestea abordează doar ‘evenimentele obișnuite’ și nu pot ține cont de limbajul alternativ (sau limbi).

Revenirea Scriitorilor de Elită?

În ultimii ani, jurnalismul bazat pe date a devenit o placă ascendentă în raportarea știrilor, cu departamentele editoriale care nu mai sunt limitate la înțelegeri speciale ‘scoop’ care le acordă lansări anticipate de rapoarte și lucrări albe de la editori importanți; în schimb, pot procesa ei înșiși numerele.

Cu toate acestea, acesta nu este un prânz gratuit; pe măsură ce valoarea evidentă a analizei datelor publice cu IA în acest fel a crescut, a urmat o reacție de blocare a IA / de căutare a chiriei – sau chiar a anticipat-o – cererea, împingând jucătorii mari de date foarte flamanzi în tactici furtive.

Fricția suplimentară a Noii Retrageri restabilește, în mod evident, o anumită putere de la ‘jurnaliștii cetățeni’ înapoi la mass-media moștenită – sau, cel puțin, organizații de știri bine finanțate care au banda pentru a absorbi munca manuală suplimentară necesară pentru strângerea, rafinarea și evaluarea datelor, într-o eră în care editorii și domeniile restricționează din ce în ce mai mult accesul ocazional.

Așadar, într-un fel, poate că manifestarea practică a IA în jurnalism, în ceea ce privește modul în care jucătorii importanți și piețele au răspuns la inovația și adoptarea bazată pe IA, ne poate duce, de fapt, înapoi în timp: demonetizând mijloacele de producție a știrilor și adăugând obstacole în calea sistemelor de evaluare a noutății bazate pe date.

Instincte Comune

Aceste constrângeri ne duc înapoi la ‘simțul intestinal’ ca o componentă inevitabilă în evaluarea noutății unei știri.

În mod natural, acest lucru este liniștitor pentru cei care sunt implicați profesional în acest aspect; dar autocomplacerea ar fi o greșeală, deoarece acest instinct poate, până la un anumit punct, să fie distilat și operaționalizat într-un mod foarte general care nu depinde de studierea obsesiilor sau hobby-urilor vreunei persoane sau organizații: într-un studiu din 2022, cercetătorii de la Universitatea Northwestern au folosit evaluări de crowd-sourcing ale unor știri potențial demne de știri pentru a antrena un model predictiv, preocupat în special de noutatea articolelor de cercetare publicate recent pe Arxiv:

Întrebări de sondaj adresate participanților la studiu pentru a obține date de antrenament pentru un model de 'predictivitate a noutății' IA. Sursă - https://nishalsach.github.io/pdfs/2022-newsworthiness.pdf

Întrebări de sondaj adresate participanților la studiu pentru a obține date de antrenament pentru un model de ‘predictivitate a noutății’ IA. Sursă

Sistemul clasifică candidații destul de bine, cu aproximativ 80% din primele sale zece alegeri considerate și demne de știri de către experți. Cu toate acestea, acordul cu experții s-a dovedit a fi doar moderat, cu rezultate care lipsesc factori precum cadrarea sau potrivirea pentru public.

Sistemul se bazează pe principiile prezentate în articolul din 2020 Descoperirea calculată a știrilor: Înspre considerații de proiectare pentru algoritmi de orientare editorială în jurnalism. La fel ca și în cele mai multe proiecte similare, această lucrare abordează jurnalismul științific, mai degrabă decât strângerea de știri abstracte – poate pentru că literatura științifică tinde spre ieșiri modelate care ar putea fi parselate în puncte de date antrenabile și interpretabile.

Ei bine, așa cum am observat înapoi în 2021, acesta ar fi cazul, cu excepția faptului că oamenii de știință abuzează adesea convențiile depunerii articolelor de cercetare pentru a ascunde sau a minimaliza rezultatele neimpresionante sau chiar eșecul.

Chiar și mai mult o provocare este dificultatea mare pe care sistemele IA o au în interpretarea figurilor și tabelelor din articolele științifice, până la punctul în care această urmărire a devenit recent un fir activ în literatură:

Din articolul 'SciFigDetect: Un benchmark pentru detectarea figurilor științifice generate de IA', care prezintă figuri științifice reale, promt-urile lor de generare și contrapartidele sintetice produse de Nano Banana și GPT în trei categorii: ilustrație, prezentare generală și figuri experimentale. Sursă - https://arxiv.org/pdf/2604.08211v1

Din articolul ‘SciFigDetect: Un benchmark pentru detectarea figurilor științifice generate de IA’, care prezintă figuri științifice reale, promt-urile lor de generare și contrapartidele sintetice produse de Nano Banana și GPT în trei categorii: ilustrație, prezentare generală și figuri experimentale. Sursă

Acesta este un obstacol în jurnalismul științific bazat pe IA, care nu este minor.

Singur Din Nou

Metoda de crowd-sourcing menționată anterior sugerează un anumit acord între consimțământul comun asupra potențialelor știri și evaluarea profesională a acestora. Dar fără context, doar cele mai largi linii ale noutății pot aparent fi determinate.

Forța IA constă în capacitatea sa, în funcție de configurare, de a izola outlieri – fie pentru a le elimina ca excepții de la tendințele dintr-un set de date, fie (mai relevant pentru strângerea de știri) pentru a identifica instanțe și evenimente neobișnuite și valoroase:

Outlieri (în roșu) într-un grafic de dispersie. Sursă - https://stackoverflow.com/questions/73079324/python-removing-outliers-from-plotly-scatter-plot

Outlieri (în roșu) într-un grafic de dispersie. Sursă

Pe principiul că fulgerul rar lovește de două ori, aproape toate știrile de impact sunt outlieri. În cazurile în care provin dintr-un domeniu activ și volatil, cum ar fi un război în desfășurare, acel domeniu poate fi scanat cu o probabilitate ridicată de știri demne de știri – dar la costul unei confruntări masive, deoarece atenția comună este, de asemenea, probabil concentrată asupra domeniului.

Multe știri științifice demne de știri, prin definiție, nu sunt în centrul distribuției limbajului. Sunt combinații rare de metode, rezultate negative surprinzătoare sau repliții anormale. Dacă competența modelului se degradează disproporționat pe astfel de grupări de joasă frecvență, atunci regiunea în care un ‘nas’ editorial are nevoie de a fi ascuțit devine regiunea în care modelul este cel mai puțin fiabil.

Probleme de Încredere

În căutarea de noi știri, jurnaliștii echilibrează multiple constrângeri, inclusiv timp, acces, credibilitate, public și priorități organizaționale), ceea ce duce la alegeri neevidente. O revizuire a literaturii din 2022 din Danemarca a caracterizat jurnaliștii ca echilibrând multiple preocupări, fiind conștienți că sursele pot avea agende sau pot fi înșelate; și adesea ocolesc verificarea directă în favoarea semnalelor de încredere indirecte atunci când operează sub presiune.

Aceste ‘probleme de încredere’ ar fi o piedică în dezvoltarea oricărui sistem definitiv de identificare a noutății bazat pe IA, deoarece implicarea unui astfel de sistem necesită ca utilizatorul să aibă încredere că orice articol eliminat de algoritm nu este demn de timpul scriitorului.

Testarea extinsă beta și reantrenarea sau reglarea fină, cu supraveghere umană care să ia în considerare străinii și rămășițele, ar putea, în cele din urmă, să îmbunătățească fiabilitatea unei astfel de abordări; dar o schimbare în cultura națională sau globală – cum ar fi schimbări surprinzătoare în peisajul politic sau izbucnirea războiului – ar putea, în mod inevitabil, să răstoarne toate prioritățile de bază ale unui astfel de sistem fin reglat, lăsând scriitorul dependent de IA să-și reconstruiască ‘modelul intern de domeniu’ aproape de la zero.

 

Publicat pentru prima dată luni, 20 aprilie 2026

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.