Unghiul lui Anderson
Poate Inteligența Artificială să Dezvolte Un Simț Pentru Știri?

Inteligența artificială devine tot mai bună la scrierea de articole de știri, dar nu prea bună la identificarea lor.
Opinie În cele cinci ani de când am analizat ultima dată capacitatea inteligenței artificiale de a găsi o știre fierbinte, peisajul s-a schimbat considerabil, cu niveluri crescute de automatizare condusă de inteligență artificială, însoțite de inevitabilele dureri de creștere și controverse.
Recent, un raport WSJ despre un contributor prolific, ajutat de inteligență artificială, Fortune a prezentat jurnalistul viitorului ca fiind eliberat de muncile de rutină, cum ar fi transliterarea comunicatelor de presă, lăsându-i spațiu să scrie articolele și să facă cercetările pe care doar publicațiile mai mari le pot face.
Dar ce auzim mult mai puțin despre este capacitatea inteligenței artificiale de a depista o știre.
Reducerea Zgomotului
În articolul din 2021, m-am concentrat pe scriitorii care acoperă bătălia cercetării, deoarece acolo este unde petrec cea mai mare parte a timpului meu; și, probabil, cel mai mare efect pe care revoluția inteligenței artificiale a avut-o asupra acesteia este că a creat o furtună de necontrolat de articole de cercetare generate de inteligență artificială, ridicând raportul semnal-zgomot atât de mult încât, chiar și acoperirea domeniilor legate de inteligență artificială de pe Arxiv este acum dincolo de eforturile unei singure persoane.
Sigur, acesta este locul în care inteligența artificială excelează – la iterarea prin cantități uriașe de date pe care oamenii nu le pot rezolva, pentru a găsi ‘outlieri’ (pe care îi vom aborda mai târziu) în secunde, ceea ce ar fi luat oamenilor zile, dacă ar fi putut face acest lucru.
De ce, atunci, inteligența artificială este încă atât de slabă la identificarea unei știri fierbinți din miile, chiar zecile de mii, de concurenți zilnici?
Inteligența Artificială Îndreptată Înapoi
Această proliferare masivă a conținutului generat de inteligență artificială se întâmplă mult dincolo de sectorul academic pe care l-am discutat anterior. La sfârșitul anului trecut, s-a estimat că jumătate din toate scrierile noi de pe web sunt scrise de inteligență artificială, cu o accelerare și mai mare a acestui trend presupusă a veni. Prin urmare, zgomotul este asurzitor pretutindeni, nu doar în academia.
Deși a existat o anumită progres în identificarea algoritmică a unei știri ‘fierbinți’ în ultimii ani, aceste sisteme tind să se concentreze pe fluxuri de date stratificate și organizate predictibil, ceea ce înseamnă că pot opera doar într-un context destul de fragil.
În acest sens, cercetătorul postdoctoral de la Stanford și fost jurnalist al New York Times, Alexander Spangher, a făcut mai multe incursiuni în definirea ‘noutății’ în termeni care pot fi aplicați proceselor de învățare automată și analize statistice; și a produs dovezi ale generării automate de lead-uri în corpora cum ar fi depozitele de instanță, proiectele de legi ale statului și ședințele consiliului municipal, precum și documente publice generale – tipul de ieșire bazat pe schemă pe care scribe-ul prolific al Fortune, ajutat de inteligență artificială, o poate transforma în 6-7 articole de știri pe zi:

Căldura distribuțiilor de cuvinte extrase din corpora de documente publice. În acest caz, putem vedea că ‘autorizarea’ are un scor ridicat, probabil pentru că reprezintă decizie, schimbare și noutate. Sursă
Cu toate acestea, problema abordărilor de acest fel, cum ar fi oferta condusă de Spangher din 2023 Urmarirea noutății documentelor publice, este că, în mod tipic, inteligența artificială se concentrează pe tendințele observate în date. Cu alte cuvinte, ele observă lucrurile care au făcut o știre bună înainte și merg mai departe pentru a găsi mai multe din aceleași.
În lumea reală, sursele neașteptate aproape întotdeauna se dovedesc a fi un ‘minune cu un singur lovitur’; și, pentru cât de obscure au fost, nimeni nu ar fi putut prezice apariția lor bruscă. Apoi, după ce au fost roditoare o dată și, în ciuda unor încercări ocazionale de a capitaliza la faima efemeră sau notorietatea, ele vor de obicei niciodată să nu producă nimic util din nou.
Un Semn al Timpurilor
Prin urmare, deoarece monitorizarea acestui tip de sursă ‘o singură lovitură’ este, de obicei, doar adăugarea mai multor zgomote la furtuna generală, nu ar putea inteligența artificială să identifice indicatorii unei surse care va deveni roditoare? Dacă ar putea afla ce tip de sursă ar putea produce în cele din urmă o știre, ar putea concentra caracteristicile sale, mai degrabă decât contextul sau metodele sale.
Prin această logică, s-ar putea deduce din revelațiile lui Edward Snowden din anii 2010 că oricine a părăsit recent angajarea CIA (sau o organizație similară) ar fi demn de urmărit ca o potențială sursă de știri.
Cu toate acestea, nu există fluxuri RSS sau API-uri care ar putea automatiza acest tip de monitorizare continuă, deoarece LinkedIn și multe alte surse de date deschise se retrag în fața scraper-ilor web rapace și încălcători de inteligență artificială. Chiar dacă ar exista, frecvența ar fi o problemă, deoarece nu poți interoga un API sau un site la fiecare cinci secunde; în afara costului resurselor, răspunsurile de interzicere a IP-urilor de la platforme ar face această activitate nesustenabilă.
În plus, există, în mod evident, o ‘dimensiune umană’ a acestor dezvăluiri care este greu de automatizat.

Strângerea de știri cu atingere personală: captură de pe o lansare pe disc a filmului din 1976 al lui Alan J. Pakula ‘All The President’s Men’, cu informatorul ieșind din umbră. Sursă
De asemenea, în lumea reală, este foarte greu de identificat caracteristicile definitorii ale unei surse de știri viitoare. Probabil că nu este ‘oamenii care au părăsit recent CIA’; și cu siguranță nu este definită de un protocol: platformele precum X sau GitHub produc prea mult semnal în ele însele, iar chiar și îngustarea la termeni de căutare sau categorii de posturi nu face o mare diferență – doar dacă ești implicat în problema respectivă și angajat în comunitate (sau depozit, etc.) ești cu adevărat probabil să recunoști importanța unei dezvoltări.
Chiar și un termen cum ar fi ‘alertă de securitate’ nu poate contextualiza gravitatea reală sau noutatea unui incident, deoarece referințele de acest fel sunt aruncate zilnic, de mii, în astfel de comunități – și, totuși, nu au nicio valoare de știri; și chiar dacă s-ar restrânge această monitorizare la limba engleză, variațiile de idiom, împreună cu utilizarea limbajului ocolit, ar face foarte greu de a interpreta un ‘avertisment de știri’ în sălbăticie.
Calea Îngustă
Actuala generație de sisteme de detectare a noutății bazate pe inteligență artificială depind de structuri de date formalizate (cum ar fi ieșirea JSON de la un API), sau de structuri de date informale pe care algoritmii dezvoltați de inteligență artificială au o șansă de a le analiza într-un schema structurat (cum ar fi comunicatele de presă de la o organizație anume):

Un flux RSS/XML parsat, care revelează ierarhia rigidă a containerelor de date. Sursă
În mod evident, abordările de acest fel sunt bine adaptate pentru ieșirile programatice, cum ar fi munca de rutină pe care reporterul Fortune menționat anterior declară că inteligența artificială i-a eliberat, inclusiv raportarea vremii, a acțiunilor și a rezultatelor sportive, precum și comunicatele de presă de rutină de la organizațiile guvernamentale municipale și alte organizații guvernamentale.
Deși este posibil să se atașeze declanșatoare de alertă umană la fluxuri statistice, cum ar fi vremea (furtuni bruște), acțiuni (prăbușiri bruște) și sport (victorii/înfrângeri neașteptate, cu o pregătire prealabilă), din nou, atenția umană ar fi încă necesară, chiar și pentru ieșirile guvernamentale stratificate, pentru a evalua noutatea.
Deși termeni precum ‘moarte’, ‘boală neașteptată’, ‘scurgere’ și ‘accident’ pot ajuta la identificarea evenimentelor cu știri, aceștia abordează doar evenimentele ‘de rutină’ și nu pot lua în considerare limbajul alternativ (sau limbile).
Revenirea Scriitorilor de Elită?
În ultimii ani, jurnalismul bazat pe date a devenit un element ascendent în raportarea știrilor, cu departamentele editoriale care nu mai sunt limitate la înțelegeri speciale ‘scoop’ care le acordă lansări anticipate de rapoarte și lucrări albe de la editori importanți; în schimb, pot analiza ei înșiși numerele.
Cu toate acestea, acest lucru nu este un prânz gratuit; pe măsură ce valoarea evidentă a analizei datelor publice cu inteligență artificială în acest fel a crescut, o reacție de blocare a inteligenței artificiale / de închiriere a urmat – sau chiar a precedat – cererea, împingând jucătorii importanți de date și inteligență artificială în tactici furtive.
Frictiunea adăugată a Noii Retrageri restabilește, în mod evident, o anumită putere de la ‘jurnaliștii cetățeni’ înapoi la mass-media tradițională – sau, cel puțin, la organizații de știri bine finanțate care au lățimea de bandă pentru a absorbi munca manuală suplimentară necesară pentru strângerea, rafinarea și evaluarea datelor, într-o eră în care editorii și domeniile restricționează tot mai mult accesul casual.
Așadar, într-un fel, poate că manifestarea practică a inteligenței artificiale în jurnalism, în ceea ce privește modul în care jucătorii importanți și piețele au răspuns la inovația și adoptarea bazată pe inteligență artificială, ne-ar putea duce, de fapt, înapoi în timp: democrația mijloacelor de producție a știrilor, și adăugarea de obstacole în calea sistemelor de evaluare a noutății bazate pe date.
Instincte Comune
Aceste constrângeri ne duc, în mod evident, înapoi la ‘simțul nostru’ ca o componentă inevitabilă în evaluarea noutății unei știri.
Natural, acest lucru este liniștitor pentru cei care sunt implicați profesional în acest aspect; dar autocomplacerea ar fi o greșeală, deoarece acest instinct poate, până la un anumit punct, să fie distilat și operaționalizat într-un mod foarte general care nu depinde de studiul obsesiilor sau hobby-urilor unei singure persoane sau organizații: într-un studiu din 2022, cercetătorii de la Northwestern University au folosit evaluări de crowd-sourcing ale știrilor potențial noutăți pentru a antrena un model predictiv, preocupat în special de noutatea articolelor de cercetare nou publicate de pe Arxiv:

Întrebări de sondaj adresate participanților la studiu pentru a obține date de antrenament pentru un model de ‘predicție a noutății’ de inteligență artificială. Sursă
Sistemul clasifică candidații destul de bine, cu aproximativ 80% din primele sale alegeri fiind și evaluate ca fiind noutăți de către experți. Cu toate acestea, acordul cu experții s-a dovedit a fi doar moderat, cu rezultate care au omis factori precum cadrul sau potrivirea cu publicul.
Sistemul se bazează pe principiile prezentate în articolul din 2020 Descoperirea știrilor computaționale: Înspre considerații de proiectare pentru algoritmi de orientare editorială în jurnalism. Ca și în majoritatea proiectelor similare, această lucrare abordează jurnalismul științific, mai degrabă decât strângerea de știri abstracte – probabil pentru că literatura științifică tinde spre ieșiri template care ar putea fi analizate în puncte de date trainabile și interpretabile.
Însă, așa cum am observat în 2021, ar fi acesta cazul, cu excepția faptului că oamenii de știință cercetători abuzează adesea de convențiile depunerii articolelor de cercetare pentru a ascunde sau a minimaliza rezultate neimpresionante, sau chiar eșecuri.
Chiar și mai mult, dificultatea mare cu care sistemele de inteligență artificială interpretează figurile și tabelele din articolele științifice, până la punctul în care această urmărire a devenit recent un fir activ în literatură:

Din articolul ‘SciFigDetect: Un benchmark pentru detectarea figurilor științifice generate de inteligență artificială’, care prezintă figuri științifice reale, promptri de generare și contrapartide sintetice produse de Nano Banana și GPT în trei categorii: ilustrații, prezentări generale și figuri experimentale. Sursă
Adesea, o figură sau o tabelă va conține rezultate care trupul principal al articolului va raporta cu bias selectiv, sau va ignora în mod evident orice consecințe negative implicite în rezultatele figurii/tabelului. Prin urmare, acest obstacol în jurnalismul științific condus de inteligență artificială nu este minor.
Mai mult, faptul că un articol este derivat sau doar o avansare minoră (dacă este) asupra stadiului actual este adesea îngropat într-o citație aproape impenetrabilă (adică, ai nevoie să cauți termenul, să găsești o copie PDF citibilă și să înțelegi amploarea artei anterioare, înainte de a înțelege lipsa de originalitate sau de noutate în noul lucru).
Singur Din Nou, În Mod Natural
Metoda de crowd-sourcing descrisă mai sus sugerează o anumită înțelegere între consimțământul comun asupra știrilor potențiale și evaluarea profesională a acestora. Dar fără context, doar liniile generale ale noutății pot fi, în mod evident, determinate.
Forța inteligenței artificiale constă în capacitatea sa, în funcție de configurare, de a izola outlieri – fie pentru a le elimina ca excepții de la tendințe într-un set de date, fie (mai relevant pentru strângerea de știri) pentru a identifica instanțe și evenimente neobișnuite și valoroase:

Outlieri (în roșu) într-un grafic de dispersie. Sursă
Pe principiul că fulgerul rar lovește de două ori, aproape toate știrile de impact sunt outlieri. În cazurile în care provin dintr-un domeniu activ și volatil, cum ar fi un război în desfășurare, acel domeniu poate fi scanat cu atenție, cu o probabilitate ridicată de a apărea știri – dar la costul unei contenciozități masive, deoarece atenția comună este, de asemenea, probabil concentrată asupra domeniului.
Multe știri științifice cu impact sunt, prin definiție, nu în centrul distribuției limbajului. Sunt combinații rare de metode, rezultate negative surprinzătoare sau replicări anormale. Dacă competența modelului se degradează disproporționat pe astfel de grupări de joasă frecvență, atunci regiunea în care ‘nasul’ editorial trebuie să fie ascuțit devine regiunea în care modelul este cel mai puțin fiabil.
Probleme de Încredere
În căutarea noilor știri, jurnaliștii echilibrează multiple constrângeri, inclusiv timp, acces, credibilitate, public și priorități organizaționale, ceea ce duce la alegeri neevidente. O revizuire a literaturii din 2022 din Danemarca a caracterizat jurnaliștii ca echilibrând multiple preocupări, conștienți că sursele pot avea agende sau pot fi înșelate; și adesea ocolesc verificarea directă în favoarea semnalelor de încredere indirecte atunci când operează sub presiune.
Aceste ‘probleme de încredere’ ar fi un obstacol în dezvoltarea oricărui sistem definitiv de identificare a noutății condus de inteligență artificială, deoarece implicarea cu o astfel de platformă necesită ca utilizatorul să aibă încredere că orice articol eliminat de algoritm este, într-adevăr, nedemn de timpul scriitorului.
Testarea extinsă beta și reantrenarea sau reglarea fină, cu supraveghere umană care să ia în considerare străinii și rămășițele, ar putea, în cele din urmă, îmbunătăți fiabilitatea unei astfel de abordări; dar o schimbare în cultura națională sau globală – cum ar fi schimbări surprinzătoare în peisajul politic, sau izbucnirea războiului – ar putea, inevitabil, să răstoarne toate prioritățile de bază ale unui astfel de sistem fin reglat, lăsând scriitorul care depinde de inteligență artificială să-și reconstruiască modelul intern de domeniu necesar de la zero.
Publicat pentru prima dată luni, 20 aprilie 2026.
Revizuit joi, 23 aprilie 2026 14:13:25, pentru a înlocui ‘WSJ’ cu ‘Fortune’ în ‘Calea Îngustă’, paragraful 2 (mulțumiri lui Mark Riley de la mathison.ai pentru a atrage atenția).












