Andersonův úhel

Může umělá inteligence vyvinout čich pro zprávy?

mm
AI-generated image (GPT-1.5) featuring a dog journalist in a photorealistic newsroom, who has spotted a lead, and attracted the attention of his co-workers.

Umělá inteligence se zlepšuje v psaní zpravodajských článků, ale nezlepšuje se tolik v identifikaci nich.

 

Opinion V posledních pěti letech, co jsem naposledy zkoumal schopnost umělé inteligence najít zajímavou zpravodajskou zprávu, se krajina výrazně změnila, s rostoucími úrovněmi automatizace poháněné umělou inteligencí, doprovázené nevyhnutelnými růstovými bolestmi a kontroverzemi.

Nedávno zpráva WSJ o plodném, AI-pomáhajícím Fortune přispěvovateli představila novináře budoucnosti jako osvobozeného od rutinní práce, jako je transliterace tiskových zpráv, a ponechala mu prostor pro psaní článků a výzkum, který obvykle只有 větší publikace mají rozpočet.

Ale co jsme slyšeli mnohem méně často je schopnost umělé inteligence zjistit zpravodajskou zprávu.

Potlačení hluku

V roce 2021 jsem se soustředil na autory, kteří pokrývají výzkum, protože tam trávím většinu svého času; a možná největší účinek, který nová revoluce umělé inteligence měla na toto, je, že vytvořila nesnesitelnou bouři AI-poháněných výzkumných prací, zvyšující poměr signálu k hluku tak vysoko, že ani pokrytí Arxiv AI-souvisejících domén komplexně již není v moci jediné osoby.

Jistě, tohle je oblast, ve které umělá inteligence vyniká – při procházení obrovských tranzitivních dat, která lidé nemohou rozlišit, aby našla “outliery” (které budeme brzy řešit) za sekundy, které by lidem trvaly dny, kdyby je mohli udělat vůbec.

Proč, pak, je umělá inteligence stále tak špatná v identifikaci zajímavé zpravodajské zprávy z tisíců, ba dokonce desítek tisíc, denních uchazečů?

Zpátečnická umělá inteligence

Tato masivní proliferace AI-generovaného obsahu se děje daleko za hranicemi akademické sféry, o které jsem dříve diskutoval. Na konci loňského roku bylo odhadnuto, že polovina všech nových psaní na webu je nyní “napsána umělou inteligencí”, s ještě větším zrychlením tohoto trendu, které se předpokládá, že přijde. Proto je hluk ohlušující každým místem, nejen v akademii.

Although došlo k nějakému pokroku v AI/algorském identifikování “horké” zprávy v posledních letech, tyto systémy se soustředí na stratifikované a předvídatelně organizované datové toky, což znamená, že mohou fungovat pouze v poměrně křehkém kontextu.

V tomto ohledu Stanford postdoktorand a bývalý novinář New York Times Alexander Spangher učinil několik pokusů o definování “zpravodajské hodnoty” v termínech, které lze aplikovat na strojové učení a statistickou analýzu; a produkoval důkazy o automatizované generaci leadů v korporátních dokumentech, státních zákonech a městských radních zasedáních, jakož i veřejných dokumentech – typ schema-driven výstupu, který může AI-poháněný scribe z Fortune proměnit v 6-7 zpravodajských článků denně:

Teplota slovních distribucí získaných z korporátních dokumentů. V tomto případě můžeme vidět, že “authorizing” má vysokou hodnotu, možná protože reprezentuje rozhodnutí, změnu a novinku. Zdroj

Jenže problém s přístupy, jako je ten Spangherův z roku 2023 návrh Sledování zpravodajské hodnoty veřejných dokumentů, spočívá v tom, že se v typickém AI stylu soustředí na pozorované trendy v datech. Jinými slovy, pozorují věci, které dříve dělaly dobré zprávy, a pak hledají více stejného.

V reálném světě se téměř vždy stává, že neočekávané zdroje jsou “one hit wonder”; a navzdory příležitostným pokusům využít krátkodobou slávu nebo notoriety se obvykle nikdy nebudou produkovat nic užitečného znovu.

Znamení času

Protože monitorování tohoto typu one-and-done zpravodajského zdroje obvykle přidává pouze více hluku do obecné bouře, nemůže umělá inteligence místo toho identifikovat signifikantní znaky zdroje, který se jednou stane plodným? Pokud by šlo zjistit, jaký typ zdroje by mohl jednou vynést zprávy, bylo by možné soustředit se na jeho charakteristiky místo kontextu nebo metod.

Podle této logiky by šlo usoudit z Edward Snowdenových odhalení z roku 2010, že kdokoli, kdo nedávno opustil zaměstnání v CIA (nebo podobné organizace), by byl worth sledovat jako potenciální zdroj budoucích odhalení.

Jenže nejsou žádné RSS kanály nebo API, které by mohly automatizovat tento typ nepřetržitého monitorování, protože LinkedIn a mnoho dalších dříve otevřených zdrojů dat se stahují tváří v tvář chamtivým a nezákonným AI webovým scraperům. I kdyby existovaly, frekvence by byla problémem, protože nelze dotazovat API nebo stránky každých pět sekund; kromě nákladů na zdroje by odpovědi IP-banů z platforem činily tuto činnost neudržitelnou.

Dále je zde jasná “lidská dimenze” těchto odhalení, která je obtížně automatizovatelná.

Sběr zpráv s osobním přístupem: snímek z diskové verze filmu All The President's Men z roku 1976, na kterém je informant vycházející ze stínu. Zdroj - https://blueprintreview.co.uk/2016/11/all-the-presidents-men/

Sběr zpráv s osobním přístupem: snímek z diskové verze filmu All The President’s Men z roku 1976, na kterém je informant vycházející ze stínu. Zdroj

Také v reálném světě je velmi obtížné identifikovat definující charakteristiky budoucího zpravodajského zdroje. To pravděpodobně není “lidé, kteří nedávno opustili CIA”, a určitě to není definováno protokolem: platformy jako X nebo GitHub produkují příliš mnoho signálu samy o sobě, a i když se zužuje na vyhledávací termíny nebo kategorie příspěvků, dělá to málo rozdílu – pouze pokud jste zapojeni do problému a angažovaní ve společnosti (nebo repozitáři atd.), jste skutečně pravděpodobně rozpoznat významnost vývoje.

I termín jako “bezpečnostní upozornění” nemůže kontextualizovat skutečnou závažnost nebo zpravodajskou hodnotu incidentu, protože odkazy tohoto typu jsou denně házeny tisícovkami v těchto komunitách – a i když se omezí na monitoring anglického jazyka, potenciální variace v idiomu spolu s použitím úkosného jazyka by činily velmi obtížným rozpoznat “v divočině” příspěvek jako skutečné zpravodajské upozornění.

Úzká cesta

Současná generace AI-poháněných systémů pro detekci zpravodajské hodnoty závisí na formalizovaných datových strukturách (jako je JSON výstup z API), nebo na neformálních datových strukturách, které AI-vyvinuté algoritmy mohou mít šanci rozpoznat do strukturovaného schématu (jako tiskové zprávy z konkrétní organizace):

Parsovaný RSS/XML kanál, odhalující rigidní hierarchii datových kontejnerů. Zdroj - https://www.xml.com/articles/2023/03/06/visualising-xml-schemas/

Parsovaný RSS/XML kanál, odhalující rigidní hierarchii datových kontejnerů. Zdroj

Zjevně jsou přístupy tohoto typu vhodné pro programatický výstup, jako je rutinní práce, kterou výše zmíněný Fortune zpravodaj prohlašuje, že AI mu osvobodila, včetně počasí, akcií a sportovních výsledků, jakož i rutinních tiskových zpráv z municipalit a jiných vládních organizací.

Je možné připojit “lidské upozornění” na statistické kanály, jako je počasí (náhlé bouře), akcie (náhlé pády) a sporty (neočekávaná vítězství/prohry, s nějakou přípravou), opět by však lidská pozornost byla potřeba i pro stratifikované vládní zprávy, aby se zhodnotila zpravodajská hodnota.

I když termíny jako “smrt”, “neočekávaná nemoc”, “únik” a “nehoda” mohou všechny pomoci identifikovat zpravodajsky významné události, řeší pouze “rutinní” události a nemohou zohlednit alternativní jazyk (nebo jazyky).

Návrat elitních spisovatelů?

V posledních letech se datová žurnalistika stala vzestupnou součástí zpravodajské práce, s redakčními odděleními, která již nejsou omezena na “sweetsheart” dohody o předčasném vydání speciálních zpráv a bílé knihy od hlavních vydavatelů; místo toho mohou sami zpracovávat čísla.

Jenže to není žádný bezplatný oběd; protože zjevná hodnota zpracování veřejných dat umělou inteligencí tímto způsobem vzrostla, rent-seekerská/ai-blokující reakce následovala – nebo dokonce předcházela – poptávku, tlačila velké AI hráče do taktiky utajení.

Dodatečná tření Nového ústupu zřejmě obnovuje určitou část moci od “občanských novinářů” zpět k tradičnímu médiu – nebo alespoň dobře financovaným zpravodajským organizacím, které mají kapacitu absorbovat额dní manuální práci vyžadovanou pro sběr, rafinaci a hodnocení dat, v éře, kdy vydavatelé a domény jsou stále více omezují neformální přístup.

Takže, způsobem, možná v duchu času, praktické projevení umělé inteligence v žurnalistice, pokud jde o způsob, jakým hlavní hráči a trhy reagovali na inovace a přijetí umělé inteligence, může vlastně vést zpět v čase: de-demokratizuje prostředky zpravodajské produkce a přidává překážky pro smysluplné systémy hodnocení zpravodajské hodnoty založené na datech.

Společné instinkty

Tyto restrikce nás jasně vedou zpět k “instinktu” jako nevyhnutelné součásti hodnocení zpravodajské hodnoty zprávy.

Přirozeně je to uklidňující pro ty, kteří jsou profesionálně zapojeni do tohoto aspektu; ale samozřejmost by byla chybou, protože tento instinkt může, do jisté míry, být destilován a operationalizován velmi obecným způsobem, který nezávisí na studiu posedlostí nebo koníčků jednotlivce nebo organizace: v roce 2022 studie výzkumníků z Northwestern University používala crowd-sourced hodnocení potenciálně zpravodajských zpráv k trénování prediktivního modelu, specificky zaměřeného na zpravodajskou hodnotu nově publikovaných Arxiv výzkumných prací:

Otázky průzkumu pro účastníky studie, aby získali trénovací data pro “newsworthiness-prediction” AI model. Zdroj

Systém řadí kandidáty poměrně dobře, s asi 80% jeho top deseti výběrů také hodnocených jako zpravodajsky významné odborníky. Nicméně, shoda s odborníky prokázala pouze mírnou, s výsledky, které chyběly faktory, jako je rámcování nebo shoda s publikem.

Systém je založen na principech uvedených v roce 2020 Computational News Discovery: Towards Design Considerations for Editorial Orientation Algorithms in Journalism. Jako u většiny podobných projektů, tato práce se zabývá vědeckou žurnalistikou spíše než abstraktním zpravodajstvím – možná proto, že vědecká literatura má tendenci směřovat k šablonovitým výstupům, které by mohly být potenciálně parsované do trénovatelných a interpretovatelných datových bodů.

No, jak jsem poznamenal v roce 2021, tohle by bylo případ, kdybychom pouze měli co do činění s vědeckou žurnalistikou, protože výzkumní vědci často zneužívají konvence výzkumné práce k ukrytí nebo zlehčení neuspokojivých výsledků, nebo dokonce přímo selhání.

Ještě větší výzvou je velká obtíž, se kterou se AI systémy setkávají při interpretaci obrázků a tabulek ve vědeckých článcích, až do té míry, že toto úsilí se nedávno stalo aktivní větve literatury:

Z paperu 'SciFigDetect: A Benchmark for AI-Generated Scientific Figure Detection', zobrazující skutečné vědecké obrázky, jejich generovací podněty a syntetické protějšky vygenerované Nano Banana a GPT napříč třemi kategoriemi: ilustrace, přehled a experimentální obrázky. Zdroj - https://arxiv.org/pdf/2604.08211v1

Z paperu ‘SciFigDetect: A Benchmark for AI-Generated Scientific Figure Detection’, zobrazující skutečné vědecké obrázky, jejich generovací podněty a syntetické protějšky vygenerované Nano Banana a GPT napříč třemi kategoriemi: ilustrace, přehled a experimentální obrázky. Zdroj

Často je případ, že graf nebo tabulka obsahuje výsledky, které hlavní tělo článku buď uvádí se selektivními předpojatostmi, nebo jimi prostě ignoruje. Proto je tato překážka v AI-poháněné vědecké žurnalistice nikoli malá.

Více řečeno, fakt, že článek je derivativní, nebo pouze malý pokrok (pokud vůbec nějaký) ve stavu umění, je často pohřben v téměř neproniknutelném citátu (tj. byste museli hledat termín, najít čitelnou PDF kopii a pochopit rozsah předchozího umění, než byste pochopili nedostatek originality nebo novinky v nové práci).

Sám opět přirozeně

Metoda založená na crowd-sourcingu naznačuje určitou shodu mezi obecným konsensem na potenciálně zpravodajské zprávě a profesionálními hodnoceními stejné.

Velkou sílou umělé inteligence je její schopnost, v závislosti na konfiguraci, izolovat outliery – buď pro účel odstranění jich jako křivky-blowing a ne-smysluplné výjimky z trendů v datech, nebo (více relevantní pro zpravodajství) identifikovat smysluplné a cenné neobvyklé instance a události:

Outliery (červené) v rozptylovém grafu. Zdroj - https://stackoverflow.com/questions/73079324/python-removing-outliers-from-plotly-scatter-plot

Outliery (červené) v rozptylovém grafu. Zdroj

Na principu, že blesk zřídka udeří dvakrát, téměř všechny úspěšné zpravodajské články jsou outliery. V případech, kdy pocházejí z aktivní a nestabilní domény, jako je probíhající válka, lze tuto doménu pečlivě sledovat s vysokou pravděpodobností vzniku zpravodajsky významných článků – ale za cenu masivní konkurence, protože společná pozornost je pravděpodobně také zaměřena na doménu.

Mnoho zpravodajsky významných vědeckých tipů je, podle definice, není středem jazykové distribuce. Jsou to vzácné kombinace metod, překvapivé negativní výsledky nebo anomální replikace. Pokud se schopnost modelu snižuje nepoměrně u těchto nízkofrekvenčních seskupení, pak se oblast, ve které je potřeba ostrý “novinářský nos”, stává oblastí, ve které je model nejméně spolehlivý.

Důvěra

Při hledání nových článků novináři vyvažují více omezení, včetně času, přístupu, důvěryhodnosti, publika a organizačních priorit, což vede k nejasným volbám. 2022 literární přehled z Dánska charakterizoval novináře jako vyvažující více obav, které jsou si vědomé toho, že zdroje mohou mít agendy nebo být dezinformovány; a často obcházejí přímou kontrolu ve prospěch nepřímých důvěrných signálů, když pracují pod tlakem.

Tyto stejné “problémy důvěry” by byly vývojem překážkou v jakémkoli definitivním AI-poháněném systému pro identifikaci zpravodajské hodnoty, protože zapojení do takové platformy vyžaduje, aby uživatel důvěřoval, že jakýkoli algoritmicky odstraněný článek není skutečně hodný času pisatele.

Podrobné beta-testování a přeškolování nebo jemné ladění, s lidským dohledem, který zachytí odbočky a pozůstalé, by mohlo nakonec zlepšit spolehlivost takového přístupu; ale změna v národní nebo globální kultuře – jako překvapivé změny v politickém krajině, nebo vypuknutí války – by nevyhnutelně převrátila všechny základní priority takového jemně kalibrovaného systému, ponechajíc AI-závislého pisatele, aby znovu postavil svůj nutný “vnitřní model domény” téměř od začátku.

 

Poprvé zveřejněno v pondělí 20. dubna 2026.
Revidováno ve čtvrtek 23. dubna 2026 14:13:25, aby se nahradil “WSJ” za “Fortune” v “Úzké cestě”, odstavci 2 (díky Marku Rileyovi z mathison.ai za upozornění).

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai