Andersonův úhel
Může AI vyvinout čich pro zprávy?

AI se zlepšuje v psaní zpravodajských článků, ale nezlepšuje se tolik v identifikaci jich.
Mínění V posledních pěti letech, co jsem se naposledy podíval na schopnost AI najít zajímavou zpravodajskou zprávu, se krajina podstatně změnila, s rostoucími úrovněmi automatizace poháněné AI a nevyhnutelnými rostoucími bolestmi a kontroverzemi.
Nedávno zpráva WSJ o plodném, AI-pomáhajícím přispěvovateli do Fortune představila novináře budoucnosti jako osvobozeného od rutinní práce, jako je přepisování tiskových prohlášení, a zanechala mu prostor pro psaní článků a vyšetřování, které obvykle pouze větší publikace mají rozpočet.
Ale co jsme slyšeli mnohem méně často, je schopnost AI zpozorovat zpravodajskou zprávu.
Potlačení hluku
V roce 2021 jsem se soustředil na autory, kteří pokrývají výzkum, protože tam trávím většinu svého času; a možná největší účinek, který nová revoluce AI měla na toto, je, že vytvořila nezvladatelnou bouři podání výzkumných prací poháněných AI, zvyšující poměr signálu k hluku tak vysoko, že ani pokrytí Arxiv souvisejících s AI oborů komplexně již není v silách jediné osoby.
Určitě je tohle místo, kde AI vyniká – při procházení obrovských částí dat, které lidé nemohou rozlišit, aby našli ‘outliery’ (k kterým se dostaneme brzy) v sekundách, které by lidem trvaly dny, pokud by to mohli udělat vůbec.
Proč, pak, je AI stále tak špatná v identifikaci zajímavé zpravodajské zprávy z tisíců, ba dokonce desítek tisíců denních uchazečů?
Zpátečnická AI
Tato masivní proliferace AI-generovaného obsahu se děje daleko za hranicemi akademické sféry, o které jsem dříve diskutoval. Na konci loňského roku bylo odhadnuto, že polovina všech nových psaní na webu je nyní ‘napsána AI’, s ještě větší akcelerací tohoto trendu předpokládanou. Proto je hluk ohlušující každým místem, nejen v akademii.
Ačkoli došlo k nějakému pokroku v identifikaci ‘horké’ zprávy AI/algoritmy v posledních letech, tyto systémy se tendenci soustřeďují na stratifikované a předvídatelně organizované datové toky, což znamená, že mohou fungovat pouze v rather křehkém kontextu.
V tomto ohledu Stanford postdoktorální výzkumník a bývalý novinář Alexander Spangher učinil několik pokusů o definování ‘zpravodajské hodnoty’ v termínech, které lze aplikovat na procesy strojového učení a statistické analýzy; a produkoval důkazy automatizované generace leadů v korporátech jako soudní dokumenty, státní zákony a zasedání městské rady, stejně jako veřejné dokumenty – typ schématu-ridden výstupu, který AI-poháněný pisatel Fortune může převést na 6-7 zpravodajských článků denně:

The ‘heat’ of word distributions gleaned from corpora of public documents. In this case, we can see that ‘authorizing’ has a high score, perhaps because it represents decision, change and novelty. Source
Avšak problém s přístupy, jako je Spangher-vedená nabídka Tracking the Newsworthiness of Public Documents, je, že typicky AI-fasion, center na pozorovaných trendech v datech. Jinými slovy, pozorují věci, které dělaly dobré zprávy dříve, a jdou dále hledat více stejného.
Ve skutečném světě, neočekávané zdroje téměř vždy vyjdou jako ‘one hit wonder’; a pro to, jak byli skrytí, nikdo by nemohl předpovědět jejich náhlou prominenci. Poté, co byli jednou plodní, a navzdory příležitostným pokusům využít krátkodobou slávu/neznámou, obvykle nikdy nevytvoří nic užitečného znovu.
Znamení času
Proto, protože monitorování tohoto typu ‘one-and-done’ zpravodajského zdroje je obvykle jen přidává více hluku k obecné bouři, nemůže AI místo toho identifikovat signifikátory zdroje, který se jednou stane plodným? Pokud by jeden mohl zjistit, jaký typ zdroje by mohl nakonec vynést zprávy, jeden by se mohl soustředit na jeho charakteristiky spíše než jeho kontext, nebo jeho metody.
Podle této logiky by jeden mohl odvodit z Edward Snowdenových odhalení z roku 2010, že kdokoli, kdo nedávno opustil zaměstnání v CIA (nebo podobné organizace), by byl worth sledovat jako potenciální zdroj budoucího scoopu.
Avšak nejsou žádné RSS kanály nebo API, které by byly pravděpodobně schopny automatizovat tento typngoing monitorování, protože LinkedIn a mnoho dalších dříve otevřených zdrojů dat se stahují v tváři chamtivých a scofflaw AI webových scraperů. I kdyby tam byly, frekvence by byla problémem, protože nelze dotazovat API nebo stránky každých pět sekund; kromě nákladů na zdroje, IP-ban odpovědi z platforem by učinily tuto činnost neudržitelnou.
Dále je zde jasně ‘lidská dimenze’ těchto odhalení, která je obtížně automatizovatelná.

News-gathering with the personal touch: capture from a disc release of the 1976 Alan J. Pakula movie ‘All The President’s Men’, featuring the informant coming out of the shadows. Source
Také, ve skutečném světě, je to strašně těžké identifikovat definující charakteristiky budoucího zpravodajského zdroje. To pravděpodobně není ‘lidé, kteří nedávno opustili CIA’, a určitě není definováno protokolem: platformy, jako X nebo GitHub, produkují příliš mnoho signálu samy o sobě, a dokonce i zúžení na vyhledávací termíny nebo kategorie příspěvků dělá málo rozdíl – pouze pokud jste zapojeni do problému a zapojeni do komunity (nebo repozitáře atd.), jste opravdu pravděpodobně rozpoznat významnost vývoje.
I termín jako ‘bezpečnostní upozornění’ nemůže kontextualizovat skutečnou závažnost nebo zpravodajskou hodnotu incidentu, protože odkazy tohoto druhu jsou házeny denně, tisícekrát, v takových komunitách – a dokonce i když omezíte toto monitorování na anglický jazyk, potenciální variace v idiomu, spolu s použitím úkosného jazyka, by učinily velmi těžké parsovat ‘v divočině’ příspěvek do skutečného zpravodajského upozornění.
Úzká cesta
Současná úroda AI-poháněných systémů pro detekci zpravodajské hodnoty závisí na formalizovaných datových strukturách (jako je výstup JSON z API), nebo na neformálních datových strukturách, které AI-vyvinuté algoritmy mají šanci parsovat do strukturovaného schématu (jako tiskové zprávy z konkrétní organizace):

A parsed RSS/XML feed, revealing the rigid hierarchy of data containers. Source
Zjevně jsou přístupy tohoto druhu dobře přizpůsobeny programatickému výstupu, jako je rutinní práce, kterou výše zmíněný reportér WSJ prohlašuje, že AI osvobodila, včetně počasí, akcií a sportovních skóre, stejně jako rutinní tiskové zprávy z municipalit a jiných vládních organizací.
Zatímco je možné připojit ‘lidské upozornění’ na statistické kanály, jako je počasí (náhlé bouře), akcie (náhlé poklesy) a sporty (neočekávaná vítězství/prohry, s nějakou přípravou), opět, lidská pozornost by byla stále potřebná, i pro velmi stratifikované vládní zprávy, aby se určila zpravodajská hodnota.
Ačkoli termíny, jako ‘smrt’, ‘neočekávaná nemoc’, ‘únik’ a ‘nehoda’, mohou všechny pomoci proniknout k zpravodajským událostem, pouze adresují ‘rutinní’ eventuality a také nemohou zohlednit alternativní jazyk (nebo jazyky).
Návrat elitních spisovatelů?
V posledních letech se datem-ridden journalism stal vzestupnou deskou v zpravodajství, s redakčními odděleními, která již nejsou omezena na ‘scoop’ dohody, které jim poskytují brzký přístup na speciální zprávy a bílé knihy od hlavních vydavatelů; místo toho mohou sami rozdrtit čísla.
Avšak toto není zdarma; protože zjevná hodnota parsingu veřejných dat s AI tímto způsobem rostla, nastoupila rent-seeking/AI-blokující odpověď – nebo dokonce předcházela – poptávce, tlačící datové hladové hlavní AI hráče do stealth taktik.
Přidaný tření Nového ústupu zřejmě obnovuje určitou část moci od ‘občanských novinářů’ zpět k tradičnímu médiu – nebo alespoň, dobře financovaným zpravodajským organizacím, které mají kapacitu absorbovat extra manuální práci vyžadovanou při shromažďování, rafinaci a hodnocení dat, v éře, kdy vydavatelé a domény jsou stále více omezují neformální přístup.
Takže, nějakým způsobem, možná v duchu času, praktické ztělesnění AI v žurnalistice, vzhledem ke způsobu, jakým hlavní hráči a trhy reagovali na inovace a přijetí AI, může vlastně brát nás zpět v čase: de-demokratizuje prostředky zpravodajské produkce a přidává překážky k významnému datem-ridden zpravodajskému hodnocení systémům.
Společné instinkty
Tyto omezení jasně vedou nás zpět k ‘instinktu’ jako nevyhnutelné součásti při hodnocení zpravodajské hodnoty zprávy.
Přirozeně, toto je uklidňující pro ty, kteří jsou profesionálně zapojeni do tohoto aspektu; ale samodpovědnost by byla chybou, protože tento instinkt může, do jisté míry, být destilován a operationalizován velmi obecným způsobem, který nezávisí na studiu posedlostí nebo koníčků jednotlivé osoby nebo organizace: ve studii z roku 2022, výzkumníci z Northwestern University použili crowd-sourced hodnocení potenciálně zpravodajských příběhů, aby trénovali prediktivní model, specificky se zabývající zpravodajskou hodnotou nově publikovaných Arxiv výzkumných prací:

Survey questions given to study participants in order to obtain training data for a ‘newsworthiness-prediction’ AI model. Source
Systém řadí kandidáty poměrně dobře, s asi 80% jeho top deseti výběrů také hodnocených jako zpravodajsky významné odborníky. Avšak dohoda s odborníky se ukázala pouze mírná, s výsledky, které chyběly faktory, jako je rámování, nebo audience fit.
Systém je založen na principech uvedených v roce 2020 Computational News Discovery: Towards Design Considerations for Editorial Orientation Algorithms in Journalism. Jako u většiny podobných projektů, tato práce se zabývá vědeckým žurnalistikou spíše než abstraktním zpravodajstvím – možná proto, že vědecká literatura má tendenci k šablonovému výstupu, který by mohl být potenciálně parsován do trénovatelných a interpretovatelných datových bodů.
Nuže, jako jsem poznamenal zpět v roce 2021, toto by bylo případem, kromě toho, že výzkumní vědci často zneužívají konvence podání výzkumné práce, aby skryli nebo zlehčili neimpresivní výsledky, nebo dokonce přímé selhání.
Ještě větší výzvou je velká obtíž, se kterou AI systémy mají při interpretaci obrázků a tabulek ve vědeckých článcích, do té míry, že toto úsilí se nedávno stalo aktivním směrem v literatuře:

From the paper ‘SciFigDetect: A Benchmark for AI-Generated Scientific Figure Detection’, showing real scientific figures, their generation prompts, and synthetic counterparts produced by Nano Banana and GPT across three categories: illustration, overview, and experimental figures. Source
Často je případ, že graf nebo tabulka bude obsahovat výsledky, které hlavní tělo článku bude buď hlásit se selektivními předsudky, nebo jinde bude úplně ignorovat jakékoli negativní důsledky implicitní v výsledcích grafu/tabulky. Proto je tato překážka v AI-poháněném vědeckém žurnalistice není malá.
Mnohem výmluvněji, fakt, že článek je derivativní, nebo pouze malý pokrok (pokud vůbec), je často pohřben v téměř neprostupné citaci (tj. byste museli hledat termín, najít čitelnou PDF kopii a pochopit rozsah předchozího umění, než byste pochopili nedostatek originality nebo novinky v nové práci).
Sám znovu, přirozeně
Crowd-sourced metoda uvedená výše naznačuje nějakou možnou shodu mezi společným konsenzem na potenciálních zpravodajských příbězích a profesionálním hodnocením stejného. Avšak bez kontextu, pouze nejširší tahy zpravodajské hodnoty mohou být zjevně určeny.
Velká síla AI spočívá v její schopnosti, v závislosti na konfiguraci, izolovat outliery – buď pro účel odstranění jich jako křivky-blowing a non-meaningful výjimky z trendů v datové sadě, nebo (více relevantní pro zpravodajství) identifikovat významné a cenné neobvyklé instance a události:

Outliers (in red) in a scatter plot. Source
Na principu, že blesk zřídka udeří dvakrát, téměř všechny hit zpravodajské příběhy jsou outliery. V případech, kde vycházejí z aktivní a nestálé domény, jako je probíhající válka, tuto doménu lze pečlivě prohledat s vysokou pravděpodobností vzniku zpravodajsky významných příběhů – ale za cenu masivního napětí, protože společná pozornost je pravděpodobně také zaměřena na doménu.
Mnohé zpravodajsky významné vědecké leady jsou, definicí, ne v centru jazykového rozložení. Jsou vzácné kombinace metod, překvapivé negativní výsledky nebo anomální replikace. Pokud se kompetence modelu zhoršuje nepoměrně na těchto nízkofrekvenčních skupinách, pak se oblast, kde je potřeba ‘novinářský nos’, stává oblastí, kde je model nejméně spolehlivý.
Důvěra problémy
Při hledání nových příběhů, novináři vyvažují mnoho omezení, včetně času, přístupu, důvěryhodnosti, publika a organizačních priorit), vedoucí k nejasným volbám. V literární recenzi z roku 2022 z Dánska, novináři byli charakterizováni jako vyvažující mnoho obav, ostře vědomi si, že zdroje mohou mít agendy nebo být dezinformovány; a často obcházejí přímou kontrolu ve prospěch nepřímých důvěrných signálů, když operují pod tlakem.
Tytéž ‘důvěrné problémy’ by byly vývojovým překážkou v jakémkoli definitivním AI-poháněném systému identifikace zpravodajské hodnoty, protože zapojení do takové platformy vyžaduje, aby uživatel důvěřoval, že jakýkoli algoritmiccky-odstraněný článek není skutečně hodný času pisatele.
Rozsáhlé beta-testování a přeškolování nebo jemné ladění, s lidským dohledem, který získá odstraněné a opožděné, by mohlo nakonec zlepšit spolehlivost takového přístupu; ale posun v národní nebo globální kultuře – jako překvapivé změny v politické krajině, nebo vypuknutí války – by nevyhnutelně převrátila všechny základní priority takového jemně kalibrovaného systému, zanechávajícího AI-závislého pisatele, aby znovu postavil svůj nutný ‘vnitřní model domény’ téměř od začátku.
Poprvé zveřejněno v pondělí, 20. dubna 2026












