Погляд Anderson
Чи може штучний інтелект розвинути нюх на новини?

Штучний інтелект став краще у написанні новинних статей, але не став значно краще у визначенні їх.
Опінія За останні п’ять років, відколи я останній раз розглянув можливість штучного інтелекту знайти гарячу новинну історію, ландшафт суттєво змінився, з підвищеним рівнем автоматизації штучного інтелекту, супроводжуваним невід’ємними зростаючими болями та скандалами.
Нещодавно звіт WSJ про плідного, штучно-допоможеного автора Fortune представив журналіста майбутнього, звільненого від рутинної роботи, такої як транслітерація прес-релізів, залишаючи їм можливість писати статті та проводити розслідування, які зазвичай тільки великі видання мають бюджет для цього.
Але про те, що штучний інтелект може виявити новинну історію, ми чуємо значно менше.
Покращення шуму
У статті 2021 року я зосередився на письменниках, які висвітлюють наукові дослідження, оскільки це те, де я провожу більшу частину свого часу; і, можливо, найбільший ефект, який нова революція штучного інтелекту мала на це, полягає в тому, що вона створила необмежену бурю подач штучно-допоможених наукових робіт, підвищивши співвідношення сигналу до шуму так високо, що навіть висвітлення наукових досліджень у сфері штучного інтелекту на Arxiv зараз виходить за межі можливостей однієї особи.
Невже це не те, де штучний інтелект справді виділяється – у перебуванні через величезні масиви даних, які люди не можуть розібрати, щоб знайти ‘відхилення’ (до яких ми повернемося згодом) за секунди, які людям знадобилися б дні, якщо б вони могли це зробити взагалі.
Чому, тоді, штучний інтелект усе ще так поганий у визначенні гарячої новинної історії з тисяч, навіть десятків тисяч, щоденних претендентів?
Штучний інтелект, орієнтований на минуле
Ця масова поява штучно-допоможеного контенту відбувається далеко за межами академічної сфери, про яку я говорив раніше. У кінці минулого року було оцінено, що половина усіх нових написань у мережі написана штучним інтелектом, з ще більшим прискоренням цього тренду, яке, як передбачається, має прийти. Тому шум оглушливий скрізь, не тільки в академії.
Хоча за останні кілька років відбулися деякі успіхи в ідентифікації штучним інтелектом/алгоритмічної ‘гарячої’ історії, ці системи зазвичай зосереджуються на стратифікованих і передбачувано організованих потоках даних, що означає, що вони можуть працювати тільки у досить крихкому контексті.
У цьому відношенні постдокторант Стенфордського університету та колишній журналіст Alexander Spangher зробив кілька спроб визначити ‘новинність’ у термінах, які можуть бути застосовані до процесів машинного навчання та статистичного аналізу; і представив докази автоматизованого генерування лідерів у корпусах таких як судові документи, законодавчі акти та засідання міської ради, а також загальні публічні документи – типу схемо-орієнтованого виходу, який плідний штучно-допоможений автор Fortune може перетворити на 6-7 новинних статей на день:

Тепло словесних розподілів, отриманих з корпусів публічних документів. У цьому випадку ми бачимо, що ‘авторизація’ має високий бал, можливо, тому, що вона представляє рішення, зміну та новизну. Джерело
Однак проблема підходів, таких як пропозиція Спангера 2023 року Відстежування новинності публічних документів, полягає в тому, що вони, як і штучний інтелект, зосереджуються на спостережуваних тенденціях у даних. Інакше кажучи, вони спостерігають речі, які раніше робили гарні новини, і продовжують шукати більше такого ж.
У реальному світі несподівані джерела майже завжди виявляються ‘одноразовими’; і через свою рідкість ніхто не міг би передбачити їх раптову популярність. Потім, після того, як вони стали плідними один раз, і попри періодичні спроби скористатися мимовільною славою/зловістю, вони зазвичай ніколи не дають нічого корисного знову.
Знак часу
Отже, оскільки моніторинг такого типу джерел ‘один-разовий’ новин зазвичай тільки додає更多 шуму до загальної бурі, чи не міг би штучний інтелект визначити ознаки джерела, яке одного дня стане плідним? Якщо можна було б дізнатися, який тип джерела може в кінцевому підсумку дати новини, можна було б зосередитися на його характеристиках, а не на його контексті чи методах.
За цією логікою можна було б зробити висновок з розголошень Едварда Сноудена 2010-х років, що будь-хто, хто недавно покинув роботу в ЦРУ (або подібній організації), був би гідним того, щоб його слідкувати як потенційне джерело майбутнього скандалу.
Однак немає RSS-стрімів або API, які могли б автоматизувати такий тип постійного моніторингу, оскільки LinkedIn та багато інших раніше відкритих джерел даних відступають перед лицем жадібних та законопорушних веб-скрейперів штучного інтелекту. Навіть якщо б вони були, частота була б проблемою, оскільки не можна опитувати API або сайт кожні п’ять секунд; крім витрат на ресурси, реакції з боку платформ у вигляді заборони IP-адрес зробили б цю діяльність нездійсненною.
Крім того, існує явний ‘людський вимір’ таких розголошень, який важко автоматизувати.

Збір новин з особистим дотиком: кадр з дискової версії фільму Алана Пакули ‘Всі люди президента’ 1976 року, на якому інформатор виходить з тіні. Джерело
Також у реальному світі дуже важко визначити визначальні характеристики майбутнього джерела новин. Це, ймовірно, не ‘люди, які недавно покинули ЦРУ’, і це точно не визначається протоколом: платформи, такі як X або GitHub, видають занадто багато сигналів самі по собі, і навіть звуження до пошукових термінів або категорій публікацій не робить великої різниці – тільки якщо ви займаєтеся проблемою та взаємодієте з спільнотою (або репозиторієм тощо), ви справді можете розпізнати значення розвитку.
Навіть термін такий як ‘повідомлення про безпеку’ не може контекстуалізувати справжню серйозність або новинність інциденту, оскільки посилання такого типу розкидані щодня, тисячами, у таких спільнотах – проте не мають широкої новинної цінності; і навіть якщо обмежити такий моніторинг лише англійською мовою, потенційні варіації в ідіомі, разом з використанням непрямої мови, зробили б дуже важким розбори ‘дикої’ публікації в справжнє новинне повідомлення.
Вузький шлях
Поточна генерація систем виявлення новинності, штучно-допоможених, залежить від формалізованих структур даних (таких як вивід у форматі JSON з API), або ж від неформалізованих структур даних, які алгоритми, розроблені штучним інтелектом, мають можливість розібрати у структуровану схему (таких як прес-релізи з конкретної організації):

Розібраний RSS/XML-стрім, що розкриває жорстку ієрархію контейнерів даних. Джерело
Очевидно, що підходи такого типу добре підходять для програмної продукції, такої як рутинна робота, про яку говорить згаданий раніше звіт WSJ, включаючи погоду, акції та спортивні результати, а також рутинні прес-релізи з муніципальних та інших урядових організацій.
Хоча можливо прикріпити сповіщення людини до статистичних стрімів, таких як погода (раптові шторми), акції (раптові падіння) та спорт (раптові перемоги/поразки, з деякою підготовкою), знову ж таки, людська увага все одно була б потрібна навіть для дуже стратифікованих урядових релізів, щоб оцінити новинність.
Хоча терміни, такі як ‘смерть’, ‘несподівана хвороба’, ‘витік’ та ‘аварія’, можуть допомогти зосередитися на новинних подіях, вони тільки адресують ‘рутинні’ події, і також не можуть врахувати альтернативну мову (або мови).
Повернення елітних письменників?
За останні роки джерелознавство, засноване на даних стало аскендентним напрямком у звітності новин, з редакційними відділами, які вже не обмежені угодами про ‘ексклюзивні новини’ з великими видавцями; натомість вони можуть розбирати числа самі.
Однак це не безкоштовний обід; оскільки очевидна цінність розбору публічних даних штучним інтелектом у цьому спосіб виросла, ренто-орієнтована/блокуюча реакція штучного інтелекту слідувала – або навіть передувало – попиту, спонукаючи великих гравців штучного інтелекту до приховуваних тактик.
Додатковий тертя Нової відступності аргументно відновлює певну кількість влади від ‘громадянських журналістів’ назад до медіа-лідерів – або, принаймні, добре фінансованих новинних організацій, які мають смугу пропускання, щоб поглинути додаткову ручну роботу, необхідну для збору, уточнення та оцінки даних у епоху, коли видавці та домени все частіше обмежують випадний доступ.
Отже, певним чином, можливо, що практична реалізація штучного інтелекту в журналістиці, у термінах того, як великі гравці та ринки відповіли на інновації та прийняття штучного інтелекту, може фактично повернути нас у минуле: демократизацію засобів виробництва новин, і додавання бар’єрів до значимих систем оцінки новинності, заснованих на даних.
Спільні інстинкти
Ці обмеження явно ведуть нас назад до ‘інтуїтивного відчуття’ як невід’ємної складової оцінки новинності історії.
Природно, це комфортно для тих, хто професійно займається цим аспектом; але самозадоволеність була б помилкою, оскільки це відчуття можна, до певної міри, витягнути та оперціоналізувати досить загальним чином, який не залежить від вивчення одержимостей або хобі окремої особи чи організації: у дослідженні 2022 року дослідники з Північно-Західного університету використали оцінки потенційно новинних історій, отримані від натовпу, для навчання передбачувальної моделі, конкретно пов’язаної з новинністю щойно опублікованих наукових робіт на Arxiv:

Опитувальні питання, дані учасникам дослідження для отримання навчальних даних для моделі ‘передбачення новинності’. Джерело
Система досить добре оцінює кандидатів, з близько 80% її першої десятки виборів, також визнаних новинними експертами. Однак узгодженість з експертами виявилася лише помірною, з результатами, які пропускають такі фактори, як рамкування чи відповідність аудиторії.
Система заснована на принципах, викладених у документі 2020 року Комп’ютерне відкриття новин: До проектних міркувань для редакційних орієнтаційних алгоритмів у журналістиці. Як і більшість подібних проектів, ця робота займається журналістикою науки, а не абстрактним збором новин – можливо, тому що наукова література схильна до шаблонного виходу, який потенційно можна розібрати у навчальні та інтерпретовані дані.
Ну, як я спостерігав ще у 2021 році, це було б так, окрім того, що дослідники часто зловживають конвенціями подачі наукових робіт, щоб приховати або знизити непоказові результати, або навіть прямою невдачу.
Ще більшим викликом є велика складність, з якою системи штучного інтелекту мають справу з інтерпретацією таблиць і графіків у наукових роботах, до тієї міри, що це останнім часом стало активною гілкою літератури:

З паперу ‘SciFigDetect: Бенчмарк для виявлення наукових фігур, згенерованих штучним інтелектом’, показуючи справжні наукові фігури, їхні генерувальні запити та синтетичні аналоги, створені Nano Banana та GPT у трьох категоріях: ілюстрація, огляд та експериментальні фігури. Джерело
Це часто буває так, що графік або таблиця містять результати, які основний текст статті буде повідомляти з селективним упередженням, або ж буде зовсім ігнорувати будь-які негативні наслідки, явні у результатах графіків/таблиць. Тому ця перепона в журналістиці науки, штучно-допоможеної, не є незначною.
Більш виразно, той факт, що робота є похідною або тільки незначним кроком вперед (якщо взагалі), часто ховається в майже непроникній цитаті (тобто вам потрібно буде шукати термін, знайти читабельну PDF-версію та зрозуміти ступінь попередньої науки, перш ніж зрозуміти відсутність оригінальності чи новизни в новій роботі).
Самотність знову, природно
Метод, заснований на натовпі, описаний вище, пропонує певну згоду між загальною згодою щодо потенційних новинних історій та професійною оцінкою тих самих. Але без контексту тільки загальні риси новинності можна очевидно визначити.
Сама сила штучного інтелекту полягає в його здатності, залежно від конфігурації, виділяти відхилення – або для цілей відкидання їх як криво-вибиваючих винятків з тенденцій у наборі даних, або (що більш актуально для збору новин) для ідентифікації значимих та цінних незвичайних випадків та подій:

Відхилення (червоним) на розсіювальній діаграмі. Джерело
За принципом, що блискавка рідко б’є двічі, майже всі новинні історії є відхиленнями. У випадках, коли вони походять з активної та волатильної області, такої як триваюча війна, цю область можна пильно сканувати з високою ймовірністю появи новинних історій – проте за рахунок масової конкуренції, оскільки загальна увага також, ймовірно, зосереджена на цій області.
Багато новинних наукових лідерів, за визначенням, не знаходяться в центрі розподілу мови. Вони є рідкісними комбінаціями методів, несподіваними негативними результатами чи аномальними реплікаціями. Якщо компетентність моделі погіршується непропорційно на таких низькочастотних групуваннях, то саме область, де редакторський ‘нюх’ повинен бути гострим, стає областю, де модель є найменш надійною.
Проблеми довіри
При пошуку нових історій журналісти балансують кілька обмежень, включаючи час, доступ, довіру, аудиторію та організаційні пріоритети), що призводить до неочевидних виборів. У літературному огляді 2022 року Данії журналістів характеризували як балансування декількох проблем, гостро усвідомлюючи, що джерела можуть мати програми або бути дезінформованими; і часто обходячи прямий перевірку на користь непрямих сигналів довіри, коли вони працюють під тиском.
Ці самі ‘проблеми довіри’ були б розробчим бар’єром у будь-якій визначальній системі виявлення новинності, штучно-допоможеної, оскільки взаємодія з такою платформою вимагає від користувача довіри, що будь-який алгоритмічно-відкинутий стаття не є гідним часу письменника.
Розширені бета-тестування та повторне навчання або тонке налаштування, з людським наглядом, який підхоплює втрачених та відсталих, могли б в кінцевому підсумку покращити надійність такого підходу; але зміна національної чи глобальної культури – така як несподівані зміни у політичному ландшафті, або початок війни – міг би непоправно порушити всі базові пріоритети такої ретельно налаштованої системи, залишивши письменника, залежного від штучного інтелекту, щоб перебудувати свою необхідну ‘внутрішню модель області’ майже з нуля.
Перша публікація понеділка, 20 квітня 2026 року












