Connect with us

Взгляд Anderson

Может ли ИИ развить нос для новостей?

mm
AI-generated image (GPT-1.5) featuring a dog journalist in a photorealistic newsroom, who has spotted a lead, and attracted the attention of his co-workers.

ИИ становится лучше в написании новостных статей, но не становится намного лучше в идентификации их.

 

Мнение За пять лет с тех пор, как я в последний раз рассматривал способность ИИ находить горячую новостную историю, ландшафт изменился значительно, с увеличением уровня автоматизации, основанной на ИИ, сопровождаемой неизбежными растущими болями и скандалами.

Недавно в отчете WSJ о плодовитом, ИИ-усиленном вкладчике Fortune журналист будущего представлен как освобожденный от скучной работы, такой как транслитерация пресс-релизов, оставляя им возможность писать статьи и делать раскопки, которые обычно только более крупные издания могут себе позволить.

Но то, о чем мы слышим гораздо реже, – это способность ИИ выявить новостную историю.

Понижение шума

В статье 2021 года я сосредоточился на писателях, освещающих научную тематику, поскольку именно там я провожу большую часть своего времени; и, возможно, самым большим эффектом, который новая революция ИИ оказала на это, является то, что она создала неконтролируемую бурю подачек исследовательских работ, основанных на ИИ, повышая отношение сигнала к шуму так высоко, что даже освещение Архів-областей, связанных с ИИ, теперь выходит за рамки усилий одного человека.

Конечно, именно здесь ИИ отличается – в итерации через огромные массивы данных, которые люди не могут решить, чтобы найти ‘аутсайдеров’ (о которых мы поговорим позже) за секунды, что заняло бы у людей дни, если бы они могли это сделать вообще.

Почему, тогда, ИИ все еще так плох в выявлении горячей новостной истории из тысяч, даже десятков тысяч, ежедневных претендентов?

ИИ, ориентированный на прошлое

Это массивное распространение контента, сгенерированного ИИ, происходит далеко за пределами академического сектора, о котором я говорил ранее. В конце прошлого года было оценено, что половина всей новой письменной продукции в Интернете теперь ‘написана ИИ’, с еще большим ускорением этой тенденции, как полагают. Следовательно, шум оглушает везде, не только в академии.

Хотя в последние годы был достигнут некоторый прогресс в выявлении ИИ/алгоритмической ‘горячей’ истории, эти системы склонны сосредотачиваться на стратифицированных и предсказуемо-организованных потоках данных, что означает, что они могут работать только в довольно хрупком контексте.

В этом отношении постдокторант Стэнфорда и бывший журналист Александр Спангер сделал несколько попыток определить ‘новостность’ в терминах, которые могут быть применены к процессам машинного обучения и статистическому анализу; и представил доказательства автоматического генерации лидов в корпорах таких как судебные документы, государственные законопроекты и заседания городского совета, а также общественные документы – тот вид схемо-ориентированного вывода, который может превратить сценарий Fortune в 6-7 новостных статей в день:

The 'heat' of word distributions gleaned from corpora of public documents. In this case, we can see that 'authorizing' has a high score, perhaps because it represents decision, change and novelty. Source - https://arxiv.org/pdf/2311.09734

Тепло распределения слов, полученное из корпор корпоративных документов. В данном случае мы видим, что ‘авторизация’ имеет высокий балл, возможно, потому что она представляет решение, изменение и новизну. Источник

Однако проблема подходов, таких как предложение Спангера 2023 года отслеживание новостности публичных документов, заключается в том, что они, как и типичный ИИ, сосредотачиваются на наблюдаемых тенденциях в данных. Другими словами, они наблюдают за тем, что делало хорошую новость раньше, и затем ищут больше одного и того же.

В реальном мире неожиданные источники почти всегда оказываются ‘одноразовым чудом’; и за свою непредсказуемость никто не мог предсказать их внезапную известность. Затем, после того, как они принесли плоды один раз, и несмотря на случайные попытки воспользоваться мимолетной славой/известностью, они обычно никогда не произведут ничего полезного снова.

Знак времени

Следовательно, поскольку мониторинг такого рода ‘одноразового’ источника новостей обычно просто добавляет больше шума к общей буре, не может ли ИИ вместо этого выявить сигнификаторы источника, который однажды станет плодотворным? Если можно было бы выяснить, какой тип источника может в конечном итоге принести новости, можно было бы сосредоточиться на его характеристиках rather, чем на его контексте или методах.

По этой логике можно было бы сделать вывод из откровений Эдварда Сноудена 2010-х годов, что любой, кто недавно покинул службу в ЦРУ (или аналогичной организации), будет стоить того, чтобы следить за ним как за потенциальным источником будущего скандала.

Однако нет RSS-лент или API, которые, скорее всего, смогут автоматизировать этот вид постоянного мониторинга, поскольку LinkedIn и многие другие ранее открытые источники данных отступают перед лицом жадных и нарушающих закон веб-скрейперов ИИ. Даже если бы они были, частота была бы проблемой, поскольку вы не можете опросить API или сайт каждые пять секунд; помимо стоимости ресурсов, ответы платформ в виде блокировки IP сделали бы эту деятельность неустойчивой.

Кроме того, есть явно ‘человеческий аспект’ таких раскрытий, который трудно автоматизировать.

Сбор новостей с личным подходом: кадр с дискового релиза фильма Алана Дж. Пакулы 'Все люди президента', на котором изображен информатор, выходящий из тени. Источник - https://blueprintreview.co.uk/2016/11/all-the-presidents-men/

Сбор новостей с личным подходом: кадр с дискового релиза фильма Алана Дж. Пакулы ‘Все люди президента’, на котором изображен информатор, выходящий из тени. Источник

Кроме того, в реальном мире чрезвычайно трудно выявить определяющие характеристики будущего источника новостей. Это, вероятно, не ‘люди, недавно покинувшие ЦРУ’, и это определенно не определяется протоколом: платформы, такие как X или GitHub, производят слишком много сигнала сами по себе, и даже сужение поисковых терминов или категорий постов не делает большого различия – только если вы участвуете в проблеме и взаимодействуете с сообществом (или репозиторием и т. д.), вы действительно можете признать значение развития.

Даже термин такой как ‘предупреждение о безопасности’ не может контекстуализировать истинную серьезность или новостность инцидента, поскольку ссылки такого рода разбрасываются ежедневно, тысячами, в таких сообществах – и даже если вы ограничиваете этот вид мониторинга только английским языком, потенциальные вариации идиом, вместе с использованием косвенного языка, сделали бы очень трудным разбор ‘дикого’ поста в истинное новостное предупреждение.

Узкий путь

Текущий урожай систем выявления новостности, основанных на ИИ, зависит от формализованных структур данных (таких как вывод JSON из API) или от неформализованных структур данных, которые алгоритмы, разработанные ИИ, имеют шанс разобрать в структурированную схему (такую как пресс-релизы из конкретной организации):

Разобранная RSS/XML-лента, раскрывающая жесткую иерархию контейнеров данных. Источник - https://www.xml.com/articles/2023/03/06/visualising-xml-schemas/

Разобранная RSS/XML-лента, раскрывающая жесткую иерархию контейнеров данных. Источник

Очевидно, что подходы такого рода хорошо подходят для программируемого вывода, такого как скучная работа, от которой WSJ заявляет, что ИИ освободил его, включая отчеты о погоде, акциях и спортивных результатах, а также рутинные пресс-релизы из муниципальных и других государственных организаций.

Хотя возможно прикрепить ‘сигналы предупреждения человека’ к статистическим лентам, таким как погода (внезапные штормы), акции (внезапные падения) и спорт (неожиданные победы/поражения, с некоторой предварительной работой), снова, человеческое внимание все равно потребуется даже для очень стратифицированных государственных релизов, чтобы оценить новостность.

Хотя термины, такие как ‘смерть’, ‘неожиданная болезнь’, ‘утечка’ и ‘авария’, могут все помочь углубиться в новостные события, они только решают ‘рутинные’ eventualities и также не могут учитывать альтернативный язык (или языки).

Возвращение элитных писателей?

В последние годы журналистика, основанная на данных стала восходящей доской в новостных отчетах, с редакционными отделами, которые больше не ограничены ‘сладкими’ сделками по раскрытию специальных отчетов и белых бумаг крупных издателей; вместо этого они могут сами разжевать цифры.

Однако это не бесплатный обед; поскольку очевидная ценность разбора публичных данных с помощью ИИ таким образом выросла, реакция арендаторов/блокировщиков ИИ последовала – или даже предшествовала – спросу, толкая крупных игроков ИИ в скрытные тактики.

Добавленная трение Нового отступления аргументированно восстанавливает определенное количество власти от ‘гражданских журналистов’ обратно к наследственным СМИ – или, по крайней мере, хорошо финансируемым новостным организациям, которые имеют полосу, чтобы поглотить дополнительную ручную работу, необходимую для сбора, уточнения и оценки данных, в эпоху, когда издатели и домены все чаще ограничивают случайный доступ.

Итак, в некотором смысле, возможно, в духе времени, практическое проявление ИИ в журналистике, в плане того, как крупные игроки и рынки ответили на инновации и принятие ИИ, может фактически возвращать нас назад во времени: дедемократизируя средства производства новостей и добавляя препятствия на пути значимых систем оценки новостности, основанных на данных.

Общие инстинкты

Эти ограничения, очевидно, ведут нас обратно к ‘интуитивному чувству’ как к неизбежному компоненту в оценке новостности истории.

Естественно, это утешительно для тех, кто профессионально занимается этим аспектом; но самоуспокоенность была бы ошибкой, поскольку это интуиция может, до определенной степени, быть дистиллирована и операционализирована очень общим образом, который не зависит от изучения одержимостей или хобби любого отдельного человека или организации: в исследовании 2022 года исследователи из Северо-Западного университета использовали оценки новостности, полученные из толпы, потенциально новостных историй, чтобы обучить прогностическую модель, специально связанную с новостностью недавно опубликованных исследовательских работ Архів:

Вопросы опроса, представленные участникам исследования, чтобы получить обучающие данные для модели 'предсказания новостности' ИИ. Источник - https://nishalsach.github.io/pdfs/2022-newsworthiness.pdf

Вопросы опроса, представленные участникам исследования, чтобы получить обучающие данные для модели ‘предсказания новостности’ ИИ. Источник

Система довольно хорошо ранжирует кандидатов, с примерно 80% ее лучших десяти выборов, также признанных новостными экспертами. Однако согласие с экспертами оказалось только умеренным, с результатами, пропускающими такие факторы, как рамки или соответствие аудитории.

Система основана на принципах, изложенных в документе 2020 года Вычислительное открытие новостей: к вопросам проектирования для редакционных алгоритмов в журналистике. Как и в большинстве подобных проектов, эта работа решает журналистику науки, а не абстрактное сбор новостей – возможно, потому, что научная литература склоняется к шаблонному выводу, который потенциально может быть разобран в обучаемые и интерпретируемые данные.

Ну, как я наблюдал в 2021 году, это было бы так, если бы исследователи-ученые нечасто злоупотребляли конвенциями подачи исследовательских работ, чтобы скрыть или преуменьшить непечальные результаты или даже прямую неудачу.

Даже большим вызовом является большая трудность, с которой системы ИИ сталкиваются при интерпретации фигур и таблиц в научных работах, до такой степени, что это занятие недавно стало активной ветвью в литературе:

Из статьи 'SciFigDetect: Бенчмарк для обнаружения научных фигур, сгенерированных ИИ', показывающий реальные научные фигуры, их генерационные подсказки и синтетические аналоги, произведенные Nano Banana и GPT по трем категориям: иллюстрация, обзор и экспериментальные фигуры. Источник - https://arxiv.org/pdf/2604.08211v1

Из статьи ‘SciFigDetect: Бенчмарк для обнаружения научных фигур, сгенерированных ИИ’, показывающий реальные научные фигуры, их генерационные подсказки и синтетические аналоги, произведенные Nano Banana и GPT по трем категориям: иллюстрация, обзор и экспериментальные фигуры. Источник

Это часто бывает так, что график или таблица содержат результаты, которые основной текст работы либо сообщает с избирательным предвзятостью, либо совсем игнорирует любые негативные последствия, подразумеваемые результатами таблицы/графика. Следовательно, это препятствие на пути ИИ-журналистики не является незначительным.

Одинокий снова, естественно

Метод, основанный на толпе, описанный выше, предполагает некоторое возможное согласие между общим консенсусом по потенциальным новостным историям и профессиональной оценкой одних и тех же. Но без контекста только самые широкие мазки новостности могут быть, очевидно, определены.

Сила ИИ заключается в его способности, в зависимости от конфигурации, изолировать аутсайдеров – либо для цели отклонения их как криво-изгибающего и бессмысленного исключения из тенденций в наборе данных, или (более актуально для сбора новостей) для выявления значимых и ценных необычных случаев и событий:

Аутсайдеры (в красном) в разбросанном графике. Источник - https://stackoverflow.com/questions/73079324/python-removing-outliers-from-plotly-scatter-plot

Аутсайдеры (в красном) в разбросанном графике. Источник

На принципе, что молния редко бьет дважды, почти все хитрые новостные истории являются аутсайдерами. В случаях, когда они исходят из активной и взрывоопасной области, такой как продолжающаяся война, эту область можно бдительно сканировать с высокой вероятностью появления новостных историй – но за счет массового противостояния, поскольку общее внимание, скорее всего, также сосредоточено на области.

Многие новостные научные лиды, по определению, не являются центром распределения языка. Они редкие комбинации методов, удивительные отрицательные результаты или аномальные репликации. Если компетентность модели ухудшается непропорционально на таких низкочастотных группировках, то именно в том регионе, где редакторский ‘нос’ должен быть острым, становится регионом, где модель является наименее надежной.

Проблемы доверия

При поиске новых историй журналисты балансируют множество ограничений, включая время, доступ, достоверность, аудиторию и организационные приоритеты), что приводит к неочевидным выборам. Обзор литературы 2022 года из Дании охарактеризовал журналистов как балансирующих множество проблем, остро осознающих, что источники могут иметь программы или быть дезинформированы; и часто обходящих прямую проверку в пользу косвенных сигналов доверия, когда они работают под давлением.

Эти же ‘проблемы доверия’ были бы препятствием в разработке любой окончательной системы выявления новостности, основанной на ИИ, поскольку взаимодействие с такой платформой требует от пользователя доверять, что любая алгоритмически-отклоненная статья действительно не стоит времени писателя.

Обширное бета-тестирование и повторная тренировка или тонкая настройка, с человеческим надзором, подхватывающим стрays и отстающих, могли бы в конечном итоге улучшить надежность такого подхода; но сдвиг в национальной или глобальной культуре – такой как удивительные изменения в политическом ландшафте или вспышка войны – неизбежно нарушит все базовые приоритеты такой тонко-настроенной системы, оставив писателя, зависимого от ИИ, чтобы перестроить необходимую ‘внутреннюю модель области’ почти с нуля.

 

Опубликовано впервые в понедельник, 20 апреля 2026 года

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.