Взгляд Anderson

Исследования показывают, что ChatGPT имеет высокий уровень достоверности в качестве источника новостей

mm
A woman riding the NYC subway is influenced by a robot sitting next to her. The robot has the ChatGPT logo on the side of its head, and is whispering confidentially to her. Qwen, Firefly V3 et al.

Новые исследования показывают, что метки проверки фактов ChatGPT превосходят лайки, репосты и даже доверенные новостные бренды, когда речь идет о формировании того, во что люди верят и хотят поделиться в Интернете.

 

Новое исследование 1000 человек показало, что когда ChatGPT присваивает рейтинг достоверности политическим новостям, это часто меняет то, во что люди верят, и хотят ли они поделиться ею – независимо от их первоначальных политических взглядов. Более традиционные факторы влияния, такие как лайки или репосты, не оказали существенного влияния, но суждение ИИ сильно повлияло на то, насколько достоверной казалась новость:

Из новой статьи, иллюстрация того, как люди оценивают заголовок новости, основанную на трех взаимодействующих сигналах: соответствует ли история их политической идентичности; сколько взаимодействий она имеет в социальных сетях; и сигналы достоверности, предоставляемые учреждениями или системами ИИ. Эти влияния объединяются, чтобы сформировать как воспринимаемую точность, так и вероятность обмена контентом. [ Источник ] https://arxiv.org/pdf/2511.02370

Из новой статьи, иллюстрация того, как люди оценивают заголовок новости, основанную на трех взаимодействующих сигналах: соответствует ли история их политической идентичности; сколько взаимодействий она имеет в социальных сетях; и сигналы достоверности, предоставляемые учреждениями или системами ИИ. Эти влияния объединяются, чтобы сформировать как воспринимаемую точность, так и вероятность обмена контентом. Источник

Степень, в которой сводки ИИ принимаются в качестве достоверных источников новостей, является, возможно, одной из наиболее важных тем в СМИ за многие годы, не в последнюю очередь потому, что сводки ИИ Google отняли трафик у большинства крупных онлайн-СМИ в 2025 году, и нет уверенности, куда этот перенос власти может привести в долгосрочной или даже среднесрочной перспективе.

Авторы новой работы заявляют:

Эти результаты подчеркивают как потенциал, так и риск алгоритмической обратной связи в формировании общественного понимания. Сигналы, сгенерированные ИИ, могут помочь смягчить предвзятость и повысить способность к различению достоверности, но их влияние варьируется в зависимости от политической идентичности и несет этические риски, связанные с чрезмерной зависимостью […]

‘…Влияние ChatGPT подчеркивает критический компромисс: хотя убедительная, обратная связь ИИ может заменить критическое мышление, если не будет тщательно сформулирована.’

Авторы предлагают, что будущие исследования должны сосредоточиться на улучшении вмешательств достоверности ИИ, которые более независимы и поддерживают известные факты, и они отмечают, что это особенно важно в поляризующих темах.

Помимо очевидного возвышения ChatGPT в качестве “авторитета” и неожиданно низкого влияния сигналов обмена в тестах (которые, по мнению авторов, могут быть связаны с немного стерильными условиями тестирования), еще один интересный результат из исследований связан с демографическими данными и гендером:

‘Женщины и представители меньшинств (особенно черные и латиноамериканские пользователи) более положительно отреагировали на обратную связь, основанную на ИИ, чем на институциональные метки.’

Новая работа озаглавлена “Сигналы достоверности ИИ превосходят учреждения и взаимодействие в формировании восприятия новостей в социальных сетях”, и исходит от трех исследователей Университета Нотр-Дам.

Давайте более внимательно рассмотрим методы и выводы статьи.

Метод

Были протестированы четыре гипотезы: что люди будут оценивать заголовки как более точные, когда эти заголовки отражают их политические взгляды; что сгенерированные ИИ рейтинги достоверности будут более влиятельными, чем сигналы от установленных учреждений; что заголовки с высоким уровнем взаимодействия (т. е. измеряемым через лайки, репосты или комментарии) будут восприниматься как более достоверные; и что пользователи будут склонны принимать суждение ИИ о точности заголовка, даже когда оно противоречит их собственным убеждениям.

Участники исследования были получены из платформы Prolific, и должны были быть свободно владеть английским языком, а также регулярно потреблять новости; и процесс рандомизации обеспечил, что участники представляли разнообразие расовых и гендерных взглядов.

В эксперименте* участники были разделены на четыре группы, каждая из которых была показана разный тип обратной связи рядом с заголовками новостей.

В первой группе (контрольной группе) не предоставлялась никакая дополнительная информация о том, насколько достоверным может быть заголовок; во второй группе заголовки были помечены рейтингом предвзятости от GroundNews, сервиса, который классифицирует источники новостей как левые, центристские или правые.

Третья группа увидела те же метки GroundNews, но намеренно перевернутые, создавая несоответствие, предназначенное для проверки того, будут ли пользователи обнаруживать искажение.

Финальная группа была показана оценкам достоверности, написанным ChatGPT, предлагающим краткое объяснение и рейтинг, такой как ‘вероятно неточен’:

Концептуальная схема эксперимента: каждый участник был показан политические заголовки с различными комбинациями меток достоверности и сигналов социального взаимодействия. Ответы были собраны на то, насколько точным казался каждый заголовок и насколько вероятно его поделиться, с полной последовательностью, повторенной через 21 предмет.

Концептуальная схема эксперимента: каждый участник был показан политические заголовки с различными комбинациями меток достоверности и сигналов социального взаимодействия. Ответы были собраны на то, насколько точным казался каждый заголовок, и насколько вероятно его поделиться, с полной последовательностью, повторенной через 21 предмет.

Данные и тесты

Каждый участник был показан последовательность из 21 политического заголовка новостей. Для каждого заголовка уровень социального взаимодействия варьировался; иногда он показывал нет лайков или репостов, иногда много. Эти сигналы взаимодействия были рандомизированы, чтобы избежать фиксированных шаблонов.

Заголовки сами по себе были взяты из смеси политических взглядов и были помечены как левые, правые или центристские.

После каждого заголовка участники были спросили, насколько точным они думают, что он является, и будут ли они рассматривать возможность его поделиться. Поскольку каждый участник уже заявил о своей собственной политической принадлежности, было возможно проанализировать, оцениваются ли заголовки из той же стороны политического спектра более благоприятно.

Участники оценили каждый заголовок дважды: один раз за то, насколько он казался точным, и один раз за то, насколько вероятно они будут его делиться, с их ответами, измеренными по шкале от 0 до 10.

Исследователи затем объединили эти ответы с дополнительными данными: демографической и медиа-информацией от каждого участника; политическими тегами для каждого заголовка; типом сигнала достоверности; и уровнем социального взаимодействия.

Влияние политической идентичности

В первом тесте, который проверял, оценивают ли люди заголовки как более точные, когда политическая позиция заголовка соответствует их собственным взглядам, результаты показали, что участники были более склонны верить заголовкам, которые соответствовали их политическим взглядам – но это зависело от группы.

Умеренные показали наиболее сильную предвзятость в сторону своей собственной стороны, в то время как либералы и консерваторы склонялись к доверию центристским заголовкам; и в целом нейтральные заголовки были оценены как более точные, чем левые или правые.

Иллюстрация того, как рейтинги точности и обмена изменились в зависимости от политической позиции заголовка и политической принадлежности участника. Умеренные были наиболее склонны оценивать 'внутригрупповые' заголовки как точные, в то время как либералы и консерваторы отдавали предпочтение центристским заголовкам. Поведение при обмене следовало аналогичному шаблону, с ограниченной внутригрупповой предвзятостью вне умеренной группы.

Иллюстрация того, как рейтинги точности и обмена изменились в зависимости от политической позиции заголовка и политической принадлежности участника. Умеренные были наиболее склонны оценивать ‘внутригрупповые’ заголовки как точные, в то время как либералы и консерваторы отдавали предпочтение центристским заголовкам. Поведение при обмене следовало аналогичному шаблону, с ограниченной внутригрупповой предвзятостью вне умеренной группы.

В результатах этого первого эксперимента была обнаружена скромная внутригрупповая предвзятость в обмене; но только для умеренных, которые были более склонны делиться политически выровнеными (т. е. нейтральными) заголовками. Либералы и консерваторы не показали такой тенденции.

Анализ дисперсии (ANOVA), метод, используемый для обнаружения различий между группами, показал, что выравнивание повлияло на обмен только тогда, когда оно взаимодействовало с политической идентичностью. Достоверность и обмен были связаны, но только умеренные показали четкий шаблон в обоих.

Учреждения vs. достоверность ИИ

Следующий тест спросил, доверяют ли люди рейтингам ИИ больше, чем традиционным источникам, таким как веб-сайты рейтинга новостей – особенно когда рейтинги могут не согласовываться с их политикой:

Рейтинги достоверности и обмена через источники обратной связи: все три сигнала увеличили точность по сравнению с контролем, с GroundNews, который дал наивысшие рейтинги. Однако ChatGPT произвел наибольшие приросты в обмене, что говорит о более широком убедительном влиянии. Полосы ошибок показывают 95% доверительные интервалы; звездочки отмечают значимые парные различия.

Рейтинги достоверности и обмена через источники обратной связи: все три сигнала увеличили точность по сравнению с контролем, с GroundNews, который дал наивысшие рейтинги. Однако ChatGPT произвел наибольшие приросты в обмене, что говорит о более широком убедительном влиянии. Полосы ошибок показывают 95% доверительные интервалы, и звездочки отмечают значимые парные различия.

Все обратные связи увеличили воспринимаемую точность; но GroundNews был наиболее эффективным, когда он соответствовал политике пользователя.

ChatGPT повысил рейтинги точности во всех направлениях, что указывает на то, что он был воспринят как более нейтральный. Консерваторы были менее подвержены влиянию GroundNews, но отреагировали на ChatGPT аналогично другим группам:

Здесь мы видим влияние обратной связи ChatGPT на воспринимаемую точность. Результаты подтверждают, что доверие к институциональным сигналам зависит от соответствия, в то время как доверие к алгоритмическим сигналам не зависит. ChatGPT повысил как достоверность, так и обмен во всех группах, особенно среди консерваторов.

Здесь мы видим влияние обратной связи ChatGPT на воспринимаемую точность. Результаты указывают на то, что доверие к институциональным сигналам зависит от соответствия, в то время как доверие к алгоритмическим сигналам не зависит. ChatGPT повысил как достоверность, так и обмен во всех группах – особенно среди консерваторов.

Социальные метрики имеют мало влияния

Третий анализ проверил, будут ли видимые социальные взаимодействия, такие как лайки, репосты и комментарии, повышать достоверность или обмен, действуя как социальное доказательство; но такого эффекта не было обнаружено.

Тесты показали, что уровни взаимодействия, такие как лайки или репосты, не оказали существенного влияния на то, насколько точными казались заголовки, и только слабое, ненадежное влияние на то, насколько они казались обменными; в отличие от алгоритмических или институциональных сигналов, эти социальные сигналы не казались влияющими на суждения в этом контексте, по причинам, упомянутым ранее в статье.

Обратная связь ИИ влияет на то, кому доверяют люди

Четвертый и последний эксперимент проверил, будут ли пользователи корректировать свои суждения о достоверности и обмене в ответ на сгенерированные ИИ метки: точные; относительно точные; непроверенные; или неточные, все присвоенные ChatGPT.

Участники сильно отреагировали на сгенерированные ИИ метки достоверности. Рейтинги точности возросли или снизились в соответствии с обратной связью ChatGPT, с наибольшим эффектом, когда заголовки были помечены точными или неточными:

Обратная связь ChatGPT повлияла на рейтинги точности и обмена. Сверху: Рейтинги точности возросли с более положительными метками, особенно когда заголовки были помечены 'Точными', и снизились, когда были помечены 'Неточными'. Снизу: Обмен следовал аналогичному шаблону, но показал большую вариацию по группам: либералы отреагировали наиболее сильно на отрицательные сигналы, в то время как консерваторы показали более сдержанные сдвиги.

Обратная связь ChatGPT повлияла на рейтинги точности и обмена. Сверху: Рейтинги точности возросли с более положительными метками, особенно когда заголовки были помечены ‘Точными’, и снизились, когда были помечены ‘Неточными’. Снизу: Обмен следовал аналогичному шаблону, но показал большую вариацию по группам: либералы отреагировали наиболее сильно на отрицательные сигналы, в то время как консерваторы показали более сдержанные сдвиги.

Политическая идентичность сформировала эти эффекты, с пользователями, которые доверяли ChatGPT больше, когда его обратная связь соответствовала их собственным взглядам.

Поведение при обмене следовало аналогичному шаблону: заголовки из внутригруппы, помеченные как точные, были поделены наиболее часто, особенно под неоднозначными метками, такими как относительно точные.

Эти результаты, по мнению статьи, предполагают, что обратная связь ИИ может сдвигать поведение пользователей; и что она также рискует укреплять партийные разногласия или препятствовать критическому мышлению.

Кто доверяет ИИ больше всего?

Дополнительный анализ изучил, как демографические данные пользователей сформировали их реакции на метки достоверности. Обратная связь ChatGPT повысила рейтинги точности в целом, но эффект был слабее среди высокообразованных пользователей и частых потребителей социальных сетей, которые показали больше скептицизма.

Эти же группы отреагировали негативно на GroundNews и перевернутые сигналы, что, по мнению статьи, предполагает, что явные маркеры предвзятости могут отталкивать более медиа-грамотных пользователей.

Напротив, женщины и представители меньшинств, особенно черные и латиноамериканские пользователи, отреагировали более положительно на ChatGPT, чем на институциональные сигналы:

Ответы демографических групп на типы обратной связи, с каждой панелью, показывающей, как конкретная группа отреагировала на разные сигналы достоверности. Рейтинги ChatGPT имели наиболее сильное и последовательное влияние на точность, в то время как эффекты на обмен были менее однородными, с вариацией по расе, полу и медиа-использованию.

Ответы демографических групп на типы обратной связи, с каждой панелью, показывающей, как конкретная группа отреагировала на разные сигналы достоверности. Рейтинги ChatGPT имели наиболее сильное и последовательное влияние на точность, в то время как эффекты на обмен были менее однородными, с вариацией по расе, полу и медиа-использованию.

Поведение при обмене отражало этот раскол: GroundNews снизил обмен наиболее резко среди пользователей социальных сетей и новостных хакеров, в то время как эффекты ChatGPT были более смешанными, даже повышая обмен в некоторых группах, с обладателями высшего образования, особенно отзывчивыми ко всем типам обратной связи.

Авторы заключают:

‘Эти результаты имеют прямые последствия для проектирования вмешательств достоверности в социотехнических системах. Пользователи все больше влияются алгоритмической обратной связью, которая может заменить институциональные сигналы и смягчить партийную предвзятость – но также рискует способствовать чрезмерной зависимости.

‘Институциональные сигналы остаются эффективными для некоторых пользователей, но их влияние уменьшается в политически поляризованных или [низкодоверительных] средах. Тем временем, метрики взаимодействия, такие как лайки и репосты, были в основном проигнорированы, что говорит о снижении убедительного значения, когда они представляются без социального контекста.

‘Чтобы поддержать справедливую и информированную оценку новостей, вмешательства, основанные на ИИ, должны быть прозрачными, объяснительными и разработаны для повышения пользовательской активности.

‘Будущая работа должна изучить эти механизмы в более экологически действительных условиях, оценить альтернативные рамки достоверности ИИ и разработать адаптивные системы, которые способствуют критическому взаимодействию в политически разнообразных аудиториях.’

Заключение

Учитывая тенденцию всех текущих генеративных систем ИИ галлюцинировать и искажать правду, можно с уверенностью сказать, что широкое внедрение ChatGPT (даже если оно немного замедляется) представляет собой огромный скачок веры в то, что архитектуры таких систем не могут оправдать и не поддерживают.

Одной из проблем доверия к представлению ИИ новостей является отсутствие эффективных систем, которые могут контекстуализировать источники новостей как ‘политически аффилированные’ или склоняющиеся к одной или другой стороне политического спектра.

Даже среди наиболее авторитетных источников четвертой власти выбор того, что и что не покрыто, является сам по себе политическим заявлением. Ни ChatGPT, ни его аналоги в настоящее время не в состоянии ориентироваться в этих слоях интерпретативной предвзятости, и сама тема приглашает обсуждение, а не твердые выводы.

Другой проблемой является то, что системы такого типа появились на сцене в одно из наиболее поляризованных и разделенных периодов человеческой истории за последние 80 лет, и в то время, когда общество наиболее готово слушать ‘альтернативные голоса’ – такие как совершенно новый жанр технологий, который продвигается как необходимый фильтр правды мира, а не то, чем он действительно является: предсказателем статистических вероятностей, питаемым большими объемами партийной информации.

 

* Детали, которые авторы сделали доступными в Интернете (см. исходную статью, нижняя часть страницы 2, для URL-адресов). Однако эти данные требуют регистрации для просмотра, и поскольку я не стал进一步 заниматься этим вопросом на тот момент, я не могу подтвердить, что их можно просмотреть полностью без оплаты и/или определенных типов учетных данных.

Опубликовано в среду, 5 ноября 2025 года

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.