Взгляд Anderson

ИИ отдает предпочтение даже неправильным ответам человека над правильными ответами ИИ

Published February 20, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated photo of the Abraham Lincoln memorial thronged with tourists, next to a copy of the seated Lincoln statue, which has been substituted by a shiny robot. The robot has no tourists at its feet. Model: GPT-1.5.

Модели языка ИИ гораздо более склонны согласиться с человеческими экспертами, чем с другими ИИ, даже когда эксперты ошибаются, что раскрывает встроенную предвзятость в пользу человеческой власти.

Новое исследование в США показало, что ряд ведущих открытых и проприетарных больших языковых моделей (БЯМ) склонны присваивать авторитет источникам информации, которые они признают как “человеческие”, а не источникам, которые они признают как “ИИ” – даже когда человеческие ответы неверны, а ответы, предоставленные ИИ, верны.

Авторы заявляют:

‘Во всех задачах модели значительно больше соответствуют ответам, помеченным как исходящим от человеческих экспертов, включая когда этот сигнал неверен, и меняют свои ответы в сторону экспертов более охотно, чем в сторону других БЯМ.’

Тестируемые модели включали БЯМ из стабильных Grok 3 и Gemini Flash.

В тестах языковые модели должны были ответить на бинарные вопросы “да” или “нет” и затем были показаны предыдущие ответы, которые были описаны моделям как исходящие либо от человеческих экспертов, либо от друзей, либо от других больших языковых моделей – с единственной изменением в виде указанного источника совета, а не содержания самого по себе.

В первом из трех конфигураций для тестов модели были разрешены полагаться на свои собственные обученные матрицы. Источник

Во всех задачах ответы, помеченные как исходящие от человеческих экспертов, были оценены более высоко, и модели были более склонны изменить свои первоначальные ответы, чтобы соответствовать этим ответам, даже в случаях, когда ответ, помеченный как эксперт, был неверным, а первоначальный ответ модели был верным.

Здесь БЯМ имеет доступ к смеси друзей, экспертов и БЯМ, включая свою собственную обученную матрицу. Поскольку девять экспертов ответили 'Нет', БЯМ соглашается, меняя свое мнение с предыдущего ответа. Здесь ответ, полученный неверен, поскольку центральный банк Индии действительно национализирован.

Поскольку девять экспертов ответили ‘Нет’, БЯМ соглашается, меняя свое мнение с предыдущего ответа. Здесь ответ, полученный неверен, поскольку центральный банк Индии действительно национализирован.

Когда те же ответы были атрибутированы другим ИИ, эффект был менее выраженным. Та же тенденция появилась, когда один человеческий источник и один ИИ-источник были представлены в несогласии, поскольку модели показали большую склонность отдавать предпочтение человеческой позиции, независимо от того, какая сторона была фактически точной:

Учитывая выбор между мнением одного эксперта и мнением БЯМ, хост-БЯМ отдает предпочтение человеческому ответу, который в данном случае неверен, и отвергает правильный ответ, данный БЯМ.

Термин “человеческий эксперт” функционирует здесь как сигнал достоверности, который изменяет поведение модели, независимо от того, насколько правильна информация на самом деле; и авторы отмечают, что достоверность источника является значительным вкладом в принятие совета и конформизм: тенденция людей отдавать предпочтение экспертным источникам была наблюдена так далеко, как 1959 год, хотя исследование 2007 года наблюдает, что переоценка или недооценка авторитетных источников может произойти в определенных системах оценки. Исследователи новой статьи утверждают:

‘Вместе, эти литературы предполагают два сигнала, которые должны иметь значение, если БЯМ рассматривают предыдущие ответы как доказательство: кто произвел ответы (достоверность) и насколько сильным кажется консенсус (сила сигнала). ‘

‘В то же время БЯМ не испытывают социального одобрения или смущения в человеческом смысле, поэтому любое подобное конформизму поведение должно возникать из выученных эвристик, целей инструкций или неявного моделирования надежности.’

Склонность БЯМ к сикофантскому согласию является частью фона для нового исследования; после все, если БЯМ склонны ‘угождать людям’, даже за счет истины и полезности, почему они не должны в целом отдавать предпочтение другим человеческим источникам, кроме прямого вопроса?

Новая статья называется Кому доверяют БЯМ? Человеческие эксперты важнее, чем другие БЯМ, и исходит от двух исследователей из Университета Индианы в Блумингтоне.

Метод и данные

Для работы были оценены четыре модели языка, настроенные на инструкции: Grok-3 Mini; Llama 3.3 70B Instruct; Gemini 2.5 Flash-Lite; и DeepSeek V3.1, все запущенные под одной и той же структурой подсказки, с детерминистическим декодированием при температуре ноль, так что изменился только метка источника (т.е. друзья, эксперты или другие БЯМ), а не формулировка.

Четыре набора данных, требующих бинарных ответов, были выбраны: BoolQ; StrategyQA; и ETHICS. Исследователи курировали из каждого набора данных фиксированный набор из 300 запросов и ответов, с каждой подсказкой, требующей только бинарного да или нет ответа. Каждая подсказка была дополнена краткой заметкой, указывающей, как другая группа ответила на тот же вопрос.

Метрики

Метрики, использованные в работе, были точность; конформизм; вредный конформизм; коэффициент переключения; и направление переключения.

Точность в данном случае измеряла, как часто ответ модели совпадал с меткой набора данных; конформизм, как часто ответ совпадал с выбором группы; вредный конформизм изолировал тот же эффект, когда группа была неверной; коэффициент переключения измерял, как часто модель меняла свой базовый ответ, когда добавлялась социальная информация; и направление переключения, менялся ли ответ в сторону человека или в сторону противоположного БЯМ.

Анализ на уровне токенов для Llama-3.3 70B затем измерил, как внутренние вероятности модели для Да и Нет менялись, когда добавлялся социальный сигнал, сравнивая эти сдвиги с ее собственной базовой линией без приора, чтобы показать силу этого притяжения.

Тесты

Эксперимент 1

Первый из двух основных экспериментов оценил, слушают ли модели больше человеческих источников или других моделей. Каждый вопрос сопровождался заявленным “ответом группы” (друзья, человеческие эксперты или другие БЯМ).

Группа могла быть мала или большой, и каждый вопрос также появлялся один раз без группы. Ответы группы были установлены так, чтобы быть правильными половину времени и неверными половину времени, с общей целью определить, насколько сильно модель смещалась в сторону выбора группы:

Результаты из начального теста: однородные социальные априоры через BoolQ, StrategyQA и ETHICS показаны для Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite и DeepSeek V3.1. Точность появляется в верхних панелях, а конформизм, определенный как вероятность совпадения с единогласным априором, появляется ниже по мере увеличения размера группы от одного до девяти. Пунктирная черная линия отмечает базовую линию без приора, а сплошные и пунктирные линии указывают, согласен ли приор с меткой набора данных или нет. Экспертная рамка производит наиболее сильные эффекты конформизма, особенно при больших размерах группы. Полосы ошибок показывают 95% доверительные интервалы Уилсона. Пожалуйста, обратитесь к исходной статье для лучшего разрешения.

Во всех задачах ответы, помеченные как исходящие от человеческих экспертов, повлияли на модели гораздо сильнее, чем ответы, помеченные как исходящие от друзей или других БЯМ – и это притяжение увеличивалось по мере того, как больше экспертов, как говорили, соглашались.

Чтобы измерить, когда это влияние приводило к нежелательным результатам, вредный конформизм был определен как шанс, что модель следовала за приором, который был на самом деле неверным.

Когда девять экспертов согласились на неверный ответ, модели следовали за ними 36,5% времени на BoolQ, по сравнению с 16,0%, когда тот же ответ был атрибутирован БЯМ; на StrategyQA разрыв составил 39,0% против 15,5%; и на ETHICS он составил 63,9% против 38,7%:

Сдвиги внутренних вероятностей в Llama-3.3 70B на BoolQ. Панель (А) показывает изменения в балансе модели между Да и Нет по отношению к единогласному приору по мере увеличения размера группы, относительно ее базовой линии без приора, с наибольшими сдвигами под экспертной рамкой. Панель (Б) показывает сдвиги при прямом конфликте между человеком и БЯМ, где экспертная рамка приводит к сильному движению в сторону человеческого ответа, даже когда он неверен. Полосы ошибок показывают 95% доверительные интервалы бутстрэпа.

Напротив, приоры, атрибутированные друзьям, поведение было почти точно такое же, как и при атрибутированных другим БЯМ, что указывает на то, что эффект был обусловлен конкретно словом эксперт, а не “социальными” индикаторами.

Эксперимент 2

Второй эксперимент представил две не согласные приоры тестируемому БЯМ – одну, атрибутированную человеку, и другую – другой БЯМ. Человек был описан либо как группа друзей, либо как эксперты в области, в то время как противоположный ответ был помечен как исходящий от других БЯМ. Два всегда не соглашались, с одним, говорящим Да, и другим – Нет.

Для каждого элемента настройка была сбалансирована так, чтобы иногда человек был правильным, а иногда БЯМ был правильным, чтобы проверить, изменит ли модель свой первоначальный ответ, когда столкнется с этим конфликтом – и, если да, то в какую сторону он переместится.

Чтобы увидеть, изменила ли модель свое мнение, ее ответ в условии конфликта был сравнен с ее ответом на тот же вопрос, когда не показывались никакие предыдущие мнения, так что любая разница могла быть отнесена к присутствию конкурирующих человеческих и БЯМ-ответов.

Анализ был сосредоточен на двух результатах: изменила ли модель свой ответ; и, если да, то в какую сторону переместился ответ.

Статистические тесты были использованы для оценки, увеличивает ли пометка человека как эксперта, а не друга, вероятность переключения в сторону человеческого ответа, учитывая различия в наборах данных и моделях:

Пересмотр убеждений при прямом конфликте между человеком и БЯМ через BoolQ, StrategyQA и ETHICS для Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite и DeepSeek V3.1. Каждый столбец показывает, среди случаев, когда модель изменила свой первоначальный ответ, долю этих изменений, которые переместились в сторону человека, а не в сторону противоположного БЯМ. Пунктирная линия на 0,5 отмечает отсутствие предпочтения; метки показывают количество случаев переключения в каждом условии; и полосы ошибок показывают 95% доверительные интервалы Уилсона. Пожалуйста, обратитесь к исходной статье для лучшего разрешения.

Во втором эксперименте модели сначала ответили на каждый вопрос самостоятельно, затем были показаны два не согласных ответа, один атрибутированный человеку, а другой – другой БЯМ. Анализ рассматривал только случаи, когда модель пересмотрела свой первоначальный ответ.

Когда человек был помечен как эксперт, модели переключались в сторону человека 91,2% времени на BoolQ, 94,7% на StrategyQA и 81,3% на ETHICS. Когда человек был помечен как друг, модели переключались в сторону человека только 39,8%, 37,9% и 27,9% времени, обычно отдавая предпочтение БЯМ вместо этого.

Переключение было редким в целом, но более распространенным с экспертами, и экспертная рамка сделала переключение в сторону человека примерно четырнадцать раз более вероятным, чем рамка друга.

В попытке объяснить общую тенденцию, обнаруженную в их тестах, авторы гипотетически утверждают:

‘Правдоподобный механизм заключается в том, что настройка на инструкции и оптимизация предпочтений вознаграждают кооперативное поведение, включая уступку контекстной информации, которая может обобщаться до уступки социально оформленным приорам.

‘Связанная работа о сикофантстве показывает, что помощники, обученные с помощью RLHF, иногда отдают предпочтение согласию с заявленными убеждениями пользователя над истинностью.’

Мнение: Потенциальные ловушки доверия ИИ к человеческим источникам

Поскольку онлайн-материалы, отражающие растущий человеческий скептицизм об ограничениях ИИ (особенно галлюцинации), скрапируются в наборы данных для обучения новых моделей, существующая тенденция БЯМ отдавать предпочтение человеческим источникам, кажется, вероятно, усиливается. Если мы считаем последние два года (2024-2025 включительно) культурным всплеском для ИИ, что кажется оправданным по ряду статистических данных, мы можем разумно ожидать, что большее количество негативных взглядов на “источники ИИ” будет включено в гипермасштабные, дорогостоящие в обучении БЯМ-рамки в течение следующего года или около того.

Мы также можем ожидать, что популярные языковые модели все чаще будут полагаться на手picked авторитеты, такие как хорошо известные медиа-порталы – даже если мотивация для таких сделок заключается в успокоении негодования издателей по поводу скрапированных данных, а не в искреннем желании уступить или поделиться властью.

Поскольку даже высокоавторитетные источники, такие как Ars Technica, подвержены ошибкам, обусловленным ИИ, и поскольку появляющаяся отступление против ботов ИИ-вебскрейпера угрожает в конечном итоге ухудшить качество выходных данных ИИ, общая тенденция отдавать предпочтение “экспертным” источникам может конфликтовать с нашей текущей неспособностью количественно оценить и пометить “человеческий” вывод эффективно – не говоря уже о различении, является ли источник “экспертом” или нет (журналистская конвенция, которая также подвергается атакам ИИ).

Наиболее то, что у нас есть сейчас, – это фрагментированная серия полуадоптированных инноваций, предназначенных для явной маркировки контента как сгенерированного ИИ, таких как инициатива Adobe Content Authenticity Initiative, и добровольное расположение определенных издателей включать предупреждения о использовании ИИ в их выходных данных.

Итак, хотя может показаться обнадеживающим для тех, кто желает сохранить и обеспечить человеческие источники как “достоверную” достоверность для формирующегося консенсуса реальности, распространяемой ИИ-системами, чем более определены БЯМ о человеческой власти, тем более опасным может стать “фальшивый” человеческий авторитет.

Проблема столь же практична, как и теоретична: мы еще не решили проблему определения или аутентификации происхождения; поэтому ИИ, который “доверяет человеческим источникам”, вероятно, атрибутирует человечность своему собственному выходу, просто потому, что мы не предоставили, и не можем легко предоставить, осмысленные механизмы аутентификации происхождения.

* Мое преобразование внутренних цитат авторов в гиперссылки.

Опубликовано впервые в пятницу, 20 февраля 2026 года