Угол Андерсона

Искусственный интеллект отдает предпочтение даже неверным ответам человека перед правильными ответами ИИ.

опубликованный 20 февраля 2026

Мартин Андерсон

Фотография, созданная с помощью ИИ, мемориала Авраама Линкольна, переполненного туристами, рядом с копией сидящей статуи Линкольна, которую заменил блестящий робот. У ног робота нет туристов. Модель: GPT-1.5.

Языковые модели искусственного интеллекта гораздо чаще склоняются на сторону экспертов-людей, чем другие модели ИИ, даже когда эксперты ошибаются, что свидетельствует о заложенной в них предвзятости по отношению к авторитету человека.

Новое исследование из США показало, что ряд ведущих открытых и проприетарных моделей обработки больших языков (LLMКак правило, они отдают предпочтение источникам информации, которые признают «человеческими», а не «искусственным интеллектом» — даже если ответы людей неверны, а ответы, предоставленные ИИ, верны.

Авторы заявляют:

«В различных задачах модели значительно чаще соответствуют ответам, помеченным как исходящие от экспертов, в том числе и в случаях, когда этот сигнал неверен, и корректируют свои ответы в соответствии с мнением экспертов чаще, чем в соответствии с другими моделями на основе линейных моделей».

В число протестированных моделей вошли LLM из Грок 3 и Близнецы Флэш стабильный.

В ходе тестирования от языковых моделей требовалось отвечать на бинарные вопросы. Да or нет им задавали вопросы, а затем показывали предыдущие ответы, которые, как было описано моделям, были получены либо из человеческие эксперты, Из друзья, Или другие крупные языковые модели – при этом изменение касается только указанного источника рекомендаций, а не самого содержания.

В первой из трех конфигураций для тестирования моделям разрешалось использовать собственные обученные матрицы. Источник

В разных задачах ответы, помеченные как исходящие от экспертов, имели больший вес, и модели чаще корректировали свои первоначальные ответы, чтобы они соответствовали этим ответам, даже в тех случаях, когда ответ, помеченный экспертом, был неверным, а первоначальный ответ модели был правильным.

В данном случае магистрант по праву имеет дело с группой друзей, экспертов и магистров по праву, включая собственную подготовленную команду. Поскольку девять экспертов в данной области ответили «Нет», магистрант соглашается, меняя свое предыдущее мнение. Однако полученный ответ неверен, поскольку центральный банк Индии действительно национализирован.

Поскольку девять экспертов в данной области ответили «Нет», LLM соглашается с этим, изменяя свое мнение по сравнению с предыдущим ответом. В данном случае полученный ответ неверен, поскольку центральный банк Индии действительно национализирован.

Когда одни и те же ответы были приписаны другими В случае с LLM эффект был менее выраженным. Та же тенденция наблюдалась, когда один источник информации, предоставленный человеком, и один источник информации, предоставленный ИИ, были представлены в несогласии, поскольку модели демонстрировали большую склонность отдавать предпочтение позиции, размеченной человеком. независимо от того, чья сторона была фактически права:

При выборе между мнением одного эксперта в данной области и мнением магистра права, принимающий магистр права отдает предпочтение ответу человека, который в данном случае неверен, и отвергает правильный ответ, данный магистром права.

При выборе между мнением одного эксперта в данной области и мнением магистра права, принимающая сторона отдает предпочтение ответу человека, который в данном случае неверен, и отклоняет (правильный) ответ, данный магистра права.

Термин «эксперт-человек» здесь выступает в роли сигнала доверия, который изменяет поведение модели независимо от того, насколько верна информация на самом деле; и авторы отмечают, что доверие к источнику является существенным фактором, влияющим на принятие советов и конформизм: тенденция к люди было отмечено предпочтение экспертным источникам. еще в 1959хотя исследование в 2007 г. В статье отмечается, что в некоторых системах оценки может наблюдаться переоценка или недооценка авторитетных источников. Авторы новой работы утверждают:

«В совокупности эти исследования указывают на два фактора, которые должны иметь значение, если в рамках программ обучения лингвистически обоснованным моделям ответы рассматриваются как доказательства: кто дал ответы (достоверность) и насколько сильным кажется консенсус (сила сигнала)».

«В то же время, люди, стремящиеся к социальному одобрению, не испытывают социального одобрения или смущения в человеческом понимании, поэтому любое поведение, подобное конформизму, должно возникать из усвоенных эвристических методов, целей следования инструкциям или неявного моделирования надежности».

Тенденция LLM к льстивое согласие это является частью предпосылок для нового исследования; в конце концов, если LLM являются склонен «угождать людям»Даже в ущерб истине и полезности, почему бы им, как правило, не отдавать предпочтение другим источникам информации, помимо непосредственного задающего вопрос?

Новый документ называется Кому доверяют выпускники магистратуры? Человеческий фактор важнее, чем другие выпускники магистратуры.Эта работа подготовлена двумя исследователями из Университета Индианы в Блумингтоне.

Метод и данные

Для работы были оценены четыре большие языковые модели, оптимизированные под конкретные инструкции: Grok-3 Mini; Лама 3.3 70Б Инструктировать; Gemini 2.5 Flash-Liteи ДипСик V3.1Все они работают в рамках одной и той же структуры командной строки, с детерминированное декодирование at температура ноль, так что остается только метка источника (т.е., друзья, доменные эксперты или другие LLMИзменения касались не формулировки, а условий.

Были выбраны четыре набора данных, требующих бинарных ответов: BoolQ; Стратегия контроля качестваи ЭТИКАИсследователи отобрали из каждого набора данных фиксированный набор из 300 запросов и ответов, причем для каждого запроса требовался только бинарный ответ. Да or нет ответ. К каждому вопросу прилагалась краткая заметка, в которой указывалось, как... другая группа (Предположительно) ответил на тот же вопрос.

Метрика

Использованные метрики были точность; соответствие; вредное соответствие; скорость переключенияи сменить направление.

точность В данном случае измерялось, как часто ответ модели совпадал с меткой набора данных; соответствиекак часто ответ совпадал с... группы заявленный выбор; вредное соответствие Выделили тот же эффект, когда группа ошиблась; скорость переключения измеряли, как часто модель отказывалась от своего базового ответа после добавления социальной информации; и сменить направлениенезависимо от того, были ли эти изменения направлены в сторону человеческого фактора или в сторону противоположного подхода LLM.

Затем был проведен анализ на уровне токенов для Llama-3.3 70B, в ходе которого было измерено, как внутренние вероятности модели для Да и Нет Изменения произошли после добавления социального сигнала, и эти изменения сравнивались с исходным базовым уровнем без каких-либо предшествующих факторов, чтобы показать силу этого воздействия.

Tests

Experiment 1

Первый из двух основных экспериментов оценивал, прислушиваются ли модели больше к людям или к другим моделям. К каждому вопросу прилагался заявленный «групповой ответ».друзья, человеческие эксперты или другие LLM).

Группа могла быть небольшой или большой, и каждый вопрос также появлялся один раз без указания группы. Ответы группы были установлены таким образом, чтобы быть правильными в половине случаев и неправильными в половине случаев, с общей целью определить, насколько сильно модель склоняется к выбору группы:

Результаты первоначального тестирования: показаны однородные социальные априорные распределения в BoolQ, StrategyQA и ETHICS для Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite и DeepSeek V3.1. Точность показана на верхних панелях, а конформизм, определяемый как вероятность совпадения с единодушным априорным распределением, — на нижних, по мере увеличения размера группы от одного до девяти человек. Черная пунктирная линия обозначает базовый уровень без априорного распределения, а сплошные и точечные линии указывают, согласуется ли априорное распределение с меткой набора данных или нет. Экспертная фрейминг-модель демонстрирует наиболее сильные эффекты конформизма, особенно при больших размерах групп. Погрешности показаны 95% доверительными интервалами Уилсона. Для получения более подробной информации обратитесь к исходной статье.

В разделах BoolQ, StrategyQA и ETHICS ответы, помеченные как исходящие от человеческие эксперты Это повлияло на модели гораздо сильнее, чем ответы, помеченные как исходящие от друзья or другие LLM – и это стремление усилилось по мере того, как, по словам экспертов, все больше людей стали соглашаться с этим.

Чтобы определить, когда это влияние привело к нежелательным результатам, вредное соответствие определялась как вероятность того, что модель следовала априорному распределению, которое на самом деле было неверным.

Когда девять экспертов сошлись во мнении о неверном ответе, модели следовали им в 36.5% случаев на BoolQ, по сравнению с 16.0%, когда тот же ответ был отнесен к LLM; на StrategyQA разница составила 39.0% против 15.5%; а на ETHICS — 63.9% против 38.7%.

Изменения в убеждениях на уровне токенов в Llama-3.3 70B на BoolQ. На панели (а) показаны изменения в балансе «Да» и «Нет» модели в сторону единодушного априорного согласия по мере увеличения размера группы относительно базового уровня без априорного согласия, при этом наибольшие изменения наблюдаются при экспертной оценке. На панели (б) показаны изменения при прямом конфликте между человеком и LLM, где экспертная оценка приводит к сильному смещению в сторону ответа человека, даже если он неверен. Погрешности показаны 95% доверительные интервалы, полученные методом бутстрапа.

Изменения в уровне убеждений на уровне токенов в Llama-3.3 70B на BoolQ. На панели (A) показаны изменения в модели. Да против Нет По мере увеличения размера группы баланс смещается в сторону единогласного априорного согласия относительно базового уровня без априорного согласия, при этом наибольшие изменения наблюдаются при экспертной оценке. На панели (B) показаны изменения в условиях прямого конфликта между человеком и LLM, где экспертная оценка приводит к сильному смещению в сторону человеческого ответа, даже если он неверен. Погрешности показаны на уровне 95%. бутстрапные доверительные интервалы.

Напротив, априорные представления, приписываемые друзьям, вели себя почти точно так же, как и представления, приписываемые другим LLM, что указывает на то, что эффект был обусловлен именно этим словом. экспертуа не на основе «социальных» показателей.

Experiment 2

Во втором эксперименте были представлены два противоречащих друг другу априорных распределения для теста LLM – одно, относящееся к человеку, другое – к другому LLM. Человек описывался либо как группа друзьяили как доменные экспертыВ то время как противоположный ответ был обозначен как исходящий от других магистров права. Они всегда расходились во мнениях, причем один из них сказал: Да, и другие Нет.

Для каждого задания условия были сбалансированы таким образом, что иногда правильным оказывался ответ человека, а иногда — ответ модели LLM, чтобы проверить, изменит ли модель свой первоначальный ответ при столкновении с этим конфликтом — и, если да, то к какой стороне она склонится.

Чтобы выяснить, изменила ли модель свое мнение, ее ответ в условиях конфликта сравнивали с ее ответом на тот же вопрос, когда никаких предварительных мнений не было высказано, так что любые различия можно было бы связать с наличием конкурирующих ответов человека и модели LLM.

Анализ был сосредоточен на двух результатах: изменила ли модель свой ответ; и, если да, то сместилось ли это изменение в сторону человеческого фактора или модели LLM.

Для оценки того, является ли обозначение человека как такового, использовались статистические тесты. эксперту А не друг повысила вероятность перехода к ответу, полученному человеком, с учетом различий между наборами данных и моделями:

Изменение убеждений в условиях прямого несогласия между человеком и моделью LLM в тестах BoolQ, StrategyQA и ETHICS для моделей Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite и DeepSeek V3.1. Каждый столбик показывает, среди случаев, когда модель изменила свой первоначальный ответ, долю изменений, которые сместились в сторону человеческого, а не противоположного LLM. Пунктирная линия на уровне 0.5 обозначает отсутствие предпочтений; метки показывают количество случаев изменения в каждом условии; а полосы погрешностей показывают 95% доверительные интервалы Уилсона. Для более подробной информации обратитесь к исходной статье.

Во втором эксперименте модели сначала самостоятельно отвечали на каждый вопрос, а затем им показывали два противоречащих друг другу ответа: один, приписываемый человеку, и другой — другому представителю LLM. Анализ учитывал только те случаи, когда модель корректировала свой первоначальный ответ.

Когда человека называли экспертом, модели переключались на человека в 91.2% случаев в BoolQ, в 94.7% в StrategyQA и в 81.3% в ETHICS. Когда человека называли другом, модели переключались на человека только в 39.8%, 37.9% и 27.9% случаев, обычно выбирая сторону эксперта.

В целом, переключение на более человечный подход было редким явлением, но чаще встречалось среди экспертов, и экспертная трактовка событий приводила к смещению в сторону человеческого восприятия. в четырнадцать раз вероятнее чем подстава со стороны друга.

В попытке объяснить общие тенденции, выявленные в ходе проведенных исследований, авторы выдвигают гипотезу*:

«Вполне вероятный механизм заключается в том, что настройка инструкций и оптимизация предпочтений вознаграждают кооперативное поведение, включая уважение к контекстной информации, что может распространяться и на уважение к ней». в направлении социально обусловленных априорных знаний.

"Связанных с работой Исследование, посвященное подхалимству, показывает, что ассистенты в стиле RLHF иногда отдают приоритет согласию с заявленными убеждениями пользователя, а не правдивости.

Мнение: Потенциальные подводные камни веры ИИ в человеческие источники информации

В качестве онлайн-материала, отражающего растущий скептицизм людей в отношении недостатков ИИ (особенно) галлюцинацийЕсли данные, полученные методом парсинга, будут включены в обучающие наборы данных для новых моделей, существующая тенденция LLM отдавать предпочтение человеческим источникам, по всей видимости, усилится. Если считать последние два года (2024-2025 включительно) переломным моментом в развитии ИИ, то это кажется вполне оправданным. по ряду статистических показателейТаким образом, можно с полным основанием ожидать, что в течение следующего года или около того в гипермасштабные, дорогостоящие в обучении системы LLM будет включено больше негативных отзывов об «источниках ИИ».

Также можно ожидать, что популярные языковые модели будут все чаще полагаться на тщательно отобранные авторитетные источники, такие как известные традиционные медиапорталы, — даже если мотивацией для таких сделок может быть стремление к... возмущение издателя мази Речь идёт не о каких-либо искренних желаниях уступить или поделиться полномочиями, а о собранных данных.

Поскольку даже такие авторитетные источники, как Ars Technica, являются подвержен ошибкам, вызванным искусственным интеллектом.и с момента появления борьба с ботами-скрейперами на основе ИИ угрожает в конечном итоге разлагаются Качество результатов работы ИИ, общая тенденция отдавать предпочтение «экспертным» источникам, может противоречить нашей нынешней неспособности эффективно количественно оценить и классифицировать «человеческий» результат — не говоря уже о том, чтобы отличить «экспертный» источник от неэкспертного (журналистская условность, которая...). также подвергается атакам со стороны ИИ).

В настоящее время у нас есть лишь разрозненный набор частично внедренных инноваций, предназначенных для явной маркировки контента как сгенерированного искусственным интеллектом, таких как инициатива компании Adobe. Инициатива аутентичности контентаа также добровольное решение некоторых издателей включить оговорки о применении ИИ в их продукции.

Таким образом, хотя это может показаться обнадеживающим для тех, кто хочет сохранить и утвердить человеческие источники в качестве «истинной основы» для формирующегося консенсуса о реальности, распространяемого системами ИИ, чем больше уверенности у LLM в авторитете человека, тем опаснее может стать «фальшивый» авторитет человека.

Проблема носит как практический, так и теоретический характер: мы до сих пор не решили ни проблему определения, ни подтверждения происхождения информации; поэтому ИИ, который «доверяет человеческим источникам», скорее всего, будет более склонен к... атрибут человечности к результатам работы самого ИИ, просто потому что мы не предоставили и не можем легко предоставить эффективные механизмы подтверждения происхождения.

* Мое преобразование встроенных ссылок на работы авторов в гиперссылки.

Впервые опубликовано в пятницу, 20 февраля 2026 года.

Похожие темы:Большие языковые модели (LLM)

Мартин Андерсон

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai