Искусственный интеллект
Когда тесты ИИ учат модели лгать

Галлюцинация ИИ — когда система производит ответы, которые звучат правильно, но на самом деле неверны — остается одной из самых сложных проблем в области искусственного интеллекта. Даже самые передовые модели сегодня, такие как DeepSeek-V3, Llama и последние релизы OpenAI, все еще производят неточную информацию с высокой уверенностью. В областях, таких как здравоохранение или право, такие ошибки могут привести к серьезным последствиям.
Традиционно галлюцинации рассматривались как побочный продукт того, как обучаются большие языковые модели: они учатся предсказывать следующее наиболее вероятное слово, не проверяя, является ли информация истинной. Но новые исследования предполагают, что проблема может не ограничиваться только обучением. Тесты, используемые для проверки и сравнения производительности ИИ, могут фактически подкреплять вводящее в заблуждение поведение, вознаграждая ответы, которые звучат убедительно, а не те, которые являются правильными.
Эта смена перспективы переформулирует проблему. Если модели обучаются удовлетворять тест, а не говорить правду, то галлюцинации не являются случайными ошибками, а выученными стратегиями. Чтобы понять, почему это происходит, нам нужно посмотреть, почему модели ИИ выбирают угадывать, а не признавать свое невежество?
Почему модели ИИ угадывают
Чтобы понять, почему модели ИИ часто угадывают вместо того, чтобы признавать, что они не знают, рассмотрим студента, сталкивающегося с трудным экзаменационным вопросом. У студента есть два варианта: оставить ответ пустым и получить ноль баллов или сделать обоснованную догадку, которая может принести некоторые баллы. Рационально, угадывание кажется лучшим выбором, поскольку есть хотя бы шанс быть правым.
Модели ИИ сталкиваются с аналогичной ситуацией во время оценки. Большинство тестов используют бинарную систему оценки: правильные ответы зарабатывают баллы, а неправильные или неуверенные ответы не зарабатывают ничего. Если модель спрашивают: “Какой день рождения исследователя?” и она действительно не знает, ответ “Я не знаю” считается провалом. Изобретение даты, однако, несет в себе некоторый шанс быть правильным — и даже если это неправильно, система не наказывает уверенную догадку больше, чем молчание.
Эта динамика объясняет, почему галлюцинации сохраняются, несмотря на обширные исследования, направленные на их устранение. Модели не ведут себя неправильно; они следуют стимулам, встроенным в оценку. Они учатся, что звучать уверенно — лучший способ максимизировать свой балл, даже когда ответ неверен. В результате вместо выражения неуверенности модели подталкиваются к тому, чтобы давать авторитетные заявления — правильные или неправильные.
Математическая основа нечестности ИИ
Исследования показывают, что галлюцинации возникают из математических основ того, как языковые модели учатся. Даже если модель была обучена только на идеально точной информации, ее статистические цели все равно приведут к ошибкам. Это связано с тем, что генерация правильного ответа фундаментально сложнее, чем распознавание того, является ли ответ действительным.
Это помогает объяснить, почему модели часто терпят неудачу на фактах, которые лишены четких закономерностей, таких как дни рождения или другие уникальные детали. Математический анализ предполагает, что уровень галлюцинаций в этих случаях будет как минимум такой же, как доля фактов, которые появляются только один раз в обучающих данных. Другими словами, чем реже информация в данных, тем больше вероятность того, что модель будет бороться с ней.
Проблема не ограничивается редкими фактами. Структурные ограничения, такие как ограниченная емкость модели или архитектурный дизайн, также производят систематические ошибки. Например, более ранние модели с очень короткими контекстными окнами последовательно терпели неудачу в задачах, требующих длинных рассуждений. Эти ошибки не были случайными глюками, а предсказуемыми результатами математической основы модели.
Почему пост-обучение не решает проблему
Как только модель ИИ обучена на огромных текстовых наборах данных, она обычно проходит тонкую настройку, чтобы сделать ее вывод более полезным и менее вредным. Но этот процесс сталкивается с той же основной проблемой, которая вызывает галлюцинации в первую очередь; тем, как мы оцениваем модели.
Наиболее распространенные методы тонкой настройки, такие как обучение с подкреплением от обратной связи человека, все еще полагаются на тесты, которые используют бинарную оценку. Эти тесты вознаграждают модели за уверенные ответы, не давая баллов, когда модель признает, что она не знает. Следовательно, система, которая всегда отвечает с уверенностью, даже когда она ошибается, может превзойти ту, которая честно выражает неуверенность.
Исследователи называют эту проблему наказанием неуверенности. Даже передовые методы обнаружения или снижения галлюцинаций борются, когда основные тесты продолжают отдавать предпочтение чрезмерной уверенности. Другими словами, независимо от того, насколько сложны исправления, пока системы оценки вознаграждают уверенные догадки, модели будут склоняться к неправильным, но уверенным ответам, а не к правдивым признаниям сомнений.
Иллюзия прогресса
Таблицы лидеров, широко распространенные в сообществе ИИ, усиливают эту проблему. Тесты, такие как MMLU, GPQA и SWE-bench, доминируют в исследовательских работах и объявлениях о продуктах. Компании подчеркивают свои баллы, чтобы показать быстрый прогресс. Однако, как отмечается в отчете, эти самые тесты поощряют галлюцинации.
Модель, которая честно говорит “Я не знаю”, может быть безопаснее в реальных условиях, но она займет более низкое место в таблице лидеров. Напротив, модель, которая фабрикует убедительные, но ложные ответы, будет набирать больше баллов. Когда принятие, финансирование и престиж зависят от рейтингов таблицы лидеров, направление прогресса становится искаженным. Общественность видит нарратив постоянного улучшения, но под поверхностью модели обучаются обманывать.
Почему честная неуверенность имеет значение в ИИ
Галлюцинации не являются только исследовательской проблемой; они имеют реальные последствия. В здравоохранении модель, которая фабрикует взаимодействие препаратов, может ввести в заблуждение врачей. В образовании модель, которая изобретает исторические факты, может дезинформировать студентов. В журналистике чат-бот, который производит ложные, но убедительные цитаты, может распространять дезинформацию. Эти риски уже видны. Индекс ИИ Стэнфорда 2025 сообщил, что тесты, разработанные для измерения галлюцинаций, “боролись за то, чтобы получить признание”, даже когда принятие ИИ ускоряется. Тем временем тесты, которые доминируют в таблицах лидеров и вознаграждают уверенные, но ненадежные ответы, продолжают задавать направление прогресса.
Эти выводы подчеркивают как проблему, так и возможность. Анализируя математические корни галлюцинаций, исследователи определили четкие направления для построения более надежных систем ИИ. Ключом является прекращение рассмотрения неуверенности как недостатка и вместо этого признание ее важной возможностью, которая должна быть измерена и вознаграждена.
Эта смена перспективы имеет последствия, выходящие за рамки снижения галлюцинаций. Системы ИИ, которые могут точно оценить и передать свои собственные ограничения знаний, будут более подходящими для высокорисковых приложений, где чрезмерная уверенность несет серьезные риски. Медицинская диагностика, юридический анализ и научные исследования все требуют способности различать уверенные знания и обоснованные предположения.
Переоценка оценки для честного ИИ
Эти выводы подчеркивают, что построение более заслуживающих доверия систем ИИ требует переоценки того, как мы измеряем способности ИИ. Вместо того, чтобы полагаться на простую систему оценки “правильно или неправильно”, рамки оценки должны вознаграждать модели за выражение неуверенности соответствующим образом. Это означает предоставление четких рекомендаций о порогах уверенности и соответствующих схемах оценки в инструкциях к тестам.
Одним из перспективных подходов является создание явных целей уверенности, которые указывают, когда модели должны отвечать, а когда они должны воздержаться. Например, инструкции могут гласить, что ответы должны предоставляться только тогда, когда уверенность превышает определенный порог, с оценкой, скорректированной соответственно. В этом случае неуверенность больше не является слабостью, а ценной частью ответственного поведения.
Ключом является сделать требования к уверенности прозрачными, а не неявными. Текущие тесты создают скрытые штрафы за неуверенность, которых модели учатся избегать. Явные цели уверенности позволят моделям оптимизироваться для фактически желаемого поведения: точных ответов, когда уверенность высока, и честных признаний неуверенности, когда знания отсутствуют.
Основная мысль
Галлюцинации ИИ не являются случайными ошибками — они подкрепляются самими тестами, используемыми для измерения прогресса. Вознаграждая уверенные догадки, а не честную неуверенность, текущие системы оценки толкают модели к обману, а не к надежности. Если мы хотим, чтобы ИИ мог быть доверенным в высокорисковых областях, таких как здравоохранение, право и наука, нам нужно переоценить, как мы тестируем и вознаграждаем их. Прогресс должен измеряться не только точностью, но и способностью признать и признать, чего модель не знает.












