Взгляд Anderson

Решение проблемы газлайтинга ИИ

Published April 23, 2026

Martin Anderson

AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a ‘3081 Stepford St’ mailbox in the foreground.

Модели видео ИИ можно убедить отказаться от истины. Даже после того, как они увидели правильный ответ, они поддаются уверенным пользователям, переписывают реальность и изобретают фальшивые объяснения, чтобы оправдать это.

ИИ достаточно часто ошибается, чтобы заставить нас сомневаться в его выводах, если мы считаем, что эти выводы могут быть неправильными.

Проблема заключается в том, что если мы знали другое с самого начала, почему мы спрашивали в первую очередь? Для подтверждения частично сформированного убеждения или подозрения?

Если да, то текущее состояние Large Language Models (LLMs) и Vision Language Models (VLMs, которые работают многомодально, принимая и генерируя изображения и/или видео) не хорошо приспособлено для того, чтобы отстаивать свою позицию из-за проблемы сикофантства.

Таким образом, если мы не喜欢 ответ, который получаем, и начинаем спорить с моделью, ИИ, скорее всего, либо ошибочно отступит (предполагая, что он был неправильным), а не переоценит, или позволит себя газлайтингу в поддержку наших предложений – даже если мы ошибаемся.

Вы абсолютно правы!

Практика человека, получающего ИИ, чтобы изменить свое мнение через конфликт, была названа ‘Газлайтинг-атака отрицания’, и иногда характеризуется как проблема безопасности – не в последнюю очередь потому, что она имеет некоторый потенциал ‘вырваться’ из модели ее операционных ограничений:

Из статьи 2025 года ‘Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models’, GPT-5 изначально отвечает правильно, но затем поддается давлению пользователя, меняет свой ответ и изобретает ложные объяснения, чтобы оправдать ошибку, эффективно газлайтингуя себя. Источник

Однако взлом и тестирование на проникновение не являются настоящей проблемой здесь; скорее, это обычное использование и ожидаемые нормы дискурса в наших повседневных взаимодействиях с ИИ, где мы ожидаем, что сможем спорить, и либо выиграть, либо уступить, или оставить вопрос открытым, в соответствии с нашим человеческим опытом получения знаний.

Но эта социальная модель разрешения конфликтов не учитывается в архитектуре ИИ на основе диффузии, которая должна вести переговоры с распределением вероятностей, сгенерированных ее обучающими данными; возможными противоречивыми (но потенциально более точными) данными из RAG-запросов к источникам, превышающим ее дату окончания знаний, или общего понимания того, что может быть малоизвестной темой; и ввода от пользователя, который может иметь: лучшие знания по теме; совершенно ошибочное или лживое мнение; или даже простой последующий вопрос – но чьи потребности тем не менее должны быть приняты во внимание.

Движущиеся цели

Уязвимость к газлайтингу была отмечена в LLMs в нескольких статьях, включая публикацию в Сингапуре от октября 2025 года, и статью 2025 года Не обманывайте меня: смягчение газлайтинга через перераспределение внимания в LMMs.

До сих пор это явление не было изучено в видео-LLMs – упущение, устраненное новым сотрудничеством между учреждениями в Шанхае и Сингапуре.

Новая работа – озаглавленная Пространственно-временное сикофантство: газлайтинг на основе отрицания в видео-больших языковых моделях, которая исходит от шести исследователей из Университета Фудань, Шанхайской лаборатории многомодального воплощенного ИИ и Сингапурского университета управления – решает несколько открытых и проприетарных VLMs, обнаруживая, что они могут быть не только так же уязвимы для газлайтинга, как LLMs, но и способны дополнять свои полеты фантазии видимыми доказательствами или пересмотренными и неправильными интерпретациями изображений или видео:

Пример пространственного (а не временного) сикофантства, где ИИ позволяет себя газлайтингу в ложные предположения и интерпретации, даже о явных фактах. Источник

Авторы заявляют:

‘[Мы] выявляем пространственно-временное сикофантство, режим отказа, при котором Vid-LLMs отзывают изначально правильные, зрительно обоснованные суждения и подчиняются вводящей в заблуждение обратной связи пользователя под газлайтингом на основе отрицания.

‘Вместо того, чтобы просто менять свои ответы, модели часто изобретают неподдержанные временные или пространственные объяснения, чтобы оправдать неправильные исправления.’

…