Взгляд Anderson
Использование галлюцинаций ИИ для оценки реализма изображений

Новые исследования из России предлагают неортодоксальный метод обнаружения нереалистичных изображений, сгенерированных ИИ, – не за счет улучшения точности больших моделей зрения и языка (LVLM), а за счет намеренного использования их тенденции к галлюцинациям.
Новый подход извлекает несколько ‘атомарных фактов’ об изображении с помощью LVLM, затем применяет естественный языковой вывод (NLI) для систематического измерения противоречий среди этих утверждений – эффективно превращая недостатки модели в диагностический инструмент для обнаружения изображений, которые противоречат здравому смыслу.

Два изображения из набора данных WHOOPS! вместе с автоматически сгенерированными утверждениями модели LVLM. Левое изображение реалистично, что приводит к последовательным описаниям, в то время как необычное правое изображение вызывает у модели галлюцинации, производящие противоречивые или ложные утверждения. Источник: https://arxiv.org/pdf/2503.15948
Когда модель LVLM была попрошена оценить реализм второго изображения, она могла увидеть, что что-то не так, поскольку изображенный верблюд имеет три горба, что неизвестно в природе.
Однако модель LVLM изначально смешивает >2 горба с >2 животных, поскольку это единственный способ увидеть три горба на одном ‘изображении верблюда’. Затем она продолжает галлюцинировать что-то еще более невероятное, чем три горба (т.е. ‘два головы’) и никогда не описывает тот самый факт, который, кажется, вызвал ее подозрения – невероятный дополнительный горб.
Исследователи новой работы обнаружили, что модели LVLM могут выполнять этот тип оценки родным образом, и наравне с (или лучше, чем) моделями, которые были тонко настроены для задачи этого типа. Поскольку тонкая настройка сложна, дорога и довольно хрупка в отношении последующего применения, открытие родного использования одного из главных препятствий в текущей революции ИИ – это освежающий поворот на общих тенденциях в литературе.
Открытая оценка
Важность подхода, утверждают авторы, заключается в том, что он может быть развернут с открытыми фреймворками. Хотя передовая и высокоинвестиционная модель, такая как ChatGPT, может (статья признает) потенциально предложить лучшие результаты в этой задаче, спорная реальная ценность литературы для большинства из нас (и особенно для сообществ хобби и VFX) – это возможность включения и разработки новых прорывов в локальных реализациях; с другой стороны, все, что предназначено для проприетарного коммерческого API-системы, подлежит отзыву, произвольным повышениям цен и политикам цензуры, которые более вероятно отражают корпоративные проблемы компании, чем потребности и обязанности пользователя.
Новая статья называется Не боритесь с галлюцинациями, используйте их: оценка реализма изображений с помощью NLI над атомарными фактами и исходит от пяти исследователей из Сколковского института науки и технологий (Сколтех), Московского института физики и технологий, а также российских компаний MTS AI и AIRI. Работа имеет сопровождающую страницу GitHub.
Метод
Авторы используют израильско-американский набор данных WHOOPS! для проекта:

Примеры невозможных изображений из набора данных WHOOPS! Замечательно, как эти изображения собирают правдоподобные элементы, и что их невероятность должна быть рассчитана на основе конкатенации этих несовместимых аспектов. Источник: https://whoops-benchmark.github.io/
Набор данных состоит из 500 синтетических изображений и более 10 874 аннотаций, специально разработанных для проверки моделей ИИ на здравый смысл и составное понимание. Он был создан в сотрудничестве с дизайнерами, которым было поручено генерировать сложные изображения с помощью систем текст-изображение, таких как Midjourney и серия DALL-E – производя сценарии, которые трудно или невозможно запечатлеть естественным образом:

Дополнительные примеры из набора данных WHOOPS! Источник: https://huggingface.co/datasets/nlphuji/whoops
Новый подход работает в три этапа: сначала модель LVLM (конкретно LLaVA-v1.6-mistral-7b) запрашивается для генерации нескольких простых утверждений – называемых ‘атомарными фактами’ – описывающих изображение. Эти утверждения генерируются с помощью Diverse Beam Search, обеспечивающего вариативность в выходных данных.

Diverse Beam Search производит лучшее разнообразие вариантов подписей, оптимизируя разнообразный объектив. Источник: https://arxiv.org/pdf/1610.02424
Далее каждое сгенерированное утверждение систематически сравнивается с каждым другим утверждением с помощью модели естественного языкового вывода, которая присваивает оценки, отражающие, логически вытекают ли, противоречат или нейтральны по отношению друг к другу пары утверждений.
Противоречия указывают на галлюцинации или нереалистичные элементы внутри изображения:

Схема для трубопровода обнаружения.
Наконец, метод агрегирует эти парные оценки NLI в единую ‘оценку реальности’, которая количественно оценивает общую последовательность сгенерированных утверждений.
Исследователи изучали различные методы агрегации, при этом кластерный подход показал лучшие результаты. Авторы применили алгоритм k-means для разделения отдельных оценок NLI на два кластера, и центроид кластера с более низкими значениями был затем выбран в качестве окончательной метрики.
Использование двух кластеров напрямую соответствует бинарной природе задачи классификации, т.е. различению реалистичных и нереалистичных изображений. Логика аналогична простому выбору наименьшей оценки в целом; однако, кластеризация позволяет метрике представлять среднее противоречие по нескольким фактам, а не полагаться на отдельный выброс.
Данные и тесты
Исследователи протестировали свою систему на базовом наборе данных WHOOPS!, используя вращающиеся тестовые разбиения (т.е. перекрестную проверку). Протестированные модели были BLIP2 FlanT5-XL и BLIP2 FlanT5-XXL в разбиениях, и BLIP2 FlanT5-XXL в формате нулевого выстрела (т.е. без дополнительной тренировки).
Для базовой линии, следующей за инструкциями, авторы попросили модели LVLM с фразой ‘Это необычно? Пожалуйста, объясните кратко коротким предложением’, которую предыдущие исследования обнаружили эффективной для обнаружения нереалистичных изображений.
Оцененные модели были LLaVA 1.6 Mistral 7B, LLaVA 1.6 Vicuna 13B и два размера (7/13 миллиардов параметров) InstructBLIP.
Процедура тестирования была сосредоточена на 102 парах реалистичных и нереалистичных (‘странных’) изображений. Каждая пара состояла из одного нормального изображения и одного контр-образа, противоречащего здравому смыслу.
Три человека-аннотатора пометили изображения, достигнув консенсуса 92%, указывающего на сильное согласие людей о том, что составляло ‘странность’. Точность методов оценки измерялась их способностью правильно различать реалистичные и нереалистичные изображения.
Система была оценена с помощью трехкратной перекрестной проверки, случайного перемешивания данных с фиксированным семенем. Авторы отрегулировали веса для оценок логического следования (утверждений, логически согласующихся) и оценок противоречия (утверждений, логически противоречащих) во время тренировки, в то время как ‘нейтральные’ оценки были зафиксированы на ноль. Окончательная точность была рассчитана как среднее значение по всем тестовым разбиениям.

Сравнение различных моделей NLI и методов агрегации на подмножестве из пяти сгенерированных фактов, измеряемое точностью.
Что касается первоначальных результатов, показанных выше, статья гласит:
‘Метод [‘clust’] выделяется как один из лучших. Это подразумевает, что агрегация всех оценок противоречия имеет решающее значение, а не сосредоточение внимания только на экстремальных значениях. Кроме того, самая большая модель NLI (nli-deberta-v3-large) превосходит все остальные для всех методов агрегации, что указывает на то, что она более эффективно отражает суть проблемы.’
Авторы обнаружили, что оптимальные веса последовательно отдавали предпочтение противоречиям над логическим следованием, что указывает на то, что противоречия были более информативными для различения нереалистичных изображений. Их метод превзошел все остальные методы нулевого выстрела, тестируемые, близко подходя к производительности тонко настроенной модели BLIP2:

Производительность различных подходов на базовом наборе данных WHOOPS! Методы тонкой настройки (ft) появляются вверху, в то время как методы нулевого выстрела (zs) перечислены ниже. Размер модели указывает количество параметров, а точность используется в качестве метрики оценки.
Они также отметили, несколько неожиданно, что InstructBLIP показал лучшие результаты, чем сравнимые модели LLaVA, заданные одинаковым запросом. Признавая превосходящую точность GPT-4o, статья подчеркивает предпочтение авторов демонстрировать практические, открытые решения, и, кажется, может разумно претендовать на новизну в явном использовании галлюцинаций в качестве диагностического инструмента.
Вывод
Однако авторы признают долг своей работы перед FaithScore 2024 года, сотрудничеством между Университетом Техаса в Далласе и Университетом Джонса Хопкинса.

Иллюстрация того, как работает оценка FaithScore. Сначала идентифицируются описательные утверждения в ответе LVLM. Затем эти утверждения разбиваются на отдельные атомарные факты. Наконец, атомарные факты сравниваются с входным изображением, чтобы проверить их точность. Подчеркнутый текст подчеркивает объективный описательный контент, в то время как синий текст указывает на галлюцинированные утверждения, позволяя FaithScore предоставить интерпретируемую меру фактической правильности. Источник: https://arxiv.org/pdf/2311.01477
FaithScore измеряет верность сгенерированных описаний LVLM, проверяя последовательность с содержанием изображения, в то время как методы новой статьи явно используют галлюцинации LVLM для обнаружения нереалистичных изображений через противоречия в сгенерированных фактах с помощью естественного языкового вывода.
Новая работа, естественно, зависит от эксцентричностей текущих моделей языка и их склонности к галлюцинациям. Если развитие модели когда-либо приведет к появлению полностью негаллюцинирующей модели, даже общие принципы новой работы больше не будут применимы. Однако это остается сложной перспективой.
Опубликовано впервые во вторник, 25 марта 2025












