Погляд Anderson
Використання алгоритмів заліза для оцінки реалізму зображень

Нові дослідження російських вчених пропонують незвичайний метод виявлення нереалістичних зображень, згенерованих штучним інтелектом – не поліпшуючи точність великих моделей мови та зору (LVLMs), а навмисно використовуючи їх спроможність до заліза.
Новий підхід витягує декілька «атомних фактів» про зображення за допомогою моделей LVLM, потім застосовує природну мовну інференцію (NLI), щоб систематично виміряти суперечності серед цих тверджень – фактично перетворюючи недоліки моделі на діагностичний інструмент для виявлення зображень, що суперечать здоровому глузду.

Два зображення з набору даних WHOOPS! поряд з автоматично згенерованими твердженнями моделлю LVLM. Ліве зображення реалістичне, що призводить до узгоджених описів, тоді як незвичайне праве зображення викликає у моделі залучення, виробляючи суперечливі чи хибні твердження. Джерело: https://arxiv.org/pdf/2503.15948
Якщо запитати оцінити реалізм другого зображення, модель LVLM може побачити, що щось не так, оскільки зображений верблюд має три горби, що невідомо в природі.
Однак, модель LVLM спочатку ототожнює >2 горби з >2 тварин, оскільки це єдиний спосіб побачити три горби на одному «зображенні верблюда». Потім вона продовжує залучення чогось ще більш невірогідного, ніж три горби (тобто «дві голови») і ніколи не деталізує те, що, здається, спровокувало її підозри – неправдоподібну додаткову горбу.
Дослідники нової роботи виявили, що моделі LVLM можуть виконувати цю оцінку самі по собі, і на рівні (або краще) моделей, які були дофіновані для завдання цього типу. Оскільки дофінування є складним, дорогим і досить крихким щодо подальшої придатності, відкриття нового використання одного з найбільших перешкод у поточній революції штучного інтелекту є свіжим поворотом щодо загальних тенденцій у літературі.
Відкрита оцінка
Важливість цього підходу, стверджують автори, полягає в тому, що його можна розгорнути з відкритими джерельними кодами фреймворками. Хоча просунута і високої інвестиційної модель, така як ChatGPT, може (стаття погоджується) потенційно пропонувати кращі результати у цьому завданні, очевидна цінність літератури для більшості з нас (і особливо для хобі та VFX-спільнот) полягає в можливості включення та розробки нових проривів у локальних реалізаціях; навпаки, все, що призначено для пропріетарної комерційної системи API, підлягає відкликанню, довільним підвищенням цін та політиці цензури, які більш імовірно відображатимуть корпоративні інтереси компанії, ніж потреби та відповідальність користувача.
Нова робота називається Не боріться з залученням, використовуйте його: оцінка реалізму зображень за допомогою NLI над атомними фактами і походить від п’яти дослідників зі Сколковського інституту науки та технологій (Skoltech), Московського інституту фізики та технологій та російських компаній MTS AI і AIRI. Робота має супутню сторінку GitHub.
Метод
Автори використовують ізраїльсько-американський набір даних WHOOPS! для проекту:

Приклади неможливих зображень з набору даних WHOOPS! Вражає, як ці зображення складаються з правдоподібних елементів, і те, що їхня неможливість повинна бути обчислена на основі конкатенації цих несумісних аспектів. Джерело: https://whoops-benchmark.github.io/
Набір даних складається з 500 синтетичних зображень і понад 10 874 анотацій, спеціально розроблених для тестування моделей штучного інтелекту на здоровий глузд і композиційне розуміння. Його було створено у співпраці з дизайнерами, яким було доручено генерувати складні зображення за допомогою систем текст-ізображення, таких як Midjourney і серія DALL-E – виробляючи сценарії, які важко чи неможливо захопити природно:

Додаткові приклади з набору даних WHOOPS! Джерело: https://huggingface.co/datasets/nlphuji/whoops
Новий підхід працює у трьох етапах: спочатку модель LVLM (конкретно LLaVA-v1.6-mistral-7b) запрошується згенерувати декілька простих тверджень – так звані «атомні факти» – що описують зображення. Ці твердження генеруються за допомогою Diverse Beam Search, що забезпечує варіативність у виводах.

Diverse Beam Search виробляє кращу різноманітність варіантів підписів, оптимізуючи різноманітність-аугментовану мету. Джерело: https://arxiv.org/pdf/1610.02424
Далі кожне згенероване твердження систематично порівнюється з кожним іншим твердженням за допомогою моделі природної мовної інференції, яка призначає оцінки, що відображають, чи пари тверджень імплікують, суперечать чи нейтральні одна до одної.
Суперечності вказують на залучення чи нереалістичні елементи всередині зображення:

Схема для трубопроводу виявлення.
Нарешті, метод агрегує ці парні оцінки NLI у єдиний «оцінку реалізму», який кількісно оцінює загальну узгодженість згенерованих тверджень.
Дослідники дослідили різні методи агрегації, при цьому кластерний підхід показав найкращі результати. Автори застосували алгоритм k-means кластеризації для розділення окремих оцінок NLI на два кластери, а центр мас нижнього кластеру був обраний як остаточна метрика.
Використання двох кластерів безпосередньо відповідає бінарній природі завдання класифікації, тобто розрізнення реалістичних та нереалістичних зображень. Логіка подібна до простого вибору найнижчої оцінки в цілому; однак кластеризація дозволяє метриці представляти середню суперечливість серед декількох фактів, а не покладатися на окремий відхід.
Дані та тести
Дослідники протестували свою систему на базовому бенчмарку WHOOPS!, використовуючи обертові тестові розбиття (тобто перехрестну валідацию). Моделі, які були протестовані, були BLIP2 FlanT5-XL і BLIP2 FlanT5-XXL у розбиттях, і BLIP2 FlanT5-XXL у нульовому форматі (тобто без додаткової підготовки).
Для базової інструкції слідування автори просили моделі LVLM з фразою ‘Чи це незвичайно? Будь ласка, поясніть коротко одним реченням’, яку попередні дослідження виявили ефективною для виявлення нереалістичних зображень.
Моделі, які були оцінені, були LLaVA 1.6 Mistral 7B, LLaVA 1.6 Vicuna 13B, і два розміри (7/13 мільярдів параметрів) InstructBLIP.
Процедура тестування була зосереджена на 102 парах реалістичних та нереалістичних (‘дивних’) зображень. Кожна пара складалася з одного нормального зображення та одного суперечного здоровому глузду аналога.
Три людини-анотатори позначили зображення, досягнувши консенсусу на рівні 92%, що вказує на сильну згоду людей щодо того, що складало «дивність». Точність методів оцінки була виміряна їх здатністю правильно розрізняти реалістичні та нереалістичні зображення.
Система була оцінена за допомогою трикратної перехрестної валідации, випадкового перемішування даних з фіксованим насінням. Автори регулювали ваги для оцінок імплікації (тверджень, які логічно узгоджуються) і суперечливості (тверджень, які логічно суперечать) під час навчання, тоді як «нейтральні» оцінки були зафіксовані на рівні нуля. Остаточна точність була обчислена як середнє значення по всіх тестових розбиттях.

Порівняння різних моделей NLI та методів агрегації на підмножині п’яти згенерованих фактів, виміряних за точністю.
Відносно початкових результатів, показаних вище, стаття зазначає:
‘Метод [‘clust’] виділяється як один з найкращих. Це означає, що агрегація всіх оцінок суперечливості є важливою, а не тільки фокусування на екстремальних значеннях. Крім того, найбільша модель NLI (nli-deberta-v3-large) перевершує всі інші для всіх методів агрегації, що свідчить про те, що вона краще захоплює сутність проблеми.’
Автори виявили, що оптимальні ваги постійно надавали перевагу суперечливості над імплікацією, вказуючи на те, що суперечності були більш інформативними для розрізнення нереалістичних зображень. Їхній метод перевершив всі інші нульові методи, які були протестовані, наблизившись до результатів дофінованої моделі BLIP2:

Результати різних підходів на бенчмарку WHOOPS! Дофіновані (ft) методи з’являються зверху, тоді як нульові (zs) методи перераховані нижче. Розмір моделі вказує кількість параметрів, а точність використовується як метрика оцінки.
Вони також відзначили, досить несподівано, що InstructBLIP працював краще, ніж порівнянні моделі LLaVA, отримавши той самий запит. Хоча вони визнають вищу точність GPT-4o, стаття підкреслює перевагу демонстрації практичних, відкритих рішень і, здається, може розсудливо претендувати на новизну у явному використанні заліза як діагностичного інструменту.
Висновок
Однак автори визнають борг своєї роботи перед виходом FaithScore 2024 року, спільним проектом Університету Техасу в Далласі та Університету Джонса Хопкінса.

Ілюстрація того, як працює оцінка FaithScore. Спочатку ідентифікуються описові твердження в генерованій моделлю LVLM відповіді. Далі ці твердження розбиваються на окремі атомні факти. Нарешті, атомні факти порівнюються з вхідним зображенням для перевірки їх точності. Підкреслений текст виділяє об’єктивний описовий контент, тоді як синій текст вказує на залучення, дозволяючи FaithScore надавати інтерпретовану міру фактичної точності. Джерело: https://arxiv.org/pdf/2311.01477
FaithScore вимірює вірність згенерованих моделлю LVLM описів, перевіряючи узгодженість проти змісту зображення, тоді як нова робота явно використовує залучення моделі LVLM для виявлення нереалістичних зображень через суперечності в згенерованих фактах за допомогою природної мовної інференції.
Нова робота залежить від ексцентричних особливостей поточних моделей мови, і від їх схильності до заліза. Якщо розвиток моделей колись призведе до повністю не-залучаної моделі, навіть загальні принципи нової роботи вже не будуть застосовні. Однак це залишається складною перспективою.
Перша публікація у вівторок, 25 березня 2025 року












