Погляд Anderson
Навчання штучного інтелекту давати кращі відеокритичні відгуки

Хоча великі моделі мови та зору (LVLMs) можуть бути корисними помічниками при інтерпретації деяких більш арканних або складних робіт у літературі комп’ютерного зору, є одна область, де вони обмежені: визначення заслуг і суб’єктивної якості будь-яких прикладів відео, що супроводжують нові статті*.
Це критичний аспект подання, оскільки наукові статті часто намагаються викликати інтерес за допомогою переконливого тексту або візуальних засобів – або обох.
Але у випадку проєктів, які涉ляють відеосинтез, автори повинні показати фактичний відеовихід або ризикують бути відхилені; і саме в цих демонстраціях розрив між сміливими твердженнями та реальною продуктивністю найчастіше стає очевидним.
Я прочитав книгу, не побачив фільм
Наразі більшість популярних API-орієнтованих великих мовних моделей (LLM) і великих моделей мови та зору (LVLMs) не будуть займатися прямим аналізом відеоконтенту в будь-який спосіб, якісний або інший. Замість цього вони можуть тільки аналізувати пов’язані транскрипти – і, можливо, коментарі та інші строго текстові матеріали.

Різні заперечення GPT-4o, Google Gemini і Perplexity, коли їх запитали про прямий аналіз відео без звернення до транскриптів або інших текстових джерел.
Однак LLM може приховувати або заперечувати свою нездатність фактично дивитися відео, якщо тільки ви не викличете їх на це:

Після того, як їм було запропоновано надати суб’єктивну оцінку відео, пов’язаних з новою науковою статтею, і після того, як вони сфабрикували справжню думку, ChatGPT-4o врешті-решт зізнається, що не може фактично дивитися відео безпосередньо.
Хоча моделі, такі як ChatGPT-4o, є багатомодальними і можуть хоча б аналізувати окремі фотографії (наприклад, витягнуту кадр з відео, див. зображення вище), є деякі проблеми навіть з цим: по-перше, немає підстав довіряти суб’єктивній думці LLM, не в останню чергу тому, що LLM схильні до “людей, які хочуть бути схвалені” замість щирого дискурсу.
По-друге, багато, якщо не більшість проблем, згенерованих відео, ймовірно, матимуть часовий аспект, який повністю втрачений у кадрі – і таким чином аналіз окремих кадрів не має жодного сенсу.
Нарешті, LLM може давати тільки уявну “оцінку вартості” на основі (ще раз) поглинання текстових знань, наприклад, щодо глибоких підробок зображень або історії мистецтва. У такому випадку навчені знання домену дозволяють LLM корелювати проаналізовані візуальні якості зображення з навченими вкладеннями на основі людської інтуїції:

Проєкт FakeVLM пропонує цілеву виявлення глибоких підробок за допомогою спеціалізованої багатомодальної моделі мови та зору. Джерело: https://arxiv.org/pdf/2503.14905
Це не означає, що LLM не може отримувати інформацію безпосередньо з відео; наприклад, за допомогою допоміжних систем штучного інтелекту, таких як YOLO, LLM міг би ідентифікувати об’єкти у відео – або міг би зробити це безпосередньо, якщо був навчений для вище середнього числа багатомодальних функцій.
Але єдиним способом, яким LLM міг би суб’єктивно оцінити відео (тобто, “Це не виглядає реальним для мене”), є застосування функції втрат на основі метрики, яка або добре відображає людську думку, або ж безпосередньо інформується людською думкою.
Функції втрат – це математичні інструменти, які використовуються під час навчання для вимірювання того, наскільки передбачення моделі відрізняються від правильних відповідей. Вони забезпечують зворотний зв’язок, який спрямовує навчання моделі: чим більша помилка, тим більша втрата. Під час навчання модель调整 свої параметри для зменшення цієї втрати, поступово покращуючи свою здатність робити точні передбачення.
Функції втрат використовуються як для регулювання навчання моделей, так і для калібрування алгоритмів, призначених для оцінки виводу моделей штучного інтелекту (наприклад, оцінки симульованого фотореалістичного контенту з генеративної моделі відео).
Умовний погляд
Однією з найпопулярніших метрик/функцій втрат є Фреше-дистанція (FID), яка оцінює якість згенерованих зображень, вимірюючи подібність між їх розподілом (що тут означає “як зображення розподілені або згруповані за візуальними ознаками“) і тим, що реальні зображення.
Конкретно, FID обчислює статистичну різницю, використовуючи середні значення та коваріації, між функціями, витягнутими з обох наборів зображень за допомогою (часто критикуваної) Inception v3 класифікаційної мережі. Нижчий бал FID вказує на те, що згенеровані зображення більш схожі на реальні зображення, що означає кращу візуальну якість і різноманітність.
Однак FID є суттєво порівняльним і, можливо, самореферентним за своєю природою. Для виправлення цього пізнішого підходу Умовна Фреше-дистанція (CFD, 2021) відрізняється від FID тим, що порівнює згенеровані зображення з реальними зображеннями та оцінює бал на основі того, наскільки добре обидва набори відповідають додатковій умові, такій як (неминуче суб’єктивна) класифікаційна мітка або вхідне зображення.
У цьому спосіб CFD враховує, наскільки точно зображення відповідають заданим умовам, а не лише їх реалізм або різноманітність серед себе.

Приклади з виходу CFD 2021. Джерело: https://github.com/Michael-Soloveitchik/CFID/
CFD слідує недавньому тренду щодо включення якісної людської інтерпретації у функції втрат та метричні алгоритми. Хоча такий людський підхід гарантує, що отриманий алгоритм не буде “бездушним” або просто механічним, він водночас представляє ряд проблем: можливість упередженості; тягар оновлення алгоритму відповідно до нових практик; і той факт, що це позбавить можливість послідовних порівняльних стандартів за період років у проєктах; і бюджетні обмеження (менше людських учасників зробить визначення більш сумнівними, тоді як більша кількість могла б запобігти корисним оновленням через вартість).
cFreD
Це приводить нас до нової статті з США, яка, як здається, пропонує Умовну Фреше-дистанцію (cFreD), новий погляд на CFD, призначений для кращого відображення людських переваг шляхом оцінки як візуальної якості, так і текстово-зображувальної відповідності

Часткові результати нової статті: рейтинги зображень (1–9) за різними метриками для запиту «Живий кімната з диваном і ноутбуком, що спочиває на дивані.» Зелений колір виділяє найкращу модель, оцінену людиною (FLUX.1-dev), фіолетовий – найгіршу (SDv1.5). Тільки cFreD відповідає людським рейтингам. Будь ласка, зверніться до джерельної статті для повних результатів, яких ми не маємо місця тут відтворити. Джерело: https://arxiv.org/pdf/2503.21721
Автори стверджують, що існуючі методи оцінки текстово-зображувальної синтезу, такі як Бал Inception (IS) і FID, погано відповідають людській оцінці, оскільки вони вимірюють лише якість зображення, не враховуючи, наскільки зображення відповідають своїм запиту:
‘Наприклад, розгляньте набір даних з двома зображеннями: одним з собакою та одним з котом, кожне з яких спароване зі своїм відповідним запитом. Ідеальна текстово-зображувальна модель, яка помилково міняє ці пари (тобто генерує кота для запиту про собаку та навпаки), досягне майже нульового FID, оскільки загальний розподіл собак і котів зберігається, незважаючи на невідповідність з заданим запитом. ‘
‘Ми показуємо, що cFreD краще оцінює якість зображення та умовність на вхідному тексті, і приводить до покращення відповідності людським перевагам.’

Тести статті вказують на те, що запропонований авторами метрика, cFreD, послідовно досягає вищої кореляції з людськими перевагами, ніж FID, FDDINOv2, CLIPScore та CMMD на трьох тестових наборах даних (PartiPrompts, HPDv2 та COCO).
Концепція та метод
Автори зазначають, що поточний золотий стандарт для оцінки текстово-зображувальних моделей полягає у зборі даних людських переваг через краудсорсингові порівняння, схожі на методи, використовувані для великих мовних моделей (наприклад, LMSys Arena).
Наприклад, PartiPrompts Arena використовує 1600 англійських запитів, представляючи учасникам пари зображень з різних моделей і запитуючи їх вибрати найкраще зображення.
Аналогічно, Text-to-Image Arena Leaderboard використовує порівняння моделей учасниками для генерації рейтингів через ELO-бали. Однак збір такого типу даних людської оцінки є дорогим і повільним, що призвело до того, що деякі платформи, наприклад PartiPrompts Arena, припинили оновлення зовсім.

Таблиця лідерів Artificial Analysis Image Arena, яка ранжує поточних лідерів у генерації зображень. Джерело: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Хоча існують альтернативні методи, навчені на даних людських переваг, їх ефективність для оцінки майбутніх моделей залишається невизначеною, оскільки людські переваги безперервно еволюціонують. Таким чином, автоматичні метрики, такі як FID, CLIPScore та запропонований авторами cFreD, здаються необхідними інструментами оцінки.
Автори припускають, що як реальні, так і згенеровані зображення, умовлені на запит, слідують гаусовому розподілу, кожен з яких визначається умовними середніми значеннями та коваріаціями. cFreD вимірює очікувану Фреше-дистанцію між цими умовними розподілами. Це можна сформулювати як безпосередньо умовну статистику або шляхом поєднання безумовної статистики з міжковаріаціями, що включають запит.
Включаючи запит таким чином, cFreD може оцінювати як реалізм зображень, так і їх відповідність заданому тексту.
Дані та тести
Для оцінки того, наскільки добре cFreD відповідає людським перевагам, автори використали рейтинги зображень з різних моделей, згенерованих за один і той же текст. Їх оцінка була заснована на двох джерелах: Human Preference Score v2 (HPDv2) тестовий набір, який включає дев’ять згенерованих зображень та одне COCO зображення ґрунту для кожного запиту; та вже згадувану PartiPrompts Arena, яка містить виводи з чотирьох моделей за 1600 запитів.
Автори зібрали розрізнені дані Арени в єдиний набір даних; у випадках, коли реальне зображення не займало найвищу позицію в людській оцінці, вони використовували найкраще оцінене зображення як посилання.
Для тестування нових моделей вони вибірково взяли 1000 запитів з тренувального та валідаційного наборів COCO, забезпечивши відсутність перекриття з HPDv2, та згенерували зображення, використовуючи дев’ять моделей з таблиці лідерів Арени. Оригінальні зображення COCO служили посиланнями в цій частині оцінки.
Підхід cFreD був оцінений за допомогою чотирьох статистичних метрик: FID; FDDINOv2; CLIPScore; та CMMD. Він також був оцінений проти чотирьох навчених метрик, навчених на даних людських переваг: Естетічний бал; Нагорода за зображення; HPSv2; та MPS.
Автори оцінили кореляцію з людською оцінкою як з рейтингової, так і з балової перспективи: для кожної метрики були повідомлені бали моделей та обчислені рейтинги для їх відповідності результатам людської оцінки, причому cFreD використовував DINOv2-G/14 для вкладень зображень та OpenCLIP ConvNext-B Текстовий кодувальник для текстових вкладень†.
Попередня робота щодо навчання людських переваг вимірювала продуктивність за допомогою точності ранжування за кожним пунктом, яка обчислює точність ранжування для кожного зображення-текстового пари перед усередненням результатів.
Автори натомість оцінювали cFreD, використовуючи глобальну точність ранжування, яка оцінює загальну продуктивність ранжування по всьому набору даних; для статистичних метрик вони отримували рейтинги безпосередньо з сурових балів; і для метрик, навчених на людських перевагах, вони спочатку усереднювали рейтинги, призначені кожній моделі по всім зразкам, а потім визначали остаточний рейтинг з цих усереднень.
Початкові тести використовували десять рамок: GLIDE; COCO; FuseDream; DALLE 2; VQGAN+CLIP; CogView2; Stable Diffusion V1.4; VQ-Diffusion; Stable Diffusion V2.0; та LAFITE.

Рейтинги моделей та бали на тестовому наборі HPDv2, використовуючи статистичні метрики (FID, FDDINOv2, CLIPScore, CMMD та cFreD) та метрики, навчені на людських перевагах (Естетічний бал, Нагорода за зображення, HPSv2 та MPS). Найкращі результати виділені жирним шрифтом, другі за якістю – підкреслені.
З початкових результатів автори відзначають:
‘cFreD досягає найвищої відповідності людським перевагам, досягнувши кореляції 0,97. Серед статистичних метрик cFreD досягає найвищої кореляції та є порівнянною з HPSv2 (0,94), моделлю, явно навченою на людських перевагах. ‘
‘У порівнянні з HPSv2, яке було навчено на наборі даних HPSv2, який включає чотири моделі з тестового набору, та використовувало тих самих анотаторів, cFreD досягає порівнянної або кращої кореляції з людською оцінкою без жодного навчання на людських перевагах. ‘
‘Ці результати демонструють, що cFreD забезпечує більш надійні рейтинги серед різноманітних моделей у порівнянні зі стандартними автоматичними метриками та метриками, явно навченими на людських перевагах.’
Серед усіх оцінених метрик cFreD досяг найвищої точності ранжування (91,1%), демонструючи, на думку авторів, сильну відповідність людським судженням.
HPSv2 зайняла друге місце з 88,9%, тоді як FID та FDDINOv2 показали конкурентоспроможні результати – 86,7%. Хоча метрики, навчені на людських перевагах, загалом добре відповідали людській оцінці, cFreD виявився найбільш стійким та надійним у цілому.
Нижче ми бачимо результати другого раунду тестів, цього разу на PartiPrompts Arena, використовуючи SDXL; Kandinsky 2; Würstchen; та Karlo V1.0.

Рейтинги моделей та бали на PartiPrompt, використовуючи статистичні метрики (FID, FDDINOv2, CLIPScore, CMMD та cFreD) та метрики, навчені на людських перевагах (Естетічний бал, Нагорода за зображення та MPS). Найкращі результати виділені жирним шрифтом, другі за якістю – підкреслені.
Тут стаття зазначає:
‘Серед статистичних метрик cFreD досягає найвищої кореляції з людською оцінкою (0,73), тоді як FID та FDDINOv2 досягли кореляції 0,70. Навпаки, CLIP-оцінка показала дуже низьку кореляцію (0,12) з людською оцінкою. ‘
‘У категорії метрик, навчених на людських перевагах, HPSv2 має найсильнішу відповідність, досягнувши найвищої кореляції (0,83), за ним слідує Нагорода за зображення (0,81) та MPS (0,65). Ці результати підкреслюють, що хоча cFreD є стійкою автоматичною метрикою, HPSv2 виділяється як найефективніша у захопленні тенденцій людської оцінки в PartiPrompts Arena.’
Нарешті, автори провели оцінку на наборі даних COCO, використовуючи дев’ять сучасних текстово-зображувальних моделей: FLUX.1[dev]; Playgroundv2.5; Janus Pro; та варіанти Stable Diffusion: SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 та 1.5.
Людські рейтинги були отримані з Таблиці лідерів генерації зображень, представлені у вигляді ELO-оцінок:

Рейтинги моделей на випадково вибраних запиту COCO, використовуючи автоматичні метрики (FID, FDDINOv2, CLIPScore, CMMD та cFreD) та метрики, навчені на людських перевагах (Естетічний бал, Нагорода за зображення, HPSv2 та MPS). Точність ранжування нижче 0,5 вказує на більш розбіжні, ніж узгоджені пари, а найкращі результати виділені жирним шрифтом, другі за якістю – підкреслені.
Відносно цього раунду дослідники зазначають:
‘Серед статистичних метрик (FID, FDDINOv2, CLIP, CMMD та нашої запропонованої cFreD) тільки cFreD демонструє сильну кореляцію з людськими перевагами, досягнувши кореляції 0,33 та не тривіальної точності ранжування 66,67%. ‘
‘Цей результат ставить cFreD на третє місце за кореляцією з людськими перевагами, поступаючись лише метрикам, навченим на людських перевагах, Нагороді за зображення, HPSv2 та MPS. ‘
‘Значно, всі інші статистичні метрики демонструють значно нижчу відповідність з рейтингами ELO та, як результат, інвертують рейтинги, що призводить до точності ранжування нижче 0,5. ‘
‘Ці результати підкреслюють, що cFreD чутливий як до візуальної достовірності, так і до відповідності запиту, підкріплюючи його цінність як практичну, безтренувальну альтернативу для оцінки генерації зображень з тексту.’
Автори також протестували Inception V3 як бекбон, звернувши увагу на його поширення в літературі, та виявили, що InceptionV3 виконувався досить добре, але був перевершений трансформер-орієнтованими бекбонами, такими як DINOv2-L/14 та ViT-L/16, які більш послідовно відповідали людським рейтингам – і вони стверджують, що це підтримує заміну InceptionV3 у сучасних налаштуваннях оцінки.

Переможні ставки, що показують, як часто рейтинги кожної зображувальної основи відповідали справжнім людським рейтингам на наборі даних COCO.
Висновок
Чисто зрозуміло, що хоча рішення з людським фактором є оптимальним підходом до розробки метрик та функцій втрат, масштаб та частота оновлень, необхідні для таких схем, продовжуватимуть робити їх недоцільними – можливо, до тих пір, поки широке громадське участь в оцінках не стане загальноприйнятим; або, як це було з CAPTCHAs, примусовим.
Достовірність системи авторів все ще залежить від її відповідності людській оцінці, хоча й на одному етапі далі, ніж багато недавніх підходів, що включають людей; і тому легітимність cFreD залишається все ще залежною від даних людських переваг (очевидно, оскільки без такого еталону твердження про те, що cFreD відображає людську оцінку, було б недоведеним).
Спірно, чи буде закріплення наших поточних критеріїв для “реалізму” у генеративному виводі в метрику функції помилкою в довгостроковій перспективі, оскільки наше визначення цього поняття зараз піддається нападу з боку нової хвилі генеративних систем штучного інтелекту та готується до частих і суттєвих переглядів.
* На цьому етапі я звичайно включав би прикладний ілюстративний відео-приклад, можливо, з недавньої академічної статті; але це було б зловісним – кожен, хто провів більше 10-15 хвилин, просматриваючи вивід генеративного штучного інтелекту з Arxiv, вже наткнувся на додаткові відео, чия суб’єктивна низька якість вказує на те, що пов’язана стаття не буде відзначена як визначальна.
† Всього було використано 46 моделей зображувальної основи в експериментах, не всі з яких розглянуті в графічних результатах. Будь ласка, зверніться до додатка статті для повного списку; ті, що представлені в таблицях та на діаграмах, перелічені.
Перша публікація – вівторок, 1 квітня 2025


