Взгляд Anderson
Обучение ИИ давать лучшие видеокритики

Хотя крупные модели зрения и языка (LVLMs) могут быть полезными помощниками в интерпретации некоторых более арканых или сложных представлений в литературе компьютерного зрения, есть одна область, где они ограничены: определение достоинств и субъективного качества любых видео примеров, сопровождающих новые статьи*.
Это критический аспект представления, поскольку научные статьи часто стремятся вызвать интерес с помощью убедительного текста или визуальных материалов – или обоих.
Но в случае проектов, связанных с синтезом видео, авторы должны показать фактический видеовыход или рисковать быть отвергнутыми; и именно в этих демонстрациях разрыв между смелыми заявлениями и реальной производительностью наиболее часто становится очевидным.
Я прочитал книгу, не увидел фильм
В настоящее время большинство популярных API-ориентированных крупных языковых моделей (LLM) и крупных моделей зрения и языка (LVLMs) не будут участвовать в прямом анализе видеоконтента в любом виде, качественном или ином. Вместо этого они могут только анализировать связанные транскрипты – и, возможно, комментарии и другие строго текстовые материалы.

Различные возражения GPT-4o, Google Gemini и Perplexity, когда их просят直接 проанализировать видео, не обращаясь к транскриптам или другим текстовым источникам.
Однако LLM может скрыть или отрицать свою неспособность фактически смотреть видео, если только вы не назовете их на это:

Будучи попросенным предоставить субъективную оценку видео, связанных с новой исследовательской статьей, и выдавая реальное мнение, ChatGPT-4o в конечном итоге признается, что не может фактически просматривать видео напрямую.
Хотя модели, такие как ChatGPT-4o, являются многомодальными и могут анализировать отдельные фотографии (например, извлеченную кадр из видео, см. изображение выше), есть некоторые проблемы даже с этим: во-первых, нет оснований доверять субъективному мнению LLM, не в последнюю очередь потому, что LLM склонны к ‘людям, которые хотят быть любимыми’, а не искреннему дискурсу.
Во-вторых, многие, если не большинство проблем, сгенерированного видео, вероятно, имеют временной аспект, который полностью теряется в кадре – и поэтому осмотр отдельных кадров не имеет смысла.
Наконец, LLM может дать предполагаемое ‘ценностное суждение’ только на основе того, что он впитал текстовые знания, например, в отношении глубоких подделок изображений или истории искусства. В таком случае обученные знания области позволяют LLM связать проанализированные визуальные качества изображения с обученными вложениями на основе человеческого прозрения:

Проект FakeVLM предлагает целевую детекцию глубоких подделок через специализированную многомодальную модель зрения и языка. Источник: https://arxiv.org/pdf/2503.14905
Это не означает, что LLM не может получить информацию напрямую из видео; например, с помощью вспомогательных систем ИИ, таких как YOLO, LLM может определить объекты в видео – или может сделать это напрямую, если обучен для выше среднего числа многомодальных функций.
Но единственный способ, которым LLM может оценить видео субъективно (т.е., ‘Это не выглядит реальным для меня’), заключается в применении метрики на основе функции потерь, которая либо известна как отражение человеческого мнения, либо直接 информирована человеческим мнением.
Функции потерь – это математические инструменты, используемые во время обучения для измерения того, насколько далеко прогнозы модели находятся от правильных ответов. Они обеспечивают обратную связь, которая руководит обучением модели: чем больше ошибка, тем больше потерь. По мере прогресса обучения модель корректирует свои параметры, чтобы уменьшить эти потери, постепенно улучшая свою способность делать точные прогнозы.
Функции потерь используются как для регулирования обучения моделей, так и для калибровки алгоритмов, предназначенных для оценки вывода моделей ИИ (например, оценки симулированного фотореалистичного контента из генеративной модели видео).
Условное зрение
Одной из наиболее популярных метрик/функций потерь является Fréchet Inception Distance (FID), которая оценивает качество сгенерированных изображений, измеряя сходство между их распределением (что здесь означает ‘как изображения распределены или сгруппированы по визуальным особенностям’) и реальных изображений.
Конкретно, FID рассчитывает статистическую разницу, используя средние значения и ковариансы, между особенностями, извлеченными из обоих наборов изображений с помощью (часто критикуемой) Inception v3 классификационной сети. Более низкий балл FID указывает на то, что сгенерированные изображения более похожи на реальные изображения, что подразумевает лучшее визуальное качество и разнообразие.
Однако FID по сути сравнительный и, возможно, самореферентный по своей природе. Чтобы исправить это, более поздний Условный Fréchet Distance (CFD, 2021) отличается от FID, сравнивая сгенерированные изображения с реальными изображениями и оценивая балл на основе того, насколько хорошо оба набора соответствуют дополнительному условию, такому как (неизбежно субъективный) классический ярлык или входное изображение.
Таким образом, CFID учитывает, насколько точно изображения соответствуют предполагаемым условиям, а не только их общую реалистичность или разнообразие среди себя.

Примеры из версии CFD 2021. Источник: https://github.com/Michael-Soloveitchik/CFID/
CFD следует недавней тенденции включения качественной человеческой интерпретации в функции потерь и метрики алгоритмов. Хотя такой человеко-ориентированный подход гарантирует, что полученный алгоритм не будет ‘бессмысленным’ или просто механическим, он представляет собой ряд проблем: возможность предвзятости; бремя обновления алгоритма в соответствии с новыми практиками; и тот факт, что это исключит возможность последовательных сравнительных стандартов за период лет между проектами; и бюджетные ограничения (меньшее количество человеческих участников сделает определения более сомнительными, в то время как большее количество может предотвратить полезные обновления из-за стоимости).
cFreD
Это приводит нас к новой статье из США, которая, по-видимому, предлагает Условный Fréchet Distance (cFreD), новый взгляд на CFD, предназначенный для лучшего отражения человеческих предпочтений, оценивая как визуальное качество, так и текст-изображение-выравнивание

Частичные результаты новой статьи: рейтинги изображений (1–9) по разным метрикам для подсказки “Гостиная с диваном и ноутбуком, лежащим на диване.” Зеленый цвет подсвечивает лучшую модель, оцененную человеком (FLUX.1-dev), фиолетовый – худшую (SDv1.5). Только cFreD соответствует рейтингам человека. Пожалуйста, обратитесь к исходной статье для полных результатов, которые мы не имеем возможности воспроизвести здесь. Источник: https://arxiv.org/pdf/2503.21721
Авторы утверждают, что существующие методы оценки текст-изображения синтеза, такие как Inception Score (IS) и FID, плохо соответствуют человеческому суждению, поскольку они измеряют только качество изображения, не учитывая, как изображения соответствуют своим подсказкам:
‘Например, рассмотрим набор данных с двумя изображениями: одним с собакой и одним с кошкой, каждым из которых соответствует его соответствующая подсказка. Идеальная текст-изображение-модель, которая ошибочно меняет эти сопоставления (т.е. генерирует кошку для подсказки собаки и наоборот), достигнет почти нулевого FID, поскольку общее распределение кошек и собак сохраняется, несмотря на несоответствие с предполагаемыми подсказками.
‘Мы показываем, что cFreD лучше оценивает качество изображения и условие на входной текст и приводит к улучшению корреляции с человеческими предпочтениями.’

Тесты статьи показывают, что предложенная метрика авторов, cFreD, последовательно достигает более высокой корреляции с человеческими предпочтениями, чем FID, FDDINOv2, CLIPScore и CMMD на трех наборах данных (PartiPrompts, HPDv2 и COCO).
Концепция и метод
Авторы отмечают, что текущий золотой стандарт для оценки текст-изображение-моделей включает сбор данных о человеческих предпочтениях через крауд-сорсинговые сравнения, аналогичные методам, используемым для крупных языковых моделей (например, LMSys Arena).
Например, PartiPrompts Arena использует 1600 английских подсказок, представляя участникам пары изображений из разных моделей и прося их выбрать предпочитаемое изображение.
Аналогично, Text-to-Image Arena Leaderboard использует сравнения моделей пользователей для генерации рейтингов через баллы ELO. Однако сбор этого типа данных о человеческой оценке является дорогим и медленным, что привело некоторые платформы – такие как PartiPrompts Arena – к прекращению обновлений.

Artificial Analysis Image Arena Leaderboard, который ранжирует текущих лидеров в генеративном визуальном ИИ. Источник: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Хотя существуют альтернативные методы, обученные на исторических данных о человеческих предпочтениях, их эффективность для оценки будущих моделей остается неопределенной, поскольку человеческие предпочтения непрерывно эволюционируют. Следовательно, автоматические метрики, такие как FID, CLIPScore, и предложенный авторами cFreD, кажутся вероятными для сохранения в качестве важных инструментов оценки.
Авторы предполагают, что и реальные, и сгенерированные изображения, условленные на подсказку, следуют гауссовым распределениям, каждое из которых определяется условными средними значениями и ковариациями. cFreD измеряет ожидаемое расстояние Фреде по подсказкам между этими условными распределениями. Это можно сформулировать либо直接 в терминах условной статистики, либо путем объединения безусловной статистики с кросс-ковариациями, включающими подсказку.
Объединив подсказку таким образом, cFreD может оценить как реализм изображений, так и их последовательность с данным текстом.
Данные и тесты
Чтобы оценить, насколько хорошо cFreD соответствует человеческим предпочтениям, авторы использовали рейтинги изображений из нескольких моделей, сгенерированных по одной и той же текстовой подсказке. Их оценка была основана на двух источниках: Human Preference Score v2 (HPDv2) тестовый набор, который включает девять сгенерированных изображений и одно COCO реальное изображение на подсказку; и упомянутый выше PartiPrompts Arena, который содержит выводы из четырех моделей по 1600 подсказкам.
Авторы собрали разрозненные данные Arena в единый набор данных; в случаях, когда реальное изображение не занимало высшей позиции в человеческих оценках, они использовали лучшее оцененное изображение в качестве эталона.
Чтобы протестировать более новые модели, они отобрали 1000 подсказок из обучающих и валидационных наборов COCO, обеспечивая отсутствие совпадения с HPDv2, и сгенерировали изображения, используя девять моделей из Arena Leaderboard. Оригинальные изображения COCO служили эталонами в этой части оценки.
Подход cFreD был оценен с помощью четырех статистических метрик: FID; FDDINOv2; CLIPScore; и CMMD. Он также был оценен против четырех обученных метрик, обученных на данных о человеческих предпочтениях: Aesthetic Score; ImageReward; HPSv2; и MPS.
Авторы оценили корреляцию с человеческим суждением как с рейтинговой, так и с точки зрения оценки: для каждой метрики сообщались баллы моделей и рассчитывались рейтинги для их соответствия результатам человеческой оценки, с cFreD, использующим DINOv2-G/14 для вложений изображений и OpenCLIP ConvNext-B Текстовый кодировщик для вложений текста†.
Предыдущая работа по обучению человеческим предпочтениям измеряла производительность с помощью точности ранжирования для каждого предмета, которая рассчитывает точность ранжирования для каждой пары изображение-текст, прежде чем усреднять результаты.
Авторы вместо этого оценили cFreD, используя глобальную точность ранжирования, которая оценивает общую производительность ранжирования во всем наборе данных; для статистических метрик они получили рейтинги直接 из сырых баллов; и для метрик, обученных на человеческих предпочтениях, они сначала усреднили рейтинги, назначенные каждой модели во всех образцах, затем определили окончательный рейтинг из этих средних.
Первоначальные тесты использовали десять фреймворков: GLIDE; COCO; FuseDream; DALLE 2; VQGAN+CLIP; CogView2; Stable Diffusion V1.4; VQ-Diffusion; Stable Diffusion V2.0; и LAFITE.

Рейтинги моделей и баллы на наборе тестов HPDv2, используя статистические метрики (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрики, обученные на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Лучшие результаты показаны в жирном шрифте, вторые лучшие подчеркнуты.
Из первоначальных результатов авторы отмечают:
‘cFreD достигает наивысшей соответствия с человеческими предпочтениями, достигая корреляции 0,97. Среди статистических метрик cFreD достигает наивысшей корреляции и сопоставима с HPSv2 (0,94), моделью, явно обученной на человеческих предпочтениях. Учитывая, что HPSv2 была обучена на наборе данных HPSv2, который включает четыре модели из тестового набора, и использовала одних и тех же аннотаторов, она внутренне кодирует конкретные человеческие предпочтительные предвзятости той же обстановки.
‘Напротив, cFreD достигает сопоставимой или лучшей корреляции с человеческой оценкой без какого-либо обучения на человеческих предпочтениях.
‘Эти результаты демонстрируют, что cFreD обеспечивает более надежные рейтинги среди различных моделей по сравнению со стандартными автоматическими метриками и метриками, обученными явно на человеческих предпочтениях.’
Среди всех оцененных метрик cFreD достиг наивысшей точности ранжирования (91,1%), демонстрируя – по мнению авторов – сильное соответствие с человеческими суждениями.
HPSv2 заняла второе место с 88,9%, в то время как FID и FDDINOv2 показали конкурентные баллы 86,7%. Хотя метрики, обученные на человеческих предпочтениях, в целом соответствовали человеческим оценкам, cFreD оказался наиболее прочным и надежным в целом.
Ниже мы видим результаты второго раунда тестирования, на этот раз на PartiPrompts Arena, используя SDXL; Kandinsky 2; Würstchen; и Karlo V1.0.

Рейтинги моделей и баллы на PartiPrompt, используя статистические метрики (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрики, обученные на человеческих предпочтениях (Aesthetic Score, ImageReward и MPS). Лучшие результаты показаны в жирном шрифте, вторые лучшие подчеркнуты.
Здесь статья гласит:
‘Среди статистических метрик cFreD достигает наивысшей корреляции с человеческими оценками (0,73), с FID и FDDINOv2, достигающими корреляции 0,70. Напротив, CLIP-оценка показывает очень низкую корреляцию (0,12) с человеческими суждениями.
‘В категории, обученной на человеческих предпочтениях, HPSv2 имеет наивысшее соответствие, достигая наивысшей корреляции (0,83), за которой следует ImageReward (0,81) и MPS (0,65). Эти результаты подчеркивают, что хотя cFreD является прочной автоматической метрикой, HPSv2 выделяется как наиболее эффективная в захвате тенденций человеческой оценки в PartiPrompts Arena.’
Наконец, авторы провели оценку на наборе данных COCO, используя девять современных текст-изображение-моделей: FLUX.1[dev]; Playgroundv2.5; Janus Pro; и варианты Stable Diffusion SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 и 1.5.
Рейтинги человеческих предпочтений были получены из Text-to-Image Leaderboard и представлены в виде баллов ELO:

Рейтинги моделей на случайно отобранных подсказках COCO, используя автоматические метрики (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрики, обученные на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Точность ранжирования ниже 0,5 указывает на более несоответствующие, чем согласованные пары, и лучшие результаты показаны в жирном шрифте, вторые лучшие подчеркнуты.
По поводу этого раунда исследователи заявляют:
‘Среди статистических метрик (FID, FDDINOv2, CLIP, CMMD и наш предложенный cFreD) только cFreD демонстрирует сильную корреляцию с человеческими предпочтениями, достигая корреляции 0,33 и не тривиальной точности ранжирования 66,67%. ‘Этот результат ставит cFreD на третье место по соответствию среди всех метрик, превосходя только метрики, обученные на человеческих предпочтениях, ImageReward, HPSv2 и MPS.
‘Заметно, что все остальные статистические метрики показывают значительно более слабую корреляцию с рейтингами ELO и, как результат, инвертируют рейтинги, что приводит к точности ранжирования ниже 0,5.
‘Эти результаты подчеркивают, что cFreD чувствителен как к визуальной точности, так и к последовательности подсказки, подкрепляя его ценность как практической, не требующей обучения альтернативы для оценки текст-изображение генерации.’
Авторы также протестировали Inception V3 в качестве основы, обратив внимание на его повсеместность в литературе, и обнаружили, что InceptionV3 работает разумно, но был превзойден трансформаторными основами, такими как DINOv2-L/14 и ViT-L/16, которые более последовательно соответствовали человеческим рейтингам – и они утверждают, что это подтверждает замену InceptionV3 в современных настройках оценки.

Коэффициенты побед, показывающие, как часто рейтинги каждой основы изображения соответствуют фактическим человеческим рейтингам на наборе данных COCO.
Заключение
Ясно, что хотя решения с человеческим участием являются оптимальным подходом к разработке метрик и функций потерь, масштаб и частота обновлений, необходимые для таких схем, будут продолжать делать их нецелесообразными – возможно, до тех пор, пока широкое участие общественности в оценках не будет общепринято; или, как это было с CAPTCHAs, не будет обеспечено.
Достоверность новой системы авторов все еще зависит от ее соответствия человеческому суждению, хотя и на один шаг дальше, чем многие недавние подходы с человеческим участием; и легитимность cFreD остается все еще в человеческих данных о предпочтениях (очевидно, поскольку без такого эталона утверждение, что cFreD отражает человеческую оценку, было бы недоказуемым).
Спорно, можно ли закрепить наши текущие критерии ‘реализма’ в генеративном выводе в метрической функции, поскольку наше определение этого понятия в настоящее время находится под атакой новой волны генеративных систем ИИ и подлежит частым и существенным пересмотрам.
* На этом этапе я обычно включил бы примерный иллюстративный видео-пример, возможно, из недавнего академического представления; но это было бы злонамеренно – любой, кто провел более 10-15 минут, просматривая вывод генеративного ИИ Arxiv, уже встретил дополнительные видео, чье субъективно плохое качество указывает на то, что связанное представление не будет признано эталонной статьей.
† Всего в экспериментах было использовано 46 моделей основы изображения, не все из которых учитываются в графических результатах. Пожалуйста, обратитесь к приложению статьи для полного списка; те, которые представлены в таблицах и рисунках, перечислены.
Опубликовано впервые во вторник, 1 апреля 2025


