заглушки Сектор синтеза изображений принял ошибочную метрику, утверждают исследователи - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Сектор синтеза изображений принял ошибочную метрику, утверждает исследование

mm
обновленный on

2021 год стал годом беспрецедентного прогресса и бешеного темпа публикаций в области синтеза изображений, предлагая поток новых инноваций и улучшений в технологиях, способных воспроизводить человеческие личности через нейронный рендеринг, дипфейки и множество других новые подходы.

Однако теперь исследователи из Германии заявляют, что стандарт, используемый для автоматической оценки реалистичности синтетических изображений, фатально ошибочен; и что сотни, даже тысячи исследователей по всему миру, которые полагаются на него, чтобы сократить расходы на дорогостоящую оценку результатов с участием человека, могут зайти в тупик.

Чтобы продемонстрировать, как стандарт, Начальное расстояние Фреше (ФИД), не соответствует человеческим стандартам оценки изображений, исследователи развернули свои собственные GAN, оптимизированные для FID (теперь общепринятая метрика). Они обнаружили, что FID следует своим собственным навязчивым идеям, основанным на базовом коде, задача которого сильно отличается от области синтеза изображений, и что ему обычно не удается достичь «человеческого» стандарта распознавания:

Оценки FID (чем ниже, тем лучше) для изображений, созданных различными моделями с использованием стандартных наборов данных и архитектур. Исследователи новой статьи задают вопрос: «Согласны ли вы с этими рейтингами?». Источник: https://openreview.net/pdf?id=mLG96UpmbYz

Оценки FID (чем ниже, тем лучше) для изображений, созданных различными моделями с использованием стандартных наборов данных и архитектур. Исследователи новой статьи задают вопрос: «Согласны ли вы с этими рейтингами?». Источник: https://openreview.net/pdf?id=mLG96UpmbYz

В дополнение к утверждению, что FID не подходит для своей предполагаемой задачи, в документе также предлагается, что «очевидные» меры, такие как замена его внутреннего двигателя на конкурирующие двигатели, просто заменят один набор смещений на другой. Авторы предполагают, что теперь новые исследовательские инициативы должны разработать более совершенные показатели для оценки «подлинности» синтетически сгенерированных фотографий.

Ассоциация бумаги называется Внутренние предубеждения в начальной дистанции Фреше, и принадлежит Штеффену Юнгу из Института информатики Макса Планка в Сааре и Маргрет Койпер, профессору визуальных вычислений Зигенского университета.

Поиск системы оценки для синтеза изображений

Как отмечается в новом исследовании, прогресс в структурах синтеза изображений, таких как GAN и архитектуры кодировщика/декодера, опередил методы, с помощью которых можно судить о результатах таких систем. Помимо дороговизны и, следовательно, трудности масштабирования, оценка человеком результатов этих систем не предлагает эмпирического и воспроизводимого метода оценки.

Поэтому появился ряд метрических рамок, в том числе Начальная оценка (IS), представленный в 2016 г. бумаги Улучшенные методы обучения GAN, в соавторстве с ГАН изобретатель, Ян Гудфеллоу.

Дискредитация оценки IS как широко применимой метрики для нескольких сетей GAN. в 2018 привело к широкому внедрению FID в сообществе синтезаторов изображений GAN. Однако, как и начальная оценка, FID основан на Сеть классификации изображений Inception v3 (IV3).

Авторы новой статьи утверждают, что начальное расстояние Фреше распространяет опасные смещения в IV3, что приводит к ненадежной классификации качества изображения.

Поскольку FID может быть включен в структуру машинного обучения в качестве дискриминатора (встроенного «судьи», который решает, хорошо ли работает GAN или следует «попробовать еще раз»), он должен точно представлять стандарты, которые человек будет применять при оценке. изображения.

Начальное расстояние Фреше

FID сравнивает, как функции распределяются по набору обучающих данных, используемому для создания модели GAN (или аналогичной функциональности), и результаты этой системы.

Поэтому, если структура GAN обучена на 10,000 XNUMX изображений (например) знаменитостей, FID сравнивает исходные (настоящие) изображения с поддельными изображениями, созданными GAN. Чем ниже оценка FID, тем ближе GAN приближается к «фотореалистичным» изображениям в соответствии с критериями FID.

Из статьи результаты обучения GAN на FFHQ64, подмножестве очень популярного набора данных NVIDIA FFHQ. Здесь, хотя показатель FID удивительно низкий 5.38, результаты не радуют и не убеждают среднего человека.

Из статьи результаты обучения GAN на FFHQ64, подмножестве очень популярного Набор данных FFHQ. Здесь, хотя показатель FID удивительно низкий 5.38, результаты не радуют и не убеждают среднего человека.

Авторы утверждают, что проблема заключается в том, что Inception v3, предположения которого определяют Fréche Inception Distance, смотрит не туда, куда нужно — по крайней мере, не при рассмотрении поставленной задачи.

Inception V3 обучается на Задача распознавания объектов ImageNet, задача, которая, возможно, противоречит тому, как цели синтеза изображений развивались в последние годы. IV3 бросает вызов надежности модели, выполняя аугментацию данных: он случайным образом переворачивает изображения, обрезает их до случайного масштаба в диапазоне от 8 до 100%, изменяет соотношение сторон (в диапазоне от 3/4 до 4/3) и случайным образом вводит цветовые искажения, связанные с яркостью, насыщенностью и контрастностью.

Исследователи из Германии обнаружили, что IV3 имеет тенденцию отдавать предпочтение извлечению краев и текстур, а не информации о цвете и интенсивности, которые были бы более значимыми показателями подлинности для синтетических изображений; и что его первоначальная цель обнаружения объектов была поэтому ненадлежащим образом изолирована для неподходящей задачи. Авторы заявляют*:

«[Inception v3] имеет уклон в сторону извлечения признаков на основе краев и текстур, а не информации о цвете и интенсивности. Это согласуется с его конвейером увеличения, который вносит искажения цвета, но сохраняет нетронутой высокочастотную информацию (в отличие, например, от увеличения с размытием по Гауссу).

«Следовательно, FID наследует эту предвзятость. При использовании в качестве показателя ранжирования генеративные модели, хорошо воспроизводящие текстуры, могут быть предпочтительнее моделей, которые хорошо воспроизводят распределение цветов..'

Данные и метод

Чтобы проверить свою гипотезу, авторы обучили две архитектуры GAN, ДКГАН и СНГАН, на NVIDIA Набор данных человеческого лица FFHQ, уменьшено до 642 разрешение изображения с производным набором данных под названием FFHQ64.

Были проведены три процедуры обучения GAN: GAN G+D, стандартная основанный на дискриминаторе сеть; GAN FID|G+D, где FID выступает в качестве дополнительного дискриминатора; и GAN FID|G. где GAN полностью зависит от скользящей оценки FID.

Технически, отмечают авторы, потеря FID должна стабилизировать тренировку и потенциально даже быть в состоянии полностью заменить дискриминатором (как это делается в #3, GAN FID|G), выдавая приятные для человека результаты.

На практике результаты довольно разные, поскольку, как предполагают авторы, модели с помощью FID «переоснащают» неправильные показатели. Исследователи отмечают:

«Мы предполагаем, что генератор учится создавать неподходящие функции, чтобы соответствовать распределению обучающих данных. Это наблюдение становится более серьезным в случае [GAN FID|G]. Здесь мы замечаем, что отсутствие дискриминатора приводит к пространственно несогласованному распределению признаков. Например, [SNGAN FID|G] добавляет в основном одиночные глаза и устрашающе выравнивает черты лица».

Примеры лиц, созданных SNGAN FID|G.

Примеры лиц, созданных SNGAN FID|G.

Авторы делают вывод*:

«Хотя аннотаторы-люди, безусловно, предпочтут изображения, созданные SNGAN D+G, а не SNGAN FID|G (в случаях, когда точность данных предпочтительнее, чем искусство), мы видим, что это не отражается FID. Следовательно, FID не соответствует человеческому восприятию..

«Мы утверждаем, что отличительных признаков, предоставляемых сетями классификации изображений, недостаточно, чтобы обеспечить основу значимой метрики».

Нет простых альтернатив

Авторы также обнаружили, что замена Inception V3 на аналогичный двигатель не решила проблему. При замене IV3 «широким выбором различных сетей классификации», которые были протестированы против ImageNet-C (подмножество ImageNet, предназначенное для сравнительного анализа часто генерируемых искажений и возмущений в выходных изображениях из сред синтеза изображений), исследователи не смогли существенно улучшить свои результаты:

"[Предубеждения] представленные в Inception v3, также широко представлены в других классификационных сетях. Кроме того, мы видим, что разные сети будут давать разные рейтинги между типами коррупции».

Авторы завершают статью надеждой, что продолжающиеся исследования позволят разработать «ориентированную на человека и беспристрастную метрику», способную обеспечить более справедливое ранжирование архитектур генераторов изображений.

 

* Подчеркнуто авторами.


Впервые опубликовано 2 декабря 2021 г., 1:2 по Гринвичу +XNUMX.