заглушки Дослідження стверджують, що сектор синтезу зображень прийняв помилкову метрику - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Сектор синтезу зображень прийняв помилкову метрику, стверджує дослідження

mm
оновлений on

2021 рік став роком безпрецедентного прогресу та шалених темпів публікацій у секторі синтезу зображень, пропонуючи потік нових інновацій та вдосконалень у технологіях, здатних відтворювати людські особистості за допомогою нейронний рендеринг, дипфейки та безліч нові підходи.

Однак тепер дослідники з Німеччини стверджують, що стандарт, який використовується для автоматичного оцінювання реалістичності синтетичних зображень, має серйозні недоліки; і що сотні, навіть тисячі дослідників у всьому світі, які покладаються на нього, щоб скоротити витрати на дорогу оцінку результатів, засновану на людині, можуть зайти в глухий кут.

Щоб продемонструвати, як стандарт, Початкова відстань Фреше (FID), не відповідає людським стандартам для оцінки зображень, дослідники розгорнули власні GAN, оптимізовані для FID (тепер загальний показник). Вони виявили, що FID слідує своїм власним нав’язливим ідеям, заснованим на базовому коді, який дуже відрізняється від сфери синтезу зображень, і що йому регулярно не вдається досягти «людського» стандарту проникливості:

Оцінки FID (чим менше, тим краще) для зображень, створених різними моделями з використанням стандартних наборів даних і архітектур. Дослідники нової статті ставлять запитання: «Чи погодитеся ви з цими рейтингами?». Джерело: https://openreview.net/pdf?id=mLG96UpmbYz

Оцінки FID (чим менше, тим краще) для зображень, створених різними моделями з використанням стандартних наборів даних і архітектур. Дослідники нової статті ставлять запитання: «Чи погодитеся ви з цими рейтингами?». Джерело: https://openreview.net/pdf?id=mLG96UpmbYz

На додаток до свого твердження, що FID не підходить для поставленої задачі, у документі також припускається, що «очевидні» засоби правового захисту, такі як перемикання його внутрішнього механізму для конкуруючих двигунів, просто замінять один набір упереджень на інший. Автори припускають, що тепер до нових дослідницьких ініціатив належить розробити кращі показники для оцінки «автентичності» синтетично згенерованих фотографій.

Команда папір має титул Інтерналізовані зміщення початкової відстані Фреше, і походить від Штеффена Юнга з Інституту інформатики Макса Планка в Саарланді та Маргрет Кеупер, професора візуальних обчислень в Університеті Зігена.

Пошук системи оцінки для синтезу зображень

Як зазначає нове дослідження, прогрес у структурах синтезу зображень, таких як GAN та архітектури кодера/декодера, випереджає методи, за якими можна оцінювати результати таких систем. Крім того, що оцінка результатів цих систем людьми дорога і тому її важко масштабувати, вона не пропонує емпіричного та відтворюваного методу оцінки.

Тому виникла низка метричних рамок, у т.ч Початковий бал (IS), показаний у 2016 році папір Покращені методи навчання GAN, у співавторстві ГАН винахідник, Ян Гудфеллоу.

Дискредитація показника IS як широкозастосовного показника для кількох мереж GAN У 2018 призвело до широкого впровадження FID у спільноті синтезу зображень GAN. Однак, як і Inception Score, FID базується на Google Мережа класифікації зображень Inception v3 (IV3).

Автори нової статті стверджують, що Fréchet Inception Distance поширює шкідливі зміщення в IV3, що призводить до ненадійної класифікації якості зображення.

Оскільки FID можна включити в структуру машинного навчання як дискримінатор (вбудований «суддя», який вирішує, чи працює GAN добре, чи варто «спробувати ще раз»), він повинен точно представляти стандарти, які людина застосовує під час оцінки зображення.

Початкова відстань Фреше

FID порівнює, як функції розподіляються в навчальному наборі даних, який використовується для створення моделі GAN (або подібної функції), і результати цієї системи.

Таким чином, якщо структура GAN навчена на 10,000 XNUMX зображень (наприклад) знаменитостей, FID порівнює оригінальні (реальні) зображення з підробленими зображеннями, створеними GAN. Чим нижчий показник FID, тим ближче GAN наближається до «фотореалістичних» зображень відповідно до критеріїв FID.

З статті результати GAN, навчені на FFHQ64, підмножині дуже популярного набору даних FFHQ від NVIDIA. Тут, хоча оцінка FID є неймовірно низькою – 5.38, результати не приємні чи переконливі для середньої людини.

З статті результати GAN, навчені на FFHQ64, підмножині дуже популярних NVIDIA Набір даних FFHQ. Тут, хоча оцінка FID є неймовірно низькою – 5.38, результати не приємні чи переконливі для середньої людини.

Проблема, стверджують автори, полягає в тому, що Inception v3, чиї припущення підтримують Fréchet Inception Distance, шукає не в потрібних місцях – принаймні, не під час розгляду поточного завдання.

Inception V3 навчається на Проблема розпізнавання об'єктів ImageNet, завдання, яке, можливо, суперечить тому, як розвивалися цілі синтезу зображень за останні роки. IV3 ставить під сумнів надійність моделі, виконуючи розширення даних: він випадково перевертає зображення, обрізає їх у випадковому масштабі від 8 до 100%, змінює співвідношення сторін (у діапазоні від 3/4 до 4/3) і випадково вставляє спотворення кольору, пов’язані з яскравістю, насиченістю та контрастністю.

Дослідники з Німеччини виявили, що IV3 має тенденцію віддавати перевагу вилученню країв і текстур, а не інформації про колір та інтенсивність, що було б більш значущим показником автентичності для синтетичних зображень; і що його первісна мета виявлення об’єктів, отже, була неналежним чином виділена для невідповідного завдання. Автори заявляють*:

«[Inception v3] має упередження щодо вилучення функцій на основі країв і текстур, а не інформації про колір та інтенсивність. Це узгоджується з конвеєром доповнення, який вносить спотворення кольору, але зберігає високочастотну інформацію недоторканою (на відміну, наприклад, від доповнення за допомогою розмиття за Гаусом).

«Отже, FID успадковує це упередження. При використанні як показника ранжирування генеративні моделі, які добре відтворюють текстури, можуть бути кращими над моделями, які добре відтворюють розподіл кольорів.'

Дані та метод

Щоб перевірити свою гіпотезу, автори навчили дві архітектури GAN, DCGAN та SNGAN, на NVIDIA Набір даних людського обличчя FFHQ, зменшено до 642 роздільною здатністю зображення з похідним набором даних під назвою FFHQ64.

Було проведено три процедури навчання GAN: GAN G+D, стандарт на основі дискримінатора мережа; GAN FID|G+D, де FID виконує роль додаткового дискримінатора; і GAN FID|G. де GAN повністю базується на змінному показнику FID.

Технічно, зазначають автори, втрата FID повинна стабілізувати навчання, і потенційно навіть бути здатною повністю замінити дискримінатор (як це робиться в #3, GAN FID|G), виводячи приємні для людини результати.

На практиці результати дещо відрізняються, оскільки, як припускають автори, моделі з FID «переобладнують» неправильні показники. Дослідники зазначають:

«Ми припускаємо, що генератор навчиться виробляти невідповідні функції, щоб відповідати розподілу навчальних даних. Це спостереження стає більш серйозним у випадку [GAN FID|G] . Тут ми помічаємо, що відсутній дискримінатор призводить до просторово некогерентного розподілу ознак. Наприклад, [SNGAN FID|G] додає здебільшого поодинокі очі та неймовірно вирівнює риси обличчя».

Приклади облич, створених SNGAN FID|G.

Приклади облич, створених SNGAN FID|G.

Автори роблять висновок*:

«Хоча люди-анотатори напевно віддадуть перевагу зображенням, створеним SNGAN D+G, а не SNGAN FID|G (у випадках, коли перевага віддається точності даних, а не мистецтву), ми бачимо, що це не відображається FID. Отже, FID не узгоджується з людським сприйняттям.

«Ми стверджуємо, що дискримінаційні ознаки, надані мережами класифікації зображень, недостатні, щоб створити основу значущої метрики».

Немає легких альтернатив

Автори також виявили, що заміна Inception V3 на подібний движок не полегшила проблему. У заміні IV3 на «широкий вибір різних класифікаційних мереж», які були перевірені ImageNet-C (підмножина ImageNet, розроблена для порівняння типових спотворень і збурень вихідних зображень із фреймворків синтезу зображень), дослідники не змогли суттєво покращити свої результати:

"[Упередження] присутні в Inception v3 також широко присутні в інших мережах класифікації. Крім того, ми бачимо, що різні мережі створюють різні рейтинги між типами корупції».

Автори завершують статтю надією, що поточні дослідження дозволять розробити «людськи вирівняну та неупереджену метрику», здатну забезпечити більш справедливий рейтинг для архітектур генераторів зображень.

 

* Упор авторів.


Вперше опубліковано 2 грудня 2021 року, 1:2 GMT+XNUMX.