Штучний інтелект

Дослідження Disney пропонує покращений AI-основний стиск зображень – Але воно може галюцинувати деталі

Published October 30, 2024

Updated April 27, 2026

Martin Anderson

Detail for the supplementary Disney paper – source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

Дослідницький підрозділ Disney пропонує новий метод стиснення зображень, використовуючи відкритий код моделі Stable Diffusion V1.2 для створення більш реалістичних зображень при нижчих швидкостях бітів, ніж конкуруючі методи.

Метод стиснення Disney порівняно з попередніми підходами. Автори стверджують, що покращено відновлення деталей, а також пропонують модель, яка не вимагає сотень тисяч доларів на навчання, і яка працює швидше, ніж найближчий еквівалентний конкуруючий метод. Джерело: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Новий підхід (визначений як “кодек”, незважаючи на свою підвищену складність порівняно з традиційними кодеками, такими як JPEG і AV1) може працювати над будь-якою Латентною дифузійною моделлю (LDM). У кількісних тестах він перевершує попередні методи за точністю та деталями, і вимагає значно менше навчання та обчислювальних витрат.

Ключовим відкриттям нової роботи є те, що квантизаційна похибка (центральний процес у всіх методах стиснення зображень) схожа на шум (центральний процес у дифузійних моделях).

Отже, “традиційно” квантізоване зображення можна розглядати як шумову версію оригінального зображення, і використовувати в процесі денойзингу LDM замість випадкового шуму, щоб відновити зображення на цільовій швидкості бітів.

Додаткові порівняння нового методу Disney (виділено зеленим), у порівнянні з конкуруючими підходами.

Автори стверджують:

‘[Ми] формулюємо видалення квантизаційної похибки як завдання денойзингу, використовуючи дифузію для відновлення втраченої інформації у переданому латентному зображенні. Наш підхід дозволяє нам виконувати менше 10% повного дифузійного генеративного процесу і не вимагає жодних архітектурних змін у дифузійній моделі, що дозволяє використовувати фундаментальні моделі як сильний апріор без додаткового доопрацювання основної моделі.

‘Наш пропонований кодек перевершує попередні методи у кількісних реалістичних метриках, і ми підтверджуємо, що наші реконструкції якісно переважають інші методи, навіть якщо інші методи використовують вдвічі більшу швидкість бітів.’

Однак, як і інші проекти, які намагаються використати можливості стиснення дифузійних моделей, вихідний результат може галюцинувати деталі. На відміну від цього, втратні методи, такі як JPEG, будуть створювати явно спотворені або надмірно згладжені області деталей, які можна розпізнати як обмеження стиснення непідготовленим глядачем.

Натомість, кодек Disney може змінювати деталі з контексту, який не був присутній у вихідному зображенні, через грубий характер Варіаційного автоенкодера (VAE), який використовується у типових моделях, навчених на гіпермасштабних даних.

‘Подібно до інших генеративних підходів, наш метод може відкидати певні особливості зображення під час синтезу подібної інформації на приймальній стороні. У певних випадках, однак, це може призвести до неточної реконструкції, chẳng hạn як вигин прямих ліній або викривлення межі малих об’єктів.

‘Ці проблеми добре відомі для фундаментальної моделі, на якій ми будуємо, які можна віднести до відносно низької розмірності її VAE.’

Хоча це має деякі наслідки для художніх зображень і правдоподібності звичайних фотографій, воно може мати більш критичний вплив у випадках, коли дрібні деталі становлять важливу інформацію, наприклад, докази для судових справ, дані для розпізнавання облич, скани для Оптичного Розпізнавання Символів (OCR) та широкий спектр інших можливих випадків використання, у разі популяризації кодека з цією можливістю.

На цій ранній стадії розвитку AI-підсиленого стиснення зображень усі ці можливі сценарії ще дуже далекі у майбутньому. Однак, зберігання зображень є гіпермасштабною глобальною проблемою, яка торкається питань навколо зберігання даних, потокового передавання та споживання електроенергії, крім інших проблем. Отже, AI-основне стиснення може пропонувати привабливу компроміс між точністю та логістикою. Історія показує, що найкращі кодеки не завжди перемагають найбільшу базу користувачів, коли питання, такі як ліцензування та захоплення ринку пропрієтарними форматами, є факторами прийняття.

Disney вже давно експериментує з машинним навчанням як методом стиснення. У 2020 році один з дослідників нової статті був залучений до проекту на основі VAE для покращення відеостиснення.

Нова стаття Disney була оновлена на початку жовтня. Сьогодні компанія випустила супровідне відео на YouTube. Проект називається Втратне стиснення зображень з моделями дифузії, і походять від чотирьох дослідників з ETH Zürich (афілійованих з проектами AI Disney) та Disney Research. Дослідники також пропонують доповнюючу статтю.

Метод

Новий метод використовує VAE для кодування зображення у його стиснене латентне представлення. На цій стадії вхідне зображення складається з похідних особливостей – низькорівневих векторних представлень. Латентне вкладення потім квантізується назад у біт-потік, і назад у простір пікселів.

Це квантізоване зображення потім використовується як шаблон для шуму, який зазвичай використовується для дифузійної моделі зображення, з різною кількістю кроків денойзингу (де часто існує компроміс між збільшенням кроків денойзингу та підвищенням точності, проти нижчої затримки та вищої ефективності).

Схема нового методу стиснення Disney.

Обидва параметри кванталізації та загальна кількість кроків денойзингу можна контролювати під новою системою, шляхом навчання нейронної мережі, яка передбачає відповідні змінні, пов’язані з цими аспектами кодування. Цей процес називається адаптивною квантизацією, і система Disney використовує Entroformer як модель ентропії, яка підтримує процедуру.

Автори заявляють:

‘Інтуїтивно, наш метод вчиться відкидати інформацію (через перетворення кванталізації) яка може бути синтезована під час процесу дифузії. Через те, що помилки, введені під час кванталізації, схожі на додавання [шуму] і дифузійні моделі є функціонально денойзинговими моделями, вони можуть бути використані для видалення квантізованого шуму, введеного під час кодування.’

Stable Diffusion V2.1 є дифузійним хребтом для системи, обраним через те, що весь код і базові ваги є публічно доступними. Однак автори підкреслюють, що їх схема застосовна до ширшого числа моделей.

Ключовим для економіки процесу є передбачення кроку часу, яке оцінює оптимальну кількість кроків денойзингу – баланс між ефективністю та продуктивністю.

Передбачення кроку часу, з оптимальною кількістю кроків денойзингу, позначеною червоним кордоном. Будь ласка, зверніться до джерельного PDF для точного розширення.

Кількість шуму у латентному вкладенні потрібно враховувати при передбаченні найкращої кількості кроків денойзингу.

Дані та тести

Модель була навчена на наборі даних Vimeo-90k. Зображення були випадково обрізані до 256x256px для кожного епохи (тобто, кожної повної інгестії розвиненого набору даних архітектурою навчання моделі).

Модель була оптимізована для 300 000 кроків при швидкості навчання 1e-4. Це є найбільш поширеним серед проектів комп’ютерного зору, і також найнижчим і найбільш дрібнозернистим загалом практичним значенням, як компроміс між широким узагальненням концепцій і ознак набору даних, і здатністю до відтворення дрібних деталей.

Автори коментують деякі логістичні міркування для економічної, але ефективної системи*:

‘Під час навчання це заборонно дорого назад пропагувати градієнт через кілька проходів дифузійної моделі, оскільки вона працює під час DDIM зразка. Тому ми виконуємо лише один крок DDIM зразка і прямо використовуємо [це] як повністю денойзований [дані].’

Набори даних, використані для тестування системи, були Kodak; CLIC2022; і COCO 30k. Набір даних був попередньо оброблений згідно з методологією, викладеною у статті Google 2023 пропозиції Багаторозмірне стиснення зображень з умовним генератором.

Метрики, використані для оцінки, були Пікова відношення сигналу до шуму (PSNR); Навчені перцептивні метрики подібності (LPIPS); Багатомасштабний індекс структуної подібності (MS-SSIM); і Відстань Фреше-Інсепшн (FID).

Конкуруючі попередні рамки, протестовані, були розділені між старішими системами, які використовували Генеративні Адверсарні Мережі (GAN), і більш недавніми пропозиціями, заснованими на дифузійних моделях. Системи GAN, протестовані, були Високої чіткості генеративне стиснення зображень (HiFiC); і ILLM (який пропонує деякі покращення над HiFiC).

Системи, засновані на дифузії, були Втратне стиснення зображень з умовними дифузійними моделями (CDC) і Високої чіткості стиснення зображень з моделями, заснованими на оцінці (HFD).

Кількісні результати проти попередніх рамок над різними наборами даних.

Для кількісних результатів (візуалізованих вище) дослідники заявляють:

‘Наш метод встановлює новий стан-оф-те-арт у реалізмі реконструйованих зображень, перевершуючи всі базові рівні у кривих FID-швидкості бітів. У деяких метриках спотворення (конкретно, LPIPS і MS-SSIM), ми перевершуємо всі дифузійні кодеки, залишаючись конкурентоспроможними з найбільш високопродуктивними генеративними кодеками.

‘Як очікувалося, наш метод і інші генеративні методи страждають, коли вимірюються у PSNR, оскільки ми віддаємо перевагу перцептивно привабливим реконструкціям замість точної реплікації деталей.’

Для дослідження користувача був використаний метод двоїстого альтернативного примусового вибору (2AFC), у турнірному контексті, де переважені зображення будуть переходити до пізніших раундів. Дослідження використовувало систему рейтингу Elo, спочатку розроблену для шахових турнірів.

Отже, учасники переглядали і вибирали найкраще з двох представлених 512x512px зображень через різні генеративні методи. Додатковий експеримент був проведений, у якому всі порівняння зображень з того самого користувача були оцінені через симуляцію Монте-Карло за 10 000 ітерацій, з медіанним балом, представленим у результатах.

Оцінки Elo для дослідження користувача, що містить турніри Elo для кожного порівняння (ліворуч) і також для кожного учасника, з вищими значеннями краще.

Тут автори коментують:

‘Як можна побачити в оцінках Elo, наш метод значно перевершує всі інші, навіть порівняно з CDC, який використовує в середньому вдвічі більшу кількість бітів нашого методу. Це залишається правдою незалежно від стратегії турніру Elo, використовуваної.’

У оригінальній статті, а також у доповнюючому PDF, автори пропонують подальші візуальні порівняння, одне з яких показано раніше в цій статті. Однак, через дрібнозернистість різниці між зразками, ми посилаємо читача до джерельного PDF, щоб ці результати могли бути справедливо оцінені.

Стаття завершується тим, що її пропонований метод працює вдвічі швидше, ніж конкуруючий CDC (3,49 проти 6,87 секунд, відповідно). Вона також спостерігає, що ILLM може обробляти зображення за 0,27 секунди, але що ця система вимагає обтяжливого навчання.

Висновок

Дослідники з ETH/Disney ясно заявляють у висновку статті про потенціал своєї системи для генерації хибних деталей. Однак, жоден з зразків, представлених у матеріалі, не зупиняється на цій проблемі.

Усі справедливості, ця проблема не обмежується новим підходом Disney, але є невід’ємним побічним ефектом використання дифузійних моделей – винахідливої та інтерпретативної архітектури – для стиснення зображень.

Цікаво, що лише п’ять днів тому два інших дослідників з ETH Zurich створили статтю під назвою Умовні галюцинації для стиснення зображень, яка досліджує можливість “оптимального рівня галюцинацій” у системах стиснення зображень на основі AI.

Автори там роблять випад для бажаності галюцинацій, де область є досить загальною (і, по суті, “безпечною”):

‘Для текстурного вмісту, такого як трава, веснянки та кам’яні стіни, генерація пікселів, які реалістично відповідають заданій текстурі, є більш важливим, ніж реконструкція точних значень пікселів; генерація будь-якого зразка з розподілу текстури загалом достатня.’

Отже, ця друга стаття робить випад для того, щоб стиснення було оптимально “креативним” та представницьким, а не точною реплікацією основних ознак і контурів оригінального незстисненого зображення.

Хто знає, що фотографічна та творча спільнота зробить з цього досить радикального пере визначення “стиснення”.

*Мій перехід цитат авторів у гіперпосилання.

Перша публікація у середу, 30 жовтня 2024

Related Topics:AI image AI image generation image synthesis

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]