Штучний Інтелект
Дослідження Disney пропонують покращене стиснення зображень на основі штучного інтелекту, але це може викликати галюцинації деталей

Дослідницьке відділення Disney пропонує новий метод стиснення зображень, використовуючи модель Stable Diffusion V1.2 з відкритим кодом для отримання більш реалістичних зображень із нижчими бітрейтами, ніж конкуруючі методи.

Метод стиснення Disney порівняно з попередніми підходами. Автори заявляють про покращене відновлення деталей, водночас пропонуючи модель, яка не потребує сотень тисяч доларів навчання та яка працює швидше, ніж найближчий еквівалентний конкуруючий метод. Джерело: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf
Новий підхід (визначається як «кодек», незважаючи на його підвищену складність порівняно з традиційними кодеками, такими як JPEG та AV1) може працювати над будь-яким Модель латентної дифузії (ЛДМ). У кількісних тестах він перевершує попередні методи з точки зору точності та деталізації та вимагає значно менших витрат на навчання та обчислення.
Ключове розуміння нової роботи полягає в тому квантування помилка (a центральний процес у всіх стисненнях зображень) подібний до шум (a центральний процес в моделях дифузії).
Тому «традиційне» квантоване зображення можна розглядати як зашумлену версію вихідного зображення та використовувати його в процесі усунення шумів LDM замість випадкового шуму, щоб реконструювати зображення з цільовою швидкістю потоку.

Подальші порівняння нового методу Діснея (виділено зеленим) на відміну від конкурентних підходів.
Автори стверджують:
«[Ми] формулюємо усунення помилки квантування як завдання зменшення шуму, використовуючи дифузію для відновлення втраченої інформації в переданому латентному зображенні. Наш підхід дозволяє нам виконати менше 10% повного генераційного процесу дифузії та не потребує архітектурних змін у моделі дифузії, дозволяючи використовувати базові моделі як сильний пріоритет без додаткового тонкого налаштування магістралі.
«Запропонований нами кодек перевершує попередні методи в кількісних показниках реалістичності, і ми перевіряємо, що наші реконструкції якісно віддають перевагу кінцевим користувачам, навіть якщо інші методи використовують удвічі більший бітрейт».
Однак, як і в інших проектах, які прагнуть використати можливості стиснення дифузійних моделей, результат може галюцинація деталі. Навпаки, методи з втратами, такі як JPEG, створять чітко спотворені або надмірно згладжені ділянки деталей, які випадковий глядач може розпізнати як обмеження стиснення.
Натомість кодек Disney може змінити деталі контексту, яких не було у вихідному зображенні, через грубу природу Варіаційний автокодер (VAE), що використовується в типових моделях, навчених на гіпермасштабних даних.
«Подібно до інших генеративних підходів, наш метод може відкидати певні особливості зображення, синтезуючи подібну інформацію на стороні приймача. Однак у певних випадках це може призвести до неточної реконструкції, наприклад до згинання прямих ліній або деформації меж малих об’єктів.
«Це добре відомі проблеми базової моделі, на якій ми будуємося, і які можна пояснити відносно низьким розміром функцій її VAE».
Хоча це має певні наслідки для художніх зображень і правдоподібності випадкових фотографій, це може мати більш критичний вплив у випадках, коли дрібні деталі становлять важливу інформацію, таку як докази для судових справ, дані для розпізнавання обличчя, сканування для оптичного розпізнавання символів (OCR). ), а також широкий спектр інших можливих випадків використання в разі популяризації кодека з такою можливістю.
На цій початковій стадії прогресу стиснення зображень за допомогою штучного інтелекту всі ці можливі сценарії залишаються в далекому майбутньому. Однак зберігання зображень — це глобальна проблема гіпермасштабування, яка, окрім інших проблем, торкається проблем зберігання даних, потокової передачі та споживання електроенергії. Тому стиснення на основі ШІ може запропонувати спокусливий компроміс між точністю та логістикою. Історія показує, що найкращі кодеки не завжди виграють найширша база користувачів, коли такі проблеми, як ліцензування та захоплення ринку пропрієтарними форматами, є факторами прийняття.
Компанія Disney тривалий час експериментувала з машинним навчанням як методом стиснення. У 2020 році один із дослідників нової статті брав участь у а Проект на основі VAE для покращеного стиснення відео.
Нова газета Disney була оновлена на початку жовтня. Сьогодні компанія випустила супровідне відео YouTube, проект має титул Стиснення зображення з втратами за допомогою моделей базової дифузії, і походить від чотирьох дослідників з ETH Zürich (пов’язаної з проектами Disney на основі штучного інтелекту) і Disney Research. Дослідники також пропонують a додатковий документ.
Метод
Новий метод використовує VAE для кодування зображення в його стиснене приховане уявлення. На цьому етапі вхідне зображення складається з похідного риси – низькорівневі векторні представлення. Потім латентне вбудовування квантується назад у бітовий потік і назад у піксельний простір.
Потім це квантоване зображення використовується як шаблон для шуму, який зазвичай створює зображення на основі дифузії, із різною кількістю кроків усунення шумів (при цьому часто існує компроміс між збільшенням кроків усунення шумів і більшою точністю проти меншої затримки та вища ефективність).

Схема нового методу стиснення Disney.
У новій системі можна контролювати як параметри квантування, так і загальну кількість кроків усунення шумів за допомогою навчання нейронної мережі, яка передбачає відповідні змінні, пов’язані з цими аспектами кодування. Цей процес називається адаптивне квантування, а система Disney використовує Ентроформер структуру як ентропійну модель, яка забезпечує процедуру.
Автори стверджують:
«Інтуїтивно наш метод вчиться відкидати інформацію (через перетворення квантування), яка може бути синтезована під час процесу дифузії. Оскільки помилки, які виникають під час квантування, подібні до додавання [шуму], а моделі дифузії є моделями функціонального зменшення шуму, їх можна використовувати для видалення шуму квантування, який виникає під час кодування.'
Стабільна дифузія V2.1 є дифузійною основою для системи, обраної через цілісність коду та бази вагами є загальнодоступними. Однак автори підкреслюють, що їх схема застосовна до більшої кількості моделей.
Основним для економіки процесу є передбачення кроків у часі, який оцінює оптимальну кількість кроків усунення шумів – балансування між ефективністю та продуктивністю.

Прогнозування кроків за часом із оптимальною кількістю кроків усунення шуму, позначеною червоною рамкою. Щоб отримати точну роздільну здатність, перегляньте вихідний PDF-файл.
Під час прогнозування найкращої кількості кроків усунення шуму необхідно враховувати кількість шуму в прихованому вбудовуванні.
Дані та тести
Модель проходила навчання на Vimeo-90k набір даних. Зображення були випадково обрізані до 256x256 пікселів для кожного епоха (тобто кожне повне надходження уточненого набору даних архітектурою навчання моделі).
Модель була оптимізована для 300,000 XNUMX кроків на a рівень навчання з 1e-4. Це найпоширеніший серед проектів комп’ютерного бачення, а також найнижча та найдрібніша загалом практична цінність як компроміс між широким узагальненням концепцій і характеристик набору даних і здатністю відтворювати дрібні деталі.
Автори коментують деякі логістичні міркування для економічної, але ефективної системи*:
«Під час навчання надзвичайно дорого поширювати градієнт через кілька проходів дифузійної моделі, коли вона працює під час DIM вибірка. Тому ми виконуємо лише одну ітерацію вибірки DDIM і безпосередньо використовуємо [це] як повністю знешумлені [дані].'
Набори даних, використані для тестування системи, були Кодак; CLIC2022І COCO 30 тис. Набір даних було попередньо оброблено відповідно до методології, викладеної в Google 2023 пропонує Мультиреалістичне стиснення зображень за допомогою умовного генератора.
Використані показники були Пікове співвідношення сигнал-шум (PSNR); Вивчені показники перцептивної подібності (LPIPS); Індекс багатомасштабної структурної подібності (MS-SSIM); і Початкова відстань Фреше (FID).
Конкуруючі попередні тестовані фреймворки були розділені між старішими системами, які використовували генеративні змагальні мережі (GAN), і новішими пропозиціями, заснованими на моделях дифузії. Перевірені системи GAN були Високоякісне генеративне стиснення зображень (HiFiC); і ILLM (який пропонує деякі покращення HiFiC).
Системи на основі дифузії були Стиснення зображення з втратами за допомогою моделей умовної дифузії (CDC) та Високоточне стиснення зображень за допомогою генеративних моделей на основі балів (HFD).

Кількісні результати порівняно з попередніми рамками для різних наборів даних.
Щодо кількісних результатів (візуалізовано вище), дослідники стверджують:
«Наш метод встановлює новий сучасний рівень реалістичності реконструйованих зображень, перевершуючи всі базові лінії в кривих бітрейту FID. За деякими показниками викривлення (а саме LPIPS і MS-SSIM) ми перевершуємо всі кодеки на основі дифузії, залишаючись конкурентоспроможними з найефективнішими генеративними кодеками.
«Як і очікувалося, наш метод та інші генеративні методи страждають при вимірюванні в PSNR, оскільки ми віддаємо перевагу приємним для сприйняття реконструкціям замість точного повторення деталей».
Для дослідження користувачів використовувався метод двох альтернативних примусових виборів (2AFC) у контексті турніру, де обрані зображення переходили до наступних раундів. У дослідженні використовували Elo рейтингова система, спочатку розроблена для шахових турнірів.
Таким чином, учасники переглядали та вибирали найкраще з двох представлених зображень розміром 512x512 пікселів різними генеративними методами. Було проведено додатковий експеримент, у якому всі порівняння зображень від одного користувача було оцінено за допомогою a Моделювання в Монте-Карло понад 10,0000 XNUMX ітерацій із середнім балом, представленим у результатах.

Приблизні рейтинги Elo для дослідження користувачів, що включає турніри Elo для кожного порівняння (ліворуч), а також для кожного учасника, де вищі значення кращі.
Тут автори коментують:
«Як видно з показників Elo, наш метод значно перевершує всі інші, навіть порівняно з CDC, який використовує в середньому вдвічі більше бітів, ніж наш метод. Це залишається вірним незалежно від стратегії турніру Elo, яка використовується».
В оригінальній статті, а також додатковий PDF, автори надають додаткові візуальні порівняння, одне з яких показано раніше в цій статті. Однак через деталізацію відмінностей між зразками ми направляємо читача до вихідного PDF-файлу, щоб ці результати можна було справедливо оцінити.
На завершення статті зазначено, що запропонований метод працює вдвічі швидше, ніж конкурент CDC (3.49 проти 6.87 секунд відповідно). Він також зазначає, що ILLM може обробити зображення протягом 0.27 секунди, але ця система вимагає обтяжливого навчання.
Висновок
Дослідники ETH/Disney чітко стверджують, що їхня система здатна генерувати неправдиві деталі. Однак жоден із запропонованих у матеріалі зразків не присвячений цьому питанню.
Чесно кажучи, ця проблема не обмежується новим підходом Діснея, а є неминучим побічним ефектом використання дифузійних моделей – винахідливої та інтерпретаційної архітектури – для стиснення зображень.
Цікаво, що лише п’ять днів тому два інших дослідника з ETH Zurich створили папір під назвою Умовні галюцинації для стиснення зображення, який досліджує можливість «оптимального рівня галюцинацій» у системах стиснення на основі ШІ.
Автори наводять аргументи на користь бажаності галюцинацій, коли домен є достатньо загальним (і, можливо, «нешкідливим»):
«Для текстуроподібного вмісту, такого як трава, веснянки та кам’яні стіни, створення пікселів, які реалістично відповідають даній текстурі, важливіше, ніж реконструкція точних значень пікселів; генерування будь-якої вибірки з розподілу текстури, як правило, достатньо.'
Таким чином, ця друга стаття обґрунтовує те, що стиснення має бути оптимально «творчим» і репрезентативним, а не якомога точніше відтворювати основні риси та контури вихідного нестисненого зображення.
Цікаво, що фотографічна та творча спільнота зробить це досить радикальне перевизначення «стиснення».
*Моє перетворення внутрішніх цитат авторів на гіперпосилання.
Вперше опубліковано в середу, 30 жовтня 2024 р