Искусственный интеллект
Исследования Disney предлагают улучшенную компрессию изображений на основе ИИ – Но она может галлюцинировать детали

Исследовательское подразделение Disney предлагает новый метод сжатия изображений, использующий открытую модель Stable Diffusion V1.2 для создания более реалистичных изображений при более низких битрейтах, чем конкурирующие методы.

Метод сжатия Disney по сравнению с предыдущими подходами. Авторы утверждают, что их метод обеспечивает лучшее восстановление деталей, при этом не требует сотен тысяч долларов на обучение и работает быстрее, чем ближайший эквивалентный конкурирующий метод. Source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf
Новый подход (определенный как ‘кодек’, несмотря на его повышенную сложность по сравнению с традиционными кодеками, такими как JPEG и AV1) может работать с любым латентным диффузионным моделью (LDM). В количественных тестах он превосходит предыдущие методы по точности и детализации, и требует значительно меньше обучения и вычислительных затрат.
Ключевым моментом новой работы является то, что ошибка квантования (центральный процесс во всех методах сжатия изображений) похожа на шум (центральный процесс в диффузионных моделях).
Следовательно, ‘традиционно’ квантованное изображение можно рассматривать как шумную версию исходного изображения и использовать в процессе денойзинга LDM вместо случайного шума, чтобы восстановить изображение на целевом битрейте.

Дальнейшие сравнения нового метода Disney (выделено зеленым), в сравнении с конкурирующими подходами.
Авторы утверждают:
‘[Мы] формулируем удаление ошибки квантования как задачу денойзинга, используя диффузию для восстановления потерянной информации в передаваемом латентном изображении. Наш подход позволяет нам выполнить менее 10% полного диффузионного генеративного процесса и не требует никаких изменений в архитектуре диффузионной модели, что позволяет использовать основные модели как сильный априорный знание без дополнительной настройки базовой модели.’
‘Наш предложенный кодек превосходит предыдущие методы в количественных метриках реализма, и мы подтверждаем, что наши реконструкции качественно предпочитаются конечными пользователями, даже когда другие методы используют вдвое больший битрейт.’
Однако, как и другие проекты, которые стремятся использовать возможности сжатия диффузионных моделей, выход может галлюцинировать детали. Напротив, методы с потерями, такие как JPEG, будут производить явно искаженные или чрезмерно сглаженные области деталей, которые могут быть признаны как ограничения сжатия непрофессиональным пользователем.
Вместо этого кодек Disney может изменить детали из контекста, который не был в исходном изображении, из-за грубой природы вариационного автокодировщика (VAE), используемого в типичных моделях, обученных на гипермасштабных данных.
‘Аналогично другим генеративным подходам, наш метод может отбрасывать определенные особенности изображения, синтезируя подобную информацию на стороне получателя. В конкретных случаях, однако, это может привести к неточной реконструкции, такой как изгиб прямых линий или искажение границы небольших объектов. ‘
‘Эти хорошо известные проблемы основной модели, на которой мы основываемся, могут быть отнесены к относительно низкому размеру особенностей ее VAE.’
Хотя это имеет некоторые последствия для художественных изображений и правдоподобности случайных фотографий, оно может иметь более критическое влияние в случаях, когда небольшие детали составляют важную информацию, такую как доказательства для судебных дел, данные для распознавания лиц, сканы для оптического распознавания символов (OCR) и широкий спектр других возможных случаев использования, в случае популяризации кодека с этой возможностью.
На этой стадии прогресса ИИ-усиленного сжатия изображений все эти возможные сценарии находятся в далеком будущем. Однако хранение изображений является глобальной проблемой, затрагивающей вопросы хранения данных, потокового вещания и потребления электроэнергии, помимо других проблем. Следовательно, ИИ-основанное сжатие может предложить заманчивый компромисс между точностью и логистикой. История показывает, что лучшие кодеки не всегда выигрывают самую широкую базу пользователей, когда речь идет о таких факторах, как лицензирование и захват рынка проприетарными форматами.
Disney уже давно экспериментирует с машинным обучением как методом сжатия. В 2020 году один из исследователей новой статьи участвовал в проекте на основе VAE для улучшения сжатия видео.
Новая статья Disney была обновлена в начале октября. Сегодня компания выпустила сопровождающее видео на YouTube. Проект озаглавлен Потерянное сжатие изображений с основными диффузионными моделями, и исходит от четырех исследователей из ETH Zürich (аффилированных с ИИ-проектами Disney) и исследовательского подразделения Disney. Исследователи также предлагают дополнительную статью.
Метод
Новый метод использует VAE для кодирования изображения в его сжатое латентное представление. На этой стадии входное изображение состоит из полученных особенностей – векторных представлений низкого уровня. Латентное вложение затем квантуется обратно в битовый поток и обратно в пространство пикселей.
Это квантованное изображение затем используется как шаблон для шума, который обычно запускает диффузионное изображение, с переменным количеством шагов денойзинга (где часто существует компромисс между увеличением шагов денойзинга и большей точностью, и меньшей задержкой и большей эффективностью).

Схема нового метода сжатия Disney.
И параметры квантования, и общее количество шагов денойзинга могут быть контролированы в новой системе, посредством обучения нейронной сети, которая предсказывает соответствующие переменные, связанные с этими аспектами кодирования. Этот процесс называется адаптивным квантованием, и система Disney использует фреймворк Entroformer в качестве модели энтропии, которая питает процедуру.
Авторы заявляют:
‘Интуитивно, наш метод учится отбрасывать информацию (через преобразование квантования), которую можно синтезировать во время процесса диффузии. Поскольку ошибки, введенные во время квантования, подобны добавлению [шума], и диффузионные модели функционально являются моделями денойзинга, они могут быть использованы для удаления шума квантования, введенного во время кодирования.’
Stable Diffusion V2.1 является диффузионным основанием для системы, выбранным потому, что весь код и базовые веса являются общедоступными. Однако авторы подчеркивают, что их схема применима к более широкому кругу моделей.
Ключевым моментом экономики процесса является предсказание временных шагов, которое оценивает оптимальное количество шагов денойзинга – баланс между эффективностью и производительностью.

Предсказания временных шагов, с оптимальным количеством шагов денойзинга, указанным красной границей. Пожалуйста, обратитесь к исходному PDF для точного разрешения.
Количество шума в латентном вложении необходимо учитывать при предсказании оптимального количества шагов денойзинга.
Данные и тесты
Модель была обучена на наборе данных Vimeo-90k. Изображения были случайным образом обрезаны до 256x256px для каждой эпохи (т.е. каждой полной ингестии уточненного набора данных архитектурой обучения модели).
Модель была оптимизирована для 300 000 шагов при скорости обучения 1e-4. Это наиболее распространенный подход в проектах компьютерного зрения, и также самый низкий и наиболее тонкий, обычно практикуемый значение, как компромисс между широкой обобщенностью концепций и особенностей набора данных и способностью к воспроизведению мелких деталей.
Авторы комментируют некоторые логистические соображения для экономически эффективной системы*:
‘Во время обучения это чрезвычайно дорого обратно пропагировать градиент через несколько проходов диффузионной модели, как это происходит во время семплирования DDIM. Следовательно, мы выполняем только один итерацию семплирования DDIM и直接 используем [это] как полностью денойзированные [данные].’
Наборы данных, использованные для тестирования системы, были Kodak; CLIC2022; и COCO 30k. Набор данных был предварительно обработан в соответствии с методологией, изложенной в предложении Google 2023 года Многореализмное сжатие изображений с условным генератором.
Метрики, использованные для оценки, были Пиковая сигнал-шумовая отношение (PSNR); Обученные перцептивные метрики сходства (LPIPS); Мультимасштабный индекс структурированного сходства (MS-SSIM); и Расстояние Фреше-Инсепшн (FID).
Конкурирующие предыдущие рамки, протестированные, были разделены между старыми системами, которые использовали генеративные противостоящие сети (GAN), и более недавними предложениями, основанными на диффузионных моделях. Системы GAN, протестированные, были Высокочастотное генеративное сжатие изображений (HiFiC); и ILLM (который предлагает некоторые улучшения над HiFiC).
Системы, основанные на диффузии, были Потерянное сжатие изображений с условными диффузионными моделями (CDC) и Высокочастотное сжатие изображений со скоростными генеративными моделями (HFD).

Количественные результаты против предыдущих рамок на различных наборах данных.
Для количественных результатов (визуализированных выше) исследователи заявляют:
‘Наш метод устанавливает новый уровень реализма в реконструированных изображениях, превосходя все базовые линии в кривых FID-битрейта. В некоторых метриках искажения (а именно, LPIPS и MS-SSIM), мы превосходим все диффузионные кодеки, оставаясь конкурентоспособными с наиболее высокопроизводительными генеративными кодеками. ‘
‘Как ожидается, наш метод и другие генеративные методы страдают, когда измеряются в PSNR, поскольку мы отдаем предпочтение перцептивно приятным реконструкциям вместо точной репликации деталей.’
Для пользовательского исследования был использован метод двухальтернативного принудительного выбора (2AFC), в турнирном контексте, где предпочитаемые изображения переходили к последующим раундам. Исследование использовало систему рейтинга Elo, первоначально разработанную для шахматных турниров.
Следовательно, участники просматривали и выбирали лучшее из двух представленных 512x512px изображений на различных генеративных методах. Дополнительный эксперимент был проведен, в котором все сравнения изображений от одного и того же пользователя оценивались через симуляцию Монте-Карло за 10 000 итераций, с медианным баллом, представленным в результатах.

Оцененные рейтинги Elo для пользовательского исследования, с турнирами Elo для каждого сравнения (слева) и также для каждого участника, с более высокими значениями лучше.
Здесь авторы комментируют:
‘Как можно увидеть в рейтингах Elo, наш метод значительно превосходит все остальные, даже по сравнению с CDC, который использует в среднем вдвое больше бит, чем наш метод. Это остается верным независимо от стратегии турнира Elo, используемой.’
В оригинальной статье, а также в дополнительном PDF, авторы предоставляют дальнейшие визуальные сравнения, одно из которых показано ранее в этой статье. Однако, из-за гранулярности различий между образцами, мы направляем читателя к исходному PDF, чтобы эти результаты могли быть оценены справедливо.
Статья заключается, отметив, что предложенный метод работает в два раза быстрее, чем конкурирующий CDC (3,49 против 6,87 секунд соответственно). Она также отмечает, что ILLM может обработать изображение в течение 0,27 секунды, но что эта система требует обременительного обучения.
Заключение
Исследователи из ETH/Disney ясны, в заключении статьи, о потенциале своей системы для генерации ложных деталей. Однако, ни один из образцов, представленных в материале, не останавливается на этой проблеме.
Во всей справедливости, эта проблема не ограничивается новым подходом Disney, но является неизбежным побочным эффектом использования диффузионных моделей – изобретательной и интерпретативной архитектуры – для сжатия изображений.
Интересно, что всего пять дней назад два других исследователя из ETH Zurich произвели статью, озаглавленную Условные галлюцинации для сжатия изображений, которая изучает возможность ‘оптимального уровня галлюцинации’ в системах сжатия изображений на основе ИИ.
Авторы там делают случай для желательности галлюцинаций, когда область является общей (и, возможно, ‘безобидной’) достаточно:
‘Для текстурного контента, такого как трава, веснушки и каменные стены, генерация пикселей, которые реалистично соответствуют данной текстуре, более важна, чем восстановление точных значений пикселей; генерация любого образца из распределения текстуры обычно достаточна.’
Таким образом, эта вторая статья делает случай для сжатия, чтобы быть оптимально ‘креативным’ и представительным, а не точно восстанавливать исходное несжатое изображение.
Один задается вопросом, что фотографическое и творческое сообщество сделало бы из этого довольно радикального переопределения ‘сжатия’.
*Мое преобразование внутренних цитат авторов в гиперссылки.
Опубликовано впервые в среду, 30 октября 2024 года












