Искусственный интеллект
AI-Помощь в редактировании объектов с помощью Google’s Imagic и Runway’s ‘Erase and Replace’

На этой неделе две новые, но противоположные алгоритмы графики, управляемые ИИ, предлагают новые способы для конечных пользователей вносить высоко детализированные и эффективные изменения в объекты на фотографиях.
Первый – Imagic, от Google Research, в сотрудничестве с Израильским технологическим институтом и Институтом науки Вейцмана. Imagic предлагает редактирование объектов с учетом текста, тонкое и детальное, посредством тонкой настройки моделей диффузии.

Измените то, что вам нравится, и оставьте остальное – Imagic обещает детальное редактирование только тех частей, которые вы хотите изменить. Источник: https://arxiv.org/pdf/2210.09276.pdf
Любой, кто когда-либо пытался изменить только один элемент в повторной отрисовке Stable Diffusion, знает слишком хорошо, что для каждого успешного редактирования система изменит пять вещей, которые вам понравились именно так, как они были. Это недостаток, который в настоящее время заставляет многих из самых талантливых энтузиастов SD постоянно переключаться между Stable Diffusion и Photoshop, чтобы исправить этот вид “побочного ущерба”. С этой точки зрения достижения Imagic кажутся заметными.
На момент написания Imagic еще не имеет даже промо-видео, и, учитывая осторожное отношение Google к выпуску неограниченных инструментов синтеза изображений, неясно, в какой степени, если вообще, мы сможем протестировать систему.
Второе предложение – это более доступная функция Erase and Replace от Runway ML, новая функция в разделе “AI Magic Tools” его исключительно онлайн-суиты утилит визуальных эффектов на основе машинного обучения.

Функция Erase and Replace от Runway ML, уже виденная в предварительном просмотре для системы редактирования видео по тексту. Источник: https://www.youtube.com/watch?v=41Qb58ZPO60
Давайте посмотрим на выход Runway сначала.
Erase and Replace
Как и Imagic, Erase and Replace занимается исключительно статическими изображениями, хотя Runway уже предварил аналогичную функциональность в решении для редактирования видео по тексту, которое еще не выпущено:

Хотя любой может протестировать новую функцию Erase and Replace на изображениях, видео-версия еще не доступна публично. Источник: https://twitter.com/runwayml/status/1568220303808991232
Хотя Runway ML не выпустил деталей о технологиях, стоящих за Erase and Replace, скорость, с которой можно заменить комнатное растение на достаточно убедительный бюст Рональда Рейгана, предполагает, что в качестве движка используется модель диффузии, такая как Stable Diffusion (или, гораздо менее вероятно, лицензированная DALL-E 2).

Замена комнатного растения на бюст Рональда Рейгана не так быстра, но это довольно быстро. Источник: https://app.runwayml.com/
Система имеет некоторые ограничения, подобные DALL-E 2 – изображения или текст, которые запускают фильтры Erase and Replace, вызовут предупреждение о возможной приостановке учетной записи в случае дальнейших нарушений – практически копия политики OpenAI для DALL-E 2.
Многие результатов лишены характерных грубых краев Stable Diffusion. Runway ML являются инвесторами и партнерами по исследованию в SD, и возможно, что они обучили проприетарную модель, которая лучше, чем открытая модель 1.4, которую мы сейчас используем (как и многие другие группы разработчиков, хобби и профессионалов, которые в настоящее время обучают или уточняют модели Stable Diffusion).

Замена домашнего стола на ‘стол из льда’ в функции Erase and Replace от Runway ML.
Как и Imagic (см. ниже), Erase and Replace “ориентирован на объекты” – вы не можете просто стереть “пустую” часть изображения и заполнить ее результатом текстового запроса; в этом сценарии система просто отслеживает ближайший видимый объект вдоль линии зрения маски (такой как стена или телевизор) и применяет преобразование там.

Как название указывает, вы не можете ввести объекты в пустое пространство в Erase and Replace. Здесь попытка вызвать самого известного из ситхов приводит к странной Вадер-мурали на телевизоре, примерно там, где была нарисована область ‘замены’.
Трудно сказать, является ли Erase and Replace осторожным в отношении использования защищенных авторским правом изображений (которые все еще в значительной степени препятствуются, хотя и с переменным успехом, в DALL-E 2), или модель, используемая в движке, просто не оптимизирована для этого.

Сlightly NSFW ‘Мурал Николь Кидман’ указывает на то, что (предположительно) диффузионная модель в руках не имеет систематического отказа от рендеринга реалистичных лиц или откровенного контента, в то время как результаты попыток вызвать защищенные авторским правом работы варьируются от двусмысленных (‘ксеноморф’) до абсурдных (‘железный трон’). Врезка в правом нижнем углу, исходное изображение.
Было бы интересно узнать, какие методы использует Erase and Replace для изоляции объектов, которые он может заменить. Предположительно изображение проходит через некоторое производное CLIP, с дискретными предметами, индивидуализированными с помощью распознавания объектов и последующей семантической сегментации. Ни одна из этих операций не работает почти так же хорошо в обычной установке Stable Diffusion.
Но ничего не идеально – иногда система, кажется, стирает и не заменяет, даже когда (как мы видели на изображении выше), основной механизм рендеринга определенно знает, что значит текстовый запрос. В этом случае оказывается невозможным превратить кофейный стол в ксеноморфа – вместо этого стол просто исчезает.

Ужасающая итерация ‘Где Вальдо’, когда Erase and Replace не может произвести инопланетянина.
Erase and Replace кажется эффективной системой замены объектов, с отличным заполнением. Однако она не может редактировать существующие воспринимаемые объекты, а только заменить их. Чтобы фактически изменить существующий контент изображения без компрометации окружающего материала, является, по сути, гораздо более сложной задачей, связанной с долгой борьбой сектора компьютерного зрения за дезентанглирование в различных латентных пространствах популярных фреймворков.
Imagic
Это задача, которую решает Imagic. Новая статья предлагает много примеров редактирований, которые успешно изменяют отдельные аспекты фотографии, оставляя остальную часть изображения нетронутой.

В Imagic измененные изображения не страдают от характерного растяжения, искажения и ‘угадывания окулюзии’, характерных для кукольного глубокого подделывания, которое использует ограниченные приоры, полученные из одного изображения.
Система использует трехэтапный процесс – оптимизацию текстового внедрения; тонкую настройку модели; и, наконец, генерацию измененного изображения.

Imagic кодирует целевой текстовый запрос, чтобы получить первоначальное текстовое внедрение, и затем оптимизирует результат, чтобы получить входное изображение. После этого генеративная модель уточняется для исходного изображения, добавляя ряд параметров, прежде чем подвергаться запрошенной интерполяции.
Неудивительно, что фреймворк основан на архитектуре текст-видео от Google Imagen, хотя исследователи утверждают, что принципы системы в целом применимы к моделям латентной диффузии.
Imagen использует трехуровневую архитектуру, а не семиуровневый массив, используемый для более недавней итерации текст-видео программного обеспечения. Три различных модуля состоят из генеративной модели диффузии, работающей на разрешении 64x64px; модели супер-разрешения, которая масштабирует это выходное изображение до 256x256px; и дополнительной модели супер-разрешения, чтобы довести выходное изображение до разрешения 1024×1024.
Imagic вмешивается на самом раннем этапе этого процесса, оптимизируя запрошенное текстовое внедрение на этапе 64px с помощью оптимизатора Adam с статической скоростью обучения 0,0001.

Мастер-класс по дезентанглированию: те, кто попытался изменить что-то столь простое, как цвет отрендеренного объекта в диффузионной, ГАН или NeRF-модели, знают, насколько значимо то, что Imagic может выполнять такие преобразования без ‘разрыва’ последовательности остальной части изображения.
Тонкая настройка затем происходит на базовой модели Imagen, за 1500 шагов на входное изображение, условно на пересмотренном внедрении. Одновременно вторичный слой 64px>256px оптимизируется параллельно на условном изображении. Исследователи отмечают, что аналогичная оптимизация для окончательного слоя 256px>1024px имеет ‘маленький или нет’ эффект на окончательные результаты и, следовательно, не реализовали это.
Статья гласит, что процесс оптимизации занимает примерно восемь минут для каждого изображения на двух чипах TPUV4. Окончательный рендеринг происходит в основной Imagen под схемой DDIM.
Как и в случае с подобными процессами тонкой настройки для DreamBooth от Google, полученные внедрения также можно использовать для стилизации, а также для фотореалистичных редактирований, содержащих информацию, полученную из более широкой базы данных, лежащей в основе Imagen (поскольку, как показано в первом столбце ниже, исходные изображения не содержат необходимого контента для выполнения этих преобразований).

Гибкое фотореалистичное движение и редактирование можно вызвать с помощью Imagic, а полученные и дезентанглированные коды, полученные в процессе, можно использовать для стилизованного вывода.
Исследователи сравнили Imagic с предыдущими работами SDEdit, подходом на основе ГАН 2021 года, сотрудничеством между Стэнфордским университетом и Университетом Карнеги-Меллона; и Text2Live, сотрудничеством между Институтом науки Вейцмана и NVIDIA.

Визуальное сравнение между Imagic, SDEdit и Text2Live.
Ясно, что предыдущие подходы испытывают трудности, но в нижнем ряду, который включает в себя введение значительного изменения позы, действующие лица полностью терпят неудачу в рефигурации исходного материала по сравнению с заметным успехом Imagic.
Требования Imagic к ресурсам и время обучения на изображение, хотя и короткие по стандартам таких занятий, делают его маловероятным включением в локальное приложение для редактирования изображений на персональных компьютерах – и неясно, в какой степени процесс тонкой настройки можно масштабировать до потребительского уровня.
Как оно есть, Imagic – это впечатляющее предложение, которое более подходит для API – среды, с которой Google Research, осторожная в отношении критики по поводу облегчения глубокого подделывания, может в любом случае чувствовать себя наиболее комфортно.
Опубликовано впервые 18 октября 2022 года.












