Connect with us

Искусственный интеллект

Создание “лучших” тел с помощью ИИ

mm

Новые исследования академии Alibaba DAMO предлагают рабочий процесс, основанный на ИИ, для автоматизации изменения изображений тел – редкая попытка в секторе компьютерного зрения, в настоящее время занятом манипуляциями на основе лица таких как дипфейки и редактирование лица на основе GAN.

Вставка в столбцы 'результат', сгенерированные карты внимания, которые определяют области для изменения. Источник: https://arxiv.org/pdf/2203.04670.pdf

Вставка в столбцы ‘результат’, сгенерированные карты внимания, которые определяют области для изменения. Источник: https://arxiv.org/pdf/2203.04670.pdf

Архитектура исследователей использует оценку скелетной позы для решения большей сложности, с которой системы синтеза и редактирования изображений сталкиваются при концептуализации и параметризации существующих изображений тел, по крайней мере, на уровне детализации, который фактически позволяет значимую и избирательную редакцию.

Оцененные скелетные карты помогают индивидуализировать и сосредоточить внимание на областях тела, которые, вероятно, будут ретушированы, таких как область верхней части руки.

Система в конечном итоге позволяет пользователю задавать параметры, которые могут изменить внешний вид веса, мышечной массы или распределения веса на полных или средних фотографиях людей и может генерировать произвольные преобразования на одетых или неодетых участках тела.

Слева, входное изображение; в середине, тепловая карта полученных областей внимания; справа, преобразованное изображение.

Слева, входное изображение; в середине, тепловая карта полученных областей внимания; справа, преобразованное изображение.

Мотивация для работы заключается в разработке автоматизированных рабочих процессов, которые могли бы заменить трудоемкие цифровые манипуляции, выполняемые фотографами и художниками-производственниками в различных областях СМИ, от моды до выходов в стиле журнала и публичных материалов.

В целом, авторы признают, что эти преобразования обычно применяются с помощью техник ‘искажения’ в Photoshop и других традиционных редакторах bitmap, и почти исключительно используются на изображениях женщин. Следовательно, пользовательская база данных, разработанная для облегчения нового процесса, состоит в основном из фотографий женских объектов:

‘Поскольку ретушь тела в основном желательна женщинами, большинство нашей коллекции составляют фотографии женщин, учитывая разнообразие возрастов, рас (Африканская: Азиатская: Кавказская = 0,33: 0,35: 0,32), поз, и одежды.’

Статья называется Structure-Aware Flow Generation for Human Body Reshaping и исходит от пяти авторов, связанных с глобальной академией Alibaba DAMO.

Разработка базы данных

Как обычно бывает с системами синтеза и редактирования изображений, архитектура проекта требовала настраиваемой базы данных для обучения. Авторы поручили трем фотографам выполнить стандартные манипуляции с изображениями в Photoshop на соответствующих изображениях с сайта Unsplash, в результате чего получилась база данных – BR-5K* – из 5 000 высококачественных изображений с разрешением 2K.

Исследователи подчеркивают, что целью обучения на этой базе данных является не производство ‘идеализированных’ и обобщенных особенностей, связанных с показателем привлекательности или желаемого вида, а rather извлечение центральных карт особенностей, связанных с профессиональными манипуляциями с изображениями тела.

Однако они признают, что манипуляции в конечном итоге отражают преобразующие процессы, которые отображают прогресс от ‘реального’ до предустановленного понятия ‘идеального’:

‘Мы приглашаем трех профессиональных художников ретушировать тела, используя Photoshop независимо, с целью достижения стройных фигур, соответствующих популярной эстетике, и выбираем лучший как эталон.’

Поскольку框架 не занимается лицами вообще, они были размыты перед включением в базу данных.

Архитектура и основные понятия

Система включает в себя ввод высокоразрешающего портрета, снижение его разрешения до более низкого разрешения, которое может поместиться в доступные вычислительные ресурсы, и извлечение оцененной скелетной позы (второе изображение слева), а также Полевых Аффинностей (PAF), которые были инновированы в 2016 году Институтом Робототехники Университета Карнеги-Меллона (см. видео, встроенное прямо ниже).

Полевые Аффинности помогают определить ориентацию конечностей и общую связь с более широкой скелетной структурой, предоставляя новому проекту дополнительный инструмент внимания/локализации.

Из статьи 2016 года о Полевых Аффинностях, предсказанные PAF кодируют ориентацию конечности как часть 2D-вектора, который также включает общую позицию конечности. Источник: https://arxiv.org/pdf/1611.08050.pdf

Из статьи 2016 года о Полевых Аффинностях, предсказанные PAF кодируют ориентацию конечности как часть 2D-вектора, который также включает общую позицию конечности. Источник: https://arxiv.org/pdf/1611.08050.pdf

Несмотря на их кажущуюся нерелевантность к внешнему виду веса, скелетные карты полезны в направлении окончательных преобразовательных процессов к частям тела, подлежащим изменению, таким как верхние части рук, задняя часть и бедра.

После этого результаты передаются в Structure Affinity Self-Attention (SASA) в центральной бутылке процесса (см. изображение ниже).

SASA регулирует последовательность генератора потока, который питает процесс, результаты которого затем передаются в модуль искажения (второй справа на изображении выше), который применяет преобразования, полученные из обучения на ручных редакциях, включенных в базу данных.

Модуль Structure Affinity Self-Attention (SASA) распределяет внимание на соответствующие части тела, помогая избежать посторонних или нерелевантных преобразований.

Модуль Structure Affinity Self-Attention (SASA) распределяет внимание на соответствующие части тела, помогая избежать посторонних или нерелевантных преобразований.

Выходное изображение затем увеличивается до исходного разрешения 2K, используя процессы, не отличающиеся от стандартной, 2017-стиля архитектуры дипфейка, из которой популярные пакеты, такие как DeepFaceLab, были получены; процесс увеличения также распространен в рамках редактирования GAN.

Сеть внимания для схемы моделируется по Compositional De-Attention Networks (CODA), совместной работой 2019 года между США и Сингапуром с Amazon AI и Microsoft.

Тесты

Потоковый каркас был протестирован против предыдущих потоковых методов FAL и Animating Through Warping (ATW), а также архитектур перевода изображений Pix2PixHD и GFLA, с SSIM, PSNR и LPIPS в качестве метрик оценки.

Результаты первоначальных тестов (направление стрелки в заголовках указывает, является ли более низкое или более высокое значение лучшим).

Результаты первоначальных тестов (направление стрелки в заголовках указывает, является ли более низкое или более высокое значение лучшим).

На основе этих принятых метрик система авторов превосходит предыдущие архитектуры.

Выбранные результаты. Пожалуйста, обратитесь к исходному PDF, связанному с этой статьей, для более высокого разрешения сравнений.

Выбранные результаты. Пожалуйста, обратитесь к исходному PDF, связанному с этой статьей, для более высокого разрешения сравнений.

Помимо автоматических метрик, исследователи провели пользовательское исследование (последний столбец таблицы результатов, показанный ранее), в котором 40 участников были показаны 30 вопросов, случайным образом выбранных из пула вопросов, связанных с изображениями, полученными через различные методы. 70% респондентов предпочли новый метод как более ‘визуально привлекательный’.

Проблемы

Новая статья представляет собой редкое исследование в области ИИ-основной манипуляции телом. Сектор синтеза изображений в настоящее время гораздо больше заинтересован либо в генерации редактируемых тел с помощью методов, таких как Neural Radiance Fields (NeRF), либо увлечен исследованием латентного пространства GAN и потенциала автоэнкодеров для манипуляции лицом.

Инициатива авторов в настоящее время ограничена производством изменений в воспринимаемом весе, и они не реализовали никаких методов инпейтинга, которые восстановили бы фон, который неизбежно открывается, когда вы худеете на фотографии человека.

Однако они предлагают, что портретная матировка и слияние фона через текстурную инференцию могли бы тривиально решить проблему восстановления частей мира, которые ранее были скрыты в изображении человеческим ‘несовершенством’.

Предложенное решение для восстановления фона, который открывается ИИ-управляемым снижением жира.

Предложенное решение для восстановления фона, который открывается ИИ-управляемым снижением жира.

 

* Хотя предпубликация ссылается на дополнительные материалы, которые предоставляют больше информации о базе данных, а также дополнительные примеры из проекта, местонахождение этих материалов не указано в статье, и соответствующий автор пока не ответил на наш запрос на доступ.

Опубликовано впервые 10 марта 2022 года.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.