заглушки Высокоточное семантическое редактирование изображений с помощью EditGAN — Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Высокоточное семантическое редактирование изображений с помощью EditGAN

mm

опубликованный

 on

Человек, держащий в руках глобус, стоя в полях.

Генеративные состязательные сети или GAN пользуются новыми приложениями в индустрии редактирования изображений. За последние несколько месяцев EditGAN набирает популярность в индустрии искусственного интеллекта и машинного обучения, поскольку это новый метод высокоточного и высококачественного семантического редактирования изображений. 

Мы подробно поговорим о модели EditGAN и расскажем, почему она может оказаться важной вехой в индустрии семантического редактирования изображений.

Итак, начнем. Но прежде чем мы узнаем, что такое EditGAN, нам важно понять, в чем важность EditGAN и почему это значительный шаг вперед. 

Почему EditGAN?

Хотя традиционная архитектура GAN помогла индустрии редактирования изображений на основе искусственного интеллекта значительно продвинуться вперед, существует ряд серьезных проблем при создании архитектуры GAN с нуля. 

  1. На этапе обучения архитектура GAN требует большого количества помеченных данных с аннотациями семантической сегментации. 
  2. Они способны обеспечить только контроль высокого уровня. 
  3. И часто они просто интерполируют изображения туда и обратно. 

Можно заметить, что, хотя традиционные архитектуры GAN выполняют свою работу, они не эффективны для широкомасштабного развертывания. Неудовлетворительная эффективность традиционной архитектуры GAN стала причиной того, что EditGAN был представлен NVIDIA в 2022 году. 

EditGAN предлагается как эффективный метод для обеспечения высокой точности и высокого качества семантики. редактирование изображений с возможностью предоставления пользователям возможности редактировать изображения, изменяя их очень подробные маски сегментации изображения. Одна из причин, по которой EditGAN является масштабируемым методом для задач редактирования изображений, заключается в его архитектуре. 

Модель EditGAN построена на основе GAN, которая совместно моделирует изображения и их семантическую сегментацию, и требует лишь небольшого количества помеченных или аннотированных обучающих данных. Разработчики EditGAN попытались встроить изображение в скрытое пространство GAN, чтобы эффективно модифицировать изображение, выполнив условную скрытую оптимизацию кода в соответствии с редактированием сегментации. Более того, чтобы амортизировать оптимизацию, модель пытается найти «векторы редактирования» в скрытом пространстве, которое реализует редактирование. 

Архитектура платформы EditGAN позволяет модели изучать произвольное количество векторов редактирования, которые затем можно реализовать или применить непосредственно к другим изображениям с высокой скоростью и эффективностью. Более того, экспериментальные результаты показывают, что EditGAN может редактировать изображения с невиданным ранее уровнем детализации, сохраняя при этом максимальное качество изображения. 

Подводя итог, почему нам нужен EditGAN, это первая в мире среда редактирования изображений на основе GAN, которая предлагает

  1. Очень высокоточное редактирование. 
  2. Может работать с несколькими размеченными данными. 
  3. Может быть эффективно развернуто в сценариях реального времени. 
  4. Обеспечивает композиционность для нескольких изменений одновременно. 
  5. Работает с сгенерированными GAN, реальными встроенными и даже внедоменными изображениями. 

Высокоточное семантическое редактирование изображений с помощью EditGAN 

StyleGAN2, современная платформа GAN для синтеза изображений, является основным компонентом EditGAN для генерации изображений. Платформа StyleGAN2 отображает скрытые коды, полученные из пула многомерного нормального распределения, и отображает их в реалистичные изображения. 

StyleGAN2 — это глубокая генеративная модель, обученная синтезировать изображения максимально возможного качества с приобретением смыслового понимания моделируемых изображений. 

Обучение сегментации и вывод

Модель EditGAN встраивает изображение в скрытое пространство GAN с помощью оптимизации и кодировщика для выполнения сегментации нового изображения и обучения ветви сегментации. Платформа EditGAN продолжает опираться на предыдущие разработки и обучает кодировщик встраиванию изображений в скрытое пространство. Основная цель здесь — обучить кодировщик, состоящий из стандартных попиксельных потерь конструкции L2 и LPIPS, с использованием выборок из GAN и реальных обучающих данных. Кроме того, модель также явно регуляризует кодер, используя скрытые коды при работе с выборками GAN. 

В результате модель встраивает аннотированные изображения из набора данных, помеченные семантической сегментацией, в скрытое пространство и использует потерю перекрестной энтропии для обучения ветви сегментации генератора. 

Использование редактирования сегментации для поиска семантики в скрытом пространстве

Основная цель EditGAN — использовать совместное распространение семантических сегментаций и изображений для высокоточное редактирование изображений. Допустим, у нас есть изображение x который необходимо отредактировать, поэтому модель встраивает изображение в скрытое пространство EditGAN или использует образцы изображений из самой модели. Затем ветвь сегментации генерирует y или соответствующую сегментацию, главным образом потому, что и изображения RGB, и сегментации имеют одни и те же скрытые коды. w. Затем разработчики могут использовать любые инструменты маркировки или цифрового рисования, чтобы вручную изменить сегментацию и отредактировать их в соответствии со своими требованиями. 

Различные способы редактирования во время вывода

Векторы редактирования скрытого пространства, полученные с помощью оптимизации, могут быть описаны как семантически значимые и часто распутываются с различными атрибутами. Следовательно, чтобы отредактировать новое изображение, модель может напрямую встроить изображение в скрытое пространство и напрямую выполнить те же операции редактирования, которые модель изучила ранее, без повторной оптимизации с нуля. Можно с уверенностью сказать, что векторы редактирования, которые изучает модель, амортизируют оптимизацию, которая была необходима для первоначального редактирования изображения. 

Стоит отметить, что разработчики до сих пор не довели до совершенства распутывание, и векторы редактирования часто не дают лучших результатов при использовании с другими изображениями. Однако проблему можно решить, удалив артефакты редактирования из других частей изображения, выполнив несколько дополнительных шагов по оптимизации во время тестирования. 

На основе наших текущих знаний инфраструктуру EditGAN можно использовать для редактирования изображений в трех различных режимах. 

  • Редактирование в реальном времени с помощью векторов редактирования

Для изображений, которые локализованы и распутаны, модель редактирует изображения, применяя ранее изученные векторы редактирования в разных масштабах и манипулирует изображениями с интерактивной скоростью. 

  • Использование самостоятельного уточнения для векторного редактирования

Для редактирования локализованных изображений, которые не полностью отделены от других частей изображения, модель инициализирует редактирование изображения с использованием ранее изученных векторов редактирования и удаляет артефакты редактирования, выполняя несколько дополнительных шагов оптимизации во время тестирования. 

  • Редактирование на основе оптимизации

Для выполнения крупномасштабных и специфичных для изображения изменений модель с самого начала выполняет оптимизацию, поскольку векторы редактирования нельзя использовать для выполнения такого рода переносов на другие изображения. 

Реализация

Платформа EditGAN оценивается на изображениях, распределенных по четырем категориям: автомобили, птицы, кошки и лица. Ветвь сегментации модели обучается с использованием пар изображение-маска из 16, 30, 30, 16 в качестве помеченных обучающих данных для автомобилей, птиц, кошек и лиц соответственно. Когда изображение необходимо редактировать исключительно с использованием оптимизации или когда модель пытается изучить векторы редактирования, модель выполняет 100 шагов оптимизации с использованием оптимизатора Адама. 

Для набора данных Cat, Car и Faces модель использует реальные изображения из тестового набора DatasetGAN, которые не использовались для обучения платформы GAN выполнению функций редактирования. Эти изображения сразу же встраиваются в скрытое пространство EditGAN с помощью оптимизации и кодирования. В категории «Птицы» редактирование отображается на изображениях, сгенерированных GAN. 

Итоги

Качественные результаты

Внутридоменные результаты

Изображение выше демонстрирует производительность платформы EditGAN, когда она применяет ранее изученные векторы редактирования к новым изображениям и уточняет изображения с помощью 30 шагов оптимизации. Эти операции редактирования, выполняемые платформой EditGAN, разделены для всех классов и сохраняют общее качество изображений. Сравнивая результаты EditGAN и других фреймворков, можно заметить, что фреймворк EditGAN превосходит другие методы при выполнении высокоточного и сложного редактирования, сохраняя при этом идентичность объекта и качество изображения. 

Что удивительно, так это то, что платформа EditGAN может выполнять чрезвычайно точное редактирование, например, расширение зрачков или редактирование спиц в шинах автомобиля. Кроме того, EditGAN также можно использовать для редактирования семантических частей объектов, имеющих всего несколько пикселей, или для выполнения крупномасштабных модификаций изображения. Стоит отметить, что несколько операций редактирования в среде EditGAN способны генерировать манипулируемые изображения, в отличие от изображений, которые появляются в обучающих данных GAN. 

Результаты вне домена

Чтобы оценить производительность EditGAN за пределами домена, платформа была протестирована на наборе данных MetFaces. Модель EditGAN использует реальные лица внутри домена для создания векторов редактирования. Затем модель встраивает портреты MetFaces, выходящие за рамки домена, с помощью 100-шагового процесса оптимизации и применяет векторы редактирования с помощью 30-шагового процесса самоконтролируемого уточнения. Результаты можно увидеть на следующем изображении. 

Количественные результаты

Для количественного измерения возможностей EditGAN по редактированию изображений модель использует тест редактирования улыбки, который впервые был представлен MaskGAN. Лица с нейтральным выражением лица заменяются улыбающимися лицами, а эффективность измеряется по трем параметрам. 

  • Семантическая корректность

Модель использует предварительно обученный классификатор атрибутов улыбки, чтобы определить, демонстрируют ли лица на изображениях выражения улыбки после редактирования. 

  • Качество изображения на уровне распространения

Начальное расстояние ядра или KID и начальное расстояние Фреше или FID рассчитываются на основе набора тестовых данных CelebA и 400 отредактированных тестовых изображений. 

  • Сохранение личности

Способность модели сохранять идентичность объектов при редактировании изображения измеряется с использованием предварительно обученной сети извлечения признаков ArcFace. 

В приведенной выше таблице сравнивается производительность платформы EditGAN с другими базовыми моделями в тесте редактирования улыбки. Метод, используемый платформой EditGAN для достижения таких высоких результатов, сравнивается по трем различным базовым показателям:

  • МаскаГАН

MaskGAN принимает изображения без улыбки вместе с их масками сегментации и целевую маску сегментации с улыбкой в ​​качестве входных данных. Стоит отметить, что по сравнению с EditGAN платформа MaskGAN требует большого объема аннотированных данных. 

  • Локальное редактирование

EditGAN также сравнивает свою производительность с локальным редактированием — методом, который используется для кластеризации функций GAN для реализации локального редактирования и зависит от эталонных изображений. 

  • ИнтерфейсГАН

Как и EditGAN, InterFaceGAN также пытается найти векторы редактирования в скрытом пространстве модели. Однако, в отличие от EditGAN, модель InterFaceGAN использует большой объем аннотированных данных, вспомогательные классификаторы атрибутов и не обладает высокой точностью редактирования. 

  • СтильGAN2Дистилляция

Этот метод создает альтернативный подход, который не обязательно требует внедрения реальных изображений, а вместо этого использует модель вектора редактирования для создания набора обучающих данных. 

ограничения

Поскольку EditGAN основан на платформе GAN, он имеет такое же ограничение, как и любая другая модель GAN: он может работать только с изображениями, которые могут быть смоделированы с помощью GAN. Ограничение EditGAN на работу с изображениями, смоделированными GAN, является основной причиной сложности реализации EditGAN в различных сценариях. Однако стоит отметить, что высокоточные изменения EditGAN можно легко перенести на другие изображения с помощью векторов редактирования. 

Заключение

Одна из основных причин, по которой GAN не является отраслевым стандартом в области редактирования изображений, заключается в его ограниченной практичности. Платформы GAN обычно требуют большого количества аннотированных обучающих данных и не часто обеспечивают высокую эффективность и точность. 

EditGAN стремится решить проблемы, возникающие в традиционных средах GAN, и пытается стать эффективным методом высококачественного и высокоточного семантического редактирования изображений. Результаты, полученные на данный момент, показали, что EditGAN действительно предлагает то, что заявляет, и он уже работает лучше, чем некоторые из нынешних стандартных отраслевых практик и моделей. 

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.