Artificial Intelligence

EasyPhoto: ваш личный генератор фотографий с искусственным интеллектом

обновленный on 30 октября 2023

EasyPhoto: ваш личный генератор портретов с искусственным интеллектом

Стабильная диффузия Веб-интерфейс пользователя, или SD-WebUI, — это комплексный проект для моделей Stable Diffusion, который использует библиотеку Gradio для предоставления интерфейса браузера. Сегодня мы поговорим о EasyPhoto, инновационном плагине WebUI, позволяющем конечным пользователям создавать портреты и изображения с помощью искусственного интеллекта. Плагин EasyPhoto WebUI создает портреты с использованием искусственного интеллекта, используя различные шаблоны, поддерживая разные стили фотографий и множество модификаций. Кроме того, для дальнейшего расширения возможностей EasyPhoto пользователи могут создавать изображения с использованием модели SDXL для получения более удовлетворительных, точных и разнообразных результатов. Давай начнем.

Введение в EasyPhoto и Stable Diffusion

Платформа Stable Diffusion — это популярная и надежная платформа генерации на основе диффузии, используемая разработчиками для создания реалистичных изображений на основе входных текстовых описаний. Благодаря своим возможностям платформа Stable Diffusion может похвастаться широким спектром приложений, включая перерисовку изображений, зарисовку изображений и перевод изображений в изображения. Веб-интерфейс Stable Diffusion, или SD-WebUI, выделяется как одно из самых популярных и известных приложений этой платформы. Он имеет интерфейс браузера, созданный на основе библиотеки Gradio, обеспечивающий интерактивный и удобный интерфейс для моделей стабильной диффузии. Для дальнейшего повышения контроля и удобства использования при создании изображений SD-WebUI интегрирует множество приложений Stable Diffusion.

Из-за удобства, предлагаемого фреймворком SD-WebUI, разработчики фреймворка EasyPhoto решили создать его как веб-плагин, а не полноценное приложение. В отличие от существующих методов, которые часто страдают от потери идентичности или привносят в изображения нереалистичные особенности, платформа EasyPhoto использует возможности моделей стабильной диффузии для создания точных и реалистичных изображений. Пользователи могут легко установить платформу EasyPhoto в качестве расширения в веб-интерфейсе, повышая удобство использования и доступность для более широкого круга пользователей. Платформа EasyPhoto позволяет пользователям создавать высококачественные и ориентированные на личность реалистичные портреты ИИ которые очень похожи на входную идентичность.

Во-первых, платформа EasyPhoto предлагает пользователям создать своего цифрового двойника, загрузив несколько изображений для онлайн-обучения лица LoRA или модели адаптации низкого ранга. Структура LoRA быстро настраивает модели распространения, используя технологию адаптации низкого ранга. Этот процесс позволяет основанной модели понимать идентификационную информацию конкретных пользователей. Обученные модели затем объединяются и интегрируются в базовую модель стабильной диффузии для обеспечения интерференции. Кроме того, в процессе интерференции модель использует модели стабильной диффузии, пытаясь перекрасить области лица в интерференционном шаблоне, а сходство между входными и выходными изображениями проверяется с использованием различных модулей ControlNet.

Платформа EasyPhoto также использует двухэтапный процесс распространения для решения потенциальных проблем, таких как граничные артефакты и потеря идентичности, тем самым гарантируя, что создаваемые изображения минимизируют визуальные несоответствия, сохраняя при этом личность пользователя. Более того, конвейер взаимодействия в среде EasyPhoto не ограничивается только созданием портретов, но также может использоваться для создания всего, что связано с идентификатором пользователя. Это означает, что как только вы тренируете Модель ЛоРА для определенного идентификатора вы можете генерировать широкий спектр изображений ИИ, и, таким образом, он может иметь широкое применение, включая виртуальные примерки.

Подводя итог, фреймворк EasyPhoto

Предлагает новый подход к обучению модели LoRA путем включения нескольких моделей LoRA для обеспечения точности лица генерируемых изображений.
Использует различные методы обучения с подкреплением для оптимизации моделей LoRA для вознаграждения за идентичность лица, что еще больше помогает повысить сходство идентичности между тренировочными изображениями и полученными результатами.
Предлагает двухэтапный процесс диффузии на основе рисования, целью которого является создание фотографий AI с высокой эстетикой и сходством.

EasyPhoto: Архитектура и обучение

На следующем рисунке показан процесс обучения платформы EasyPhoto AI.

Как можно видеть, платформа сначала просит пользователей ввести обучающие изображения, а затем выполняет обнаружение лиц для определения их местоположений. Как только платформа обнаруживает лицо, она обрезает входное изображение, используя заранее определенное соотношение, которое фокусируется исключительно на области лица. Затем фреймворк применяет модель улучшения кожи и определения заметности, чтобы получить чистое и четкое тренировочное изображение лица. Эти две модели играют решающую роль в повышении визуального качества лица, а также гарантируют, что фоновая информация будет удалена, а тренировочное изображение преимущественно содержит лицо. Наконец, платформа использует эти обработанные изображения и подсказки для ввода для обучения модели LoRA и, таким образом, наделяет ее способностью более эффективно и точно понимать индивидуальные характеристики лица пользователя.

Кроме того, на этапе обучения платформа включает критический этап проверки, на котором платформа вычисляет разницу в идентификаторе лица между изображением, введенным пользователем, и проверочным изображением, созданным обученной моделью LoRA. Этап проверки — это фундаментальный процесс, который играет ключевую роль в объединении моделей LoRA, в конечном итоге гарантируя, что обученная структура LoRA трансформируется в двойника или точное цифровое представление пользователя. Кроме того, проверочное изображение, имеющее оптимальный показатель face_id, будет выбрано в качестве изображения face_id, и это изображение face_id затем будет использоваться для повышения сходства идентичности при генерации интерференции.

Двигаясь дальше, на основе ансамблевого процесса, платформа обучает модели LoRA, при этом оценка правдоподобия является основной целью, тогда как сохранение сходства лицевых идентичностей является последующей целью. Чтобы решить эту проблему, платформа EasyPhoto использует методы обучения с подкреплением для непосредственной оптимизации последующих целей. В результате черты лица, изучаемые моделями LoRA, улучшаются, что приводит к повышению сходства между результатами, сгенерированными по шаблону, а также демонстрирует обобщение по шаблонам.

Процесс взаимодействия

На следующем рисунке показан процесс взаимодействия для отдельного идентификатора пользователя в среде EasyPhoto, и он разделен на три части.

Предварительная обработка лица для получения ссылки ControlNet и предварительно обработанного входного изображения.

Первое распространение это помогает генерировать грубые результаты, напоминающие вводимые пользователем данные.

Второе распространение это исправляет граничные артефакты, делая изображения более точными и реалистичными.

В качестве входных данных платформа принимает изображение face_id (сгенерированное во время проверки обучения с использованием оптимального показателя face_id) и интерференционный шаблон. Результатом является очень подробный, точный и реалистичный портрет пользователя, который очень похож на личность и уникальный внешний вид пользователя на основе шаблона вывода. Давайте подробно рассмотрим эти процессы.

Предварительная обработка лица

Способ создания портрета ИИ на основе интерференционного шаблона без сознательного рассуждения — использовать модель SD для закрашивания области лица в интерференционном шаблоне. Кроме того, добавление в процесс платформы ControlNet не только улучшает сохранение личности пользователя, но и повышает сходство между генерируемыми изображениями. Однако использование ControlNet напрямую для региональной раскраски может привести к потенциальным проблемам, в том числе

Несоответствие между входными данными и сгенерированным изображением: Очевидно, что ключевые точки изображения шаблона несовместимы с ключевыми точками изображения face_id, поэтому использование ControlNet с изображением face_id в качестве ссылки может привести к некоторым несоответствиям в выводе.

Дефекты в области Inpaint: Маскирование области и последующее закрашивание ее новым лицом может привести к заметным дефектам, особенно вдоль границы закрашивания, что не только повлияет на подлинность создаваемого изображения, но также отрицательно повлияет на реализм изображения.
Потеря идентичности через Control Net: Поскольку процесс обучения не использует структуру ControlNet, использование ControlNet на этапе вмешательства может повлиять на способность обученных моделей LoRA сохранять идентификатор входного идентификатора пользователя.

Для решения упомянутых выше проблем платформа EasyPhoto предлагает три процедуры.

Выровнять и вставить: Используя алгоритм вставки лица, платформа EasyPhoto призвана решить проблему несоответствия ориентиров лица между идентификатором лица и шаблоном. Сначала модель вычисляет ориентиры лица face_id и изображения шаблона, после чего модель определяет матрицу аффинного преобразования, которая будет использоваться для выравнивания ориентиров лица изображения шаблона с изображением face_id. Полученное изображение сохраняет те же ориентиры, что и изображение face_id, а также выравнивается по изображению шаблона.

Лицевой предохранитель: Face Fuse — это новый подход, который используется для исправления артефактов границ, возникающих в результате закрашивания маски, и включает исправление артефактов с использованием инфраструктуры ControlNet. Этот метод позволяет платформе EasyPhoto обеспечивать сохранение гармоничных краев и, таким образом, в конечном итоге управлять процессом создания изображения. Алгоритм слияния лиц дополнительно объединяет изображение кадра (наземные пользовательские изображения) и шаблон, что позволяет полученному слитому изображению лучше стабилизировать границы краев, что затем приводит к улучшенному выводу на первом этапе диффузии.
Проверка под руководством ControlNet: Поскольку модели LoRA не обучались с использованием платформы ControlNet, ее использование в процессе вывода может повлиять на способность модели LoRA сохранять идентичность. Чтобы расширить возможности обобщения EasyPhoto, платформа учитывает влияние платформы ControlNet и включает модели LoRA с разных этапов.

Первое распространение

На первом этапе распространения изображение шаблона используется для создания изображения с уникальным идентификатором, напоминающим введенный идентификатор пользователя. Входное изображение представляет собой объединение изображения, введенного пользователем, и изображения шаблона, тогда как калиброванная маска лица является маской ввода. Чтобы еще больше повысить контроль над генерацией изображений, платформа EasyPhoto объединяет три блока ControlNet, причем первый блок ControlNet фокусируется на управлении объединенными изображениями, второй блок ControlNet управляет цветами объединенного изображения, а последний блок ControlNet представляет собой открытую позу. (управление позой нескольких человек в реальном времени) заменяемого изображения, которое содержит не только структуру лица шаблонного изображения, но и личность пользователя.

Второе распространение

На втором этапе диффузии артефакты вблизи границ лица уточняются и настраиваются, а пользователям предоставляется возможность маскировать определенную область изображения в попытке повысить эффективность генерации в этой выделенной области. На этом этапе платформа объединяет выходное изображение, полученное на первом этапе распространения, с изображением круга или результатом изображения пользователя, генерируя таким образом входное изображение для второго этапа распространения. В целом, второй этап диффузии играет решающую роль в повышении общего качества и детализации создаваемого изображения.

Многопользовательские идентификаторы

Одной из особенностей EasyPhoto является поддержка создания нескольких идентификаторов пользователей, а на рисунке ниже показан конвейер процесса взаимодействия для многопользовательских идентификаторов в среде EasyPhoto.

Чтобы обеспечить поддержку создания многопользовательских идентификаторов, платформа EasyPhoto сначала выполняет обнаружение лиц на интерференционном шаблоне. Эти интерференционные шаблоны затем разбиваются на множество масок, где каждая маска содержит только одно лицо, а остальная часть изображения замаскирована белым, тем самым разбивая генерацию многопользовательских идентификаторов на простую задачу генерации индивидуальных идентификаторов пользователей. После того как платформа генерирует изображения идентификатора пользователя, эти изображения объединяются в шаблон вывода, что облегчает интеграцию изображений шаблона с сгенерированными изображениями, что в конечном итоге приводит к созданию высококачественного изображения.

Эксперименты и результаты

Теперь, когда у нас есть понимание платформы EasyPhoto, пришло время изучить ее производительность.

Изображение выше создано плагином EasyPhoto, и для генерации изображения он использует модель SD на основе стиля. Как можно заметить, сгенерированные изображения выглядят реалистично и достаточно точны.

Добавленное выше изображение создано платформой EasyPhoto с использованием SD-модели на основе стиля комиксов. Как можно видеть, комические фотографии и реалистичные фотографии выглядят вполне реалистично и очень похожи на входное изображение на основе подсказок или требований пользователя.

Изображение, добавленное ниже, было создано с помощью платформы EasyPhoto с использованием шаблона для нескольких человек. Как можно ясно видеть, созданные изображения четкие, точные и напоминают исходное изображение.

С помощью EasyPhoto пользователи теперь могут создавать широкий спектр портретов ИИ или создавать несколько идентификаторов пользователей, используя сохраненные шаблоны, или использовать модель SD для создания шаблонов вывода. Изображения, добавленные выше, демонстрируют возможности платформы EasyPhoto в создании разнообразных и высококачественных изображений AI.

Заключение

В этой статье мы говорили о EasyPhoto, новый плагин WebUI это позволяет конечным пользователям создавать портреты и изображения с помощью ИИ. Плагин EasyPhoto WebUI генерирует портреты AI с использованием произвольных шаблонов, а текущие возможности EasyPhoto WebUI поддерживают различные стили фотографий и множество модификаций. Кроме того, для дальнейшего расширения возможностей EasyPhoto пользователи могут создавать изображения с использованием модели SDXL для создания более удовлетворительных, точных и разнообразных изображений. Платформа EasyPhoto использует стабильную базовую модель диффузии в сочетании с предварительно обученной моделью LoRA, которая создает высококачественные изображения.

Заинтересованы в генераторах изображений? Мы также предоставляем список Лучшие генераторы хедшотов с искусственным интеллектом и Лучшие генераторы изображений AI которые просты в использовании и не требуют технических знаний.

Похожие темы:EasyPhoto

ChatDev: коммуникативные агенты для разработки программного обеспечения

Не пропустите

Стратегическое расширение Google в сфере искусственного интеллекта: ставка на антропогенность в 2 миллиарда долларов

Кунал Кеджривал

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.

Unite.ИИ

EasyPhoto: ваш личный генератор фотографий с искусственным интеллектом

Artificial Intelligence

EasyPhoto: ваш личный генератор фотографий с искусственным интеллектом

Оглавление

Введение в EasyPhoto и Stable Diffusion

EasyPhoto: Архитектура и обучение