Искусственный интеллект
InstantID: Генерация идентичности за несколько секунд без предварительной подготовки
Технология генерации изображений на основе искусственного интеллекта пережила значительный рост в последние годы, особенно после появления крупных моделей диффузии текст-изображение, таких как DALL-E, GLIDE, Stable Diffusion, Imagen и другие. Несмотря на то, что модели генерации изображений имеют уникальную архитектуру и методы обучения, они все имеют одну общую цель: создание персонализированных изображений с сохранением идентичности персонажа, предмета и стиля на основе эталонных изображений. Благодаря своим впечатляющим возможностям генерации, современные框架ы генерации изображений на основе искусственного интеллекта нашли применение в таких областях, как анимация изображений, виртуальная реальность, электронная коммерция, портреты на основе ИИ и многие другие. Однако, несмотря на их впечатляющие возможности генерации, эти框架ы все сталкиваются с одной общей проблемой: большинство из них не могут генерировать персонализированные изображения, сохраняя при этом тонкие детали идентичности человеческих объектов.
Генерация персонализированных изображений с сохранением тонких деталей имеет решающее значение, особенно в задачах идентификации человеческого лица, которые требуют высокого уровня точности и детализации, а также нюансов семантики по сравнению с задачами генерации изображений общих объектов, которые в основном сосредоточены на грубых текстурах и цветах. Кроме того, в последние годы были разработаны персонализированные框架ы синтеза изображений, такие как LoRA, DreamBooth, Textual Inversion и другие, которые значительно продвинулись вперед. Однако персонализированные модели генерации изображений на основе ИИ все еще не идеальны для развертывания в реальных сценариях, поскольку они требуют большого объема хранилища, множества эталонных изображений и часто имеют длительный процесс тонкой настройки. С другой стороны, хотя существующие методы, основанные на встроенных идентификаторах, требуют только одного прямого эталонного изображения, они либо не совместимы с общедоступными предварительно обученными моделями, либо требуют чрезмерного процесса тонкой настройки по множеству параметров, либо не могут сохранять высокую идентичность лица.
Чтобы решить эти проблемы и дальнейшее улучшение возможностей генерации изображений, в этой статье мы будем говорить об InstantID, решении на основе модели диффузии для генерации изображений. InstantID является модулем “подключи и играй”, который обрабатывает генерацию изображений и персонализацию на различных стилях с помощью только одного эталонного изображения и также обеспечивает высокую идентичность. Основная цель этой статьи – предоставить нашим читателям подробное понимание технических основ и компонентов框架а InstantID, поскольку мы более подробно рассмотрим архитектуру модели, процесс обучения и сценарии применения. Итак, начнем.
InstantID: Генерация идентичности за несколько секунд без предварительной подготовки
Появление моделей диффузии текст-изображение внесло значительный вклад в развитие технологии генерации изображений. Основная цель этих моделей – персонализированная генерация, и создание изображений с сохранением предмета, стиля и идентичности персонажа с помощью одного или нескольких эталонных изображений. Способность этих框架ов создавать последовательные изображения создала потенциальные применения в различных отраслях, включая анимацию изображений, генерацию портретов на основе ИИ, электронную коммерцию, виртуальную и дополненную реальность и многое другое.
Однако, несмотря на их впечатляющие возможности, эти框架ы сталкиваются с фундаментальной проблемой: они часто испытывают трудности в генерации персонализированных изображений, сохраняя при этом тонкие детали человеческих объектов точно. Стоит отметить, что генерация персонализированных изображений с сохранением тонких деталей является сложной задачей, поскольку идентификация человеческого лица требует более высокого уровня точности и детализации, а также более продвинутой семантики по сравнению с общими объектами или стилями, которые в основном сосредоточены на цветах или грубых текстурах. Существующие модели генерации изображений на основе текста полагаются на подробные текстовые описания и испытывают трудности в достижении сильной семантической актуальности для персонализированной генерации изображений. Кроме того, некоторые крупные предварительно обученные модели генерации изображений на основе текста добавляют пространственный контроль, чтобы повысить управляемость, облегчая тонкую структуру с помощью элементов, таких как позы, глубинные карты, пользовательские эскизы, семантические карты сегментации и многое другое. Однако, несмотря на эти дополнения и улучшения, эти框架ы могут достичь только частичной идентичности сгенерированного изображения с эталонным изображением.
Чтобы преодолеть эти препятствия,框架 InstantID фокусируется на мгновенной идентичности-пreservation синтезе изображений и пытается сократить разрыв между эффективностью и высокой идентичностью, вводя простой модуль “подключи и играй”, который позволяет框架у обрабатывать персонализацию изображений с помощью только одного лица изображения, сохраняя при этом высокую идентичность. Кроме того, чтобы сохранить идентичность лица из эталонного изображения,框架 InstantID реализует новый кодировщик лица, который сохраняет тонкие детали изображения, добавляя слабые пространственные и сильные семантические условия, которые направляют процесс генерации изображений, включая текстовые подсказки, изображение ориентира и изображение лица.
Существуют три отличительные особенности, которые отличают框架 InstantID от существующих моделей генерации изображений на основе текста.
- Совместимость и подключаемость: Вместо обучения на полных параметрах框架а UNet,框架 InstantID фокусируется на обучении легкого адаптера. В результате,框架 InstantID совместим и подключаем с существующими предварительно обученными моделями.
- Настройка-бесплатно: Методология框架а InstantID исключает необходимость в тонкой настройке, поскольку он требует только одного прямого распространения для вывода, что делает модель высоко практичной и экономичной для тонкой настройки.
- Высокая производительность: Фреймворк InstantID демонстрирует высокую гибкость и идентичность, поскольку он может обеспечить высокую производительность, используя только одно эталонное изображение, сопоставимую с методами, основанными на обучении, которые полагаются на несколько эталонных изображений.
В целом, вклад框架а InstantID можно классифицировать в следующих пунктах.
- Фреймворк InstantID является инновационным методом сохранения идентичности для предварительно обученных моделей генерации изображений на основе текста, направленным на сокращение разрыва между эффективностью и идентичностью.
- Фреймворк InstantID совместим и подключаем с настраиваемыми моделями, используя один и тот же диффузный модель в своей архитектуре, что позволяет сохранять идентичность в предварительно обученных моделях без дополнительных затрат.
InstantID: Методология и архитектура
Как упоминалось ранее,框架 InstantID является эффективным легким адаптером, который наделяет предварительно обученные модели генерации изображений на основе текста возможностями сохранения идентичности.
Говоря об архитектуре,框架 InstantID построен на основе модели Stable Diffusion, известной своей способностью выполнять процесс диффузии с высокой вычислительной эффективностью в низкомерном латентном пространстве вместо пиксельного пространства с помощью автоэнкодера. Для входного изображения кодировщик сначала отображает изображение в латентное представление с коэффициентом.downsampling и латентными размерами. Кроме того, чтобы удалить нормально распределенный шум с помощью шумного латентного, условия и текущего временного шага, процесс диффузии принимает компонент денойзинга UNet. Условие является вложением текстовых подсказок, которые генерируются с помощью предварительно обученного кодировщика текста CLIP.
Кроме того,框架 InstantID также использует компонент ControlNet, который способен добавлять пространственный контроль к предварительно обученной модели диффузии в качестве условия, что выходит далеко за пределы традиционных возможностей текстовых подсказок. Компонент ControlNet также интегрирует архитектуру UNet из框架а Stable Diffusion, используя обученную реплику компонента UNet. Реплика компонента UNet имеет нулевые свертки внутри средних блоков и блоков кодировщика. Несмотря на их сходства, компонент ControlNet отличается от модели Stable Diffusion; они оба различаются в последнем резидуальном элементе. Компонент ControlNet кодирует пространственную информацию условий, такую как позы, глубинные карты, эскизы и многое другое, добавляя резидуальные элементы к блоку UNet, а затем встраивает эти резидуальные элементы в исходную сеть.
Фреймворк InstantID также черпает вдохновение из IP-Adapter или Image Prompt Adapter, который вводит новый подход к достижению возможностей подсказок изображений, работающих параллельно с текстовыми подсказками, без необходимости изменять исходные модели текст-изображение. Компонент IP-Adapter также использует уникальную стратегию декуплированного кросс-аттеншена, которая использует дополнительные слои кросс-аттеншена, чтобы встроить функции изображения, оставляя при этом неизменными другие параметры.
Методология
Чтобы дать вам краткий обзор,框架 InstantID направлен на генерацию персонализированных изображений с разными стилями или позами, используя только одно эталонное изображение идентичности с высокой идентичностью. Следующая фигура кратко дает обзор框架а InstantID.

Как можно наблюдать,框架 InstantID имеет три основных компонента:
- Компонент вложения идентичности, который захватывает прочную семантическую информацию о чертах лица на изображении.
- Легкий адаптированный модуль с декуплированным кросс-аттеншеном, чтобы облегчить использование изображения в качестве визуальной подсказки.
- Компонент IdentityNet, который кодирует детальные функции из эталонного изображения, используя дополнительный пространственный контроль.
Вложение идентичности
В отличие от существующих методов, таких как FaceStudio, PhotoMaker, IP-Adapter и других, которые полагаются на предварительно обученный кодировщик изображения CLIP, чтобы извлечь визуальные подсказки,框架 InstantID фокусируется на повышении идентичности и более сильных семантических деталях в задаче сохранения идентичности. Стоит отметить, что внутренние ограничения компонента CLIP лежат в основном в его процессе обучения на слабо выровненных данных, что означает, что закодированные функции кодировщика CLIP в основном захватывают широкие и неоднозначные семантические информации, такие как цвета, стиль и композиция. Хотя эти функции могут действовать как общий дополнение к текстовым вложениям, они не подходят для точных задач сохранения идентичности, которые подчеркивают сильную семантику и высокую идентичность. Кроме того, недавние исследования в области моделей представления лица, особенно в области распознавания лица, продемонстрировали эффективность представления лица в сложных задачах, включая реконструкцию и распознавание лица. Основываясь на этом,框架 InstantID направлен на использование предварительно обученной модели лица, чтобы обнаружить и извлечь вложения идентичности лица из эталонного изображения, направляя модель для генерации изображений.
Адаптер изображения
Возможность предварительно обученных моделей генерации изображений на основе текста в задачах подсказок изображений значительно улучшает текстовые подсказки, особенно в сценариях, которые не могут быть описаны адекватно текстовыми подсказками. Фреймворк InstantID принимает стратегию, подобную той, которая используется моделью IP-Adapter, для подсказок изображений, которая вводит легкий адаптивный модуль, парный с декуплированным кросс-аттеншеном, чтобы поддержать изображения в качестве входных подсказок. Однако, в отличие от грубо выровненных вложений CLIP,框架 InstantID расходится, используя вложения идентичности в качестве подсказок изображений, чтобы достичь семантически богатой и более нюансов интеграции подсказок.
IdentityNet
Хотя существующие методы способны интегрировать подсказки изображений с текстовыми подсказками,框架 InstantID утверждает, что эти методы только улучшают грубые функции с уровнем интеграции, который недостаточен для генерации изображений, сохраняющих идентичность. Кроме того, добавление изображений и текстовых токенов в слоях кросс-аттеншена напрямую склонно ослаблять контроль текстовых токенов, и попытка повысить силу токенов изображений может привести к ухудшению способностей текстовых токенов в задачах редактирования. Чтобы противостоять этим проблемам,框架 InstantID выбирает ControlNet, альтернативный метод вложения функций, который использует пространственную информацию в качестве входных данных для контролируемого модуля, что позволяет ему сохранять последовательность с настройками UNet в моделях диффузии.
Фреймворк InstantID делает два изменения в традиционной архитектуре ControlNet: для условных входных данных框架 InstantID выбирает 5 ключевых точек лица вместо тонких ключевых точек лица OpenPose. Во-вторых,框架 InstantID использует вложения идентичности вместо текстовых подсказок в качестве условий для слоев кросс-аттеншена в архитектуре ControlNet.
Обучение и вывод
Во время фазы обучения,框架 InstantID оптимизирует параметры компонентов IdentityNet и Image Adapter, замораживая при этом параметры предварительно обученной модели диффузии. Всего.pipeline InstantID обучается на парах изображений и текста, которые представляют человеческие объекты, и использует цель обучения, подобную той, которая используется в框워크е стабильной диффузии, с задачами-специфическими условиями изображений. Основным моментом метода обучения InstantID является разделение между слоями кросс-аттеншена изображения и текста внутри адаптера изображения, что позволяет框ameworkу InstantID регулировать веса этих условий изображений гибко и независимо, обеспечивая более целевой и контролируемый процесс вывода и обучения.
InstantID: Эксперименты и результаты
Фреймворк InstantID реализует модель Stable Diffusion и обучает ее на LAION-Face, крупном открытом наборе данных, состоящем из более 50 миллионов пар изображений и текста. Кроме того,框ramework InstantID собирает более 10 миллионов человеческих изображений с автоматически сгенерированными аннотациями, созданными с помощью модели BLIP2, чтобы еще больше улучшить качество генерации изображений. Фреймворк InstantID фокусируется в основном на изображениях с одним человеком и использует предварительно обученную модель лица, чтобы обнаружить и извлечь вложения идентичности лица из человеческих изображений, и вместо обучения обрезанных наборов данных лиц, обучает оригинальные человеческие изображения. Кроме того, во время обучения,框ramework InstantID замораживает предварительно обученную модель текст-изображение и обновляет только параметры компонентов IdentityNet и Image Adapter.
Генерация изображений только
Модель InstantID использует пустую подсказку, чтобы направить процесс генерации изображений, используя только эталонное изображение, и результаты без подсказок демонстрируются на следующем изображении.

Генерация с “пустой подсказкой”, как показано на вышеуказанном изображении, демонстрирует способность框rameworkа InstantID сохранять богатые семантические функции лица, такие как идентичность, возраст и выражение, устойчиво. Однако стоит отметить, что использование пустых подсказок может не быть в состоянии точно воспроизвести результаты на других семантиках, таких как пол. Кроме того, в вышеуказанном изображении столбцы 2-4 используют изображение и подсказку, и как можно видеть, сгенерированное изображение не демонстрирует никакого ухудшения возможностей контроля текста, и также обеспечивает последовательность идентичности. Наконец, столбцы 5-9 используют изображение, подсказку и пространственный контроль, демонстрируя совместимость модели с предварительно обученными моделями пространственного контроля, что позволяет модели InstantID гибко вводить пространственные контроли, используя предварительно обученный компонент ControlNet.

Также стоит отметить, что количество эталонных изображений имеет значительное влияние на сгенерированное изображение, как показано на вышеуказанном изображении. Хотя框ramework InstantID способен обеспечить хорошие результаты, используя только одно эталонное изображение, несколько эталонных изображений производят изображение более высокого качества, поскольку InstantID принимает среднее значение вложений идентичности в качестве подсказки изображения. Продолжая, важно сравнить InstantID с существующими методами, которые генерируют персонализированные изображения, используя одно эталонное изображение. Следующая фигура сравнивает результаты, сгенерированные InstantID и существующими моделями государственного уровня для генерации персонализированных изображений с одним эталонным изображением.

Как можно видеть,框ramework InstantID способен сохранять черты лица благодаря вложению идентичности, которое несут богатую семантическую информацию, такую как идентичность, возраст и пол. Можно сказать, что InstantID превосходит существующие框rameworkы в генерации персонализированных изображений, поскольку он способен сохранять человеческую идентичность, сохраняя при этом контроль и стилистическую гибкость.

Заключительные мысли
В этой статье мы говорили об InstantID, решении на основе модели диффузии для генерации изображений. InstantID является модулем “подключи и играй”, который обрабатывает генерацию изображений и персонализацию на различных стилях с помощью только одного эталонного изображения и также обеспечивает высокую идентичность. Фреймворк InstantID фокусируется на мгновенной идентичности-пreservation синтезе изображений и пытается сократить разрыв между эффективностью и высокой идентичностью, вводя простой модуль “подключи и играй”, который позволяет框ameworkу обрабатывать персонализацию изображений с помощью только одного лица изображения, сохраняя при этом высокую идентичность.










