Artificial Intelligence

InstantID: генерация с нулевым выстрелом с сохранением личности за считанные секунды

опубликованный

2 меc. назад

12 марта 2024

Технология генерации изображений на основе искусственного интеллекта за последние несколько лет значительно выросла с тех пор, как на сцену вышли такие модели распространения большого текста в изображения, как DALL-E, GLIDE, Stable Diffusion, Imagen и другие. Несмотря на то, что модели искусственного интеллекта для генерации изображений имеют уникальную архитектуру и методы обучения, все они имеют общую цель: создание настраиваемых и персонализированных изображений, целью которых является создание изображений с единообразным идентификатором персонажа, темой и стилем на основе эталонных изображений. Благодаря своим замечательным генеративным возможностям современные ИИ-фреймворки для создания изображений нашли применение в таких областях, как анимация изображений, виртуальная реальность, электронная коммерция, ИИ-портреты и многое другое. Однако, несмотря на свои замечательные генеративные возможности, все эти платформы имеют общее препятствие: большинство из них не способны генерировать индивидуальные изображения, сохраняя при этом деликатные детали идентичности человеческих объектов.

Создание индивидуальных изображений с сохранением сложных деталей имеет решающее значение, особенно в задачах по идентификации лица человека, которые требуют высоких стандартов точности и детализации, а также тонкой семантики по сравнению с общими задачами создания изображений объектов, которые концентрируются в первую очередь на крупнозернистых текстурах и цветах. Кроме того, в последние годы значительно продвинулись платформы персонализированного синтеза изображений, такие как LoRA, DreamBooth, Textual Inversion и другие. Однако модели искусственного интеллекта, генерирующие персонализированные изображения, по-прежнему не идеальны для развертывания в реальных сценариях, поскольку они требуют большого объема памяти, нескольких эталонных изображений и часто требуют длительного процесса тонкой настройки. С другой стороны, хотя существующие методы, основанные на внедрении идентификаторов, требуют только одной прямой ссылки, они либо несовместимы с общедоступными предварительно обученными моделями, либо требуют чрезмерного процесса точной настройки по многочисленным параметрам, либо не могут поддерживать высокий уровень. верность лицу.

Чтобы решить эти проблемы и еще больше расширить возможности генерации изображений, в этой статье мы поговорим об InstantID, решении для генерации изображений на основе модели диффузии. InstantID — это модуль Plug and Play, который эффективно генерирует и персонализирует изображения в различных стилях с помощью всего лишь одного эталонного изображения, а также обеспечивает высокую точность воспроизведения. Основная цель этой статьи — предоставить нашим читателям полное понимание технических основ и компонентов платформы InstantID, поскольку мы подробно рассмотрим архитектуру модели, процесс обучения и сценарии применения. Итак, давайте начнем.

InstantID: создание изображений с нулевым разрешением и сохранением личности

Появление моделей диффузии текста в изображение внесло значительный вклад в развитие технологии генерации изображений. Основная цель этих моделей — индивидуальная и персональная генерация, а также создание изображений с единообразным предметом, стилем и идентификатором персонажа с использованием одного или нескольких эталонных изображений. Способность этих фреймворков создавать согласованные изображения создала потенциальные приложения в различных отраслях, включая анимацию изображений, создание портретов с помощью ИИ, электронную коммерцию, виртуальную и дополненную реальность и многое другое.

Однако, несмотря на свои замечательные возможности, эти системы сталкиваются с фундаментальной проблемой: им часто сложно создавать индивидуальные изображения, которые точно сохраняют сложные детали человеческих объектов. Стоит отметить, что создание индивидуальных изображений с внутренними деталями является сложной задачей, поскольку идентичность человеческого лица требует более высокой степени точности и детализации, а также более продвинутой семантики по сравнению с обычными объектами или стилями, которые ориентированы в первую очередь на цвета или крупнозернистые текстуры. Существующие модели преобразования текста в изображение зависят от подробных текстовых описаний, и им сложно достичь сильной семантической релевантности для создания персонализированных изображений. Кроме того, некоторые крупные предварительно обученные структуры преобразования текста в изображения добавляют элементы управления пространственным условием для повышения управляемости, облегчая детальный структурный контроль с использованием таких элементов, как позы тела, карты глубины, нарисованные пользователем эскизы, карты семантической сегментации и многое другое. Однако, несмотря на эти дополнения и усовершенствования, эти платформы способны обеспечить лишь частичное соответствие сгенерированного изображения эталонному изображению.

Чтобы преодолеть эти препятствия, платформа InstantID фокусируется на мгновенном синтезе изображений, сохраняющих идентичность, и пытается преодолеть разрыв между эффективностью и высокой точностью, вводя простой модуль Plug and Play, который позволяет платформе обрабатывать персонализацию изображений, используя только одно изображение лица. сохраняя при этом высокую точность. Кроме того, чтобы сохранить идентичность лица на эталонном изображении, платформа InstantID реализует новый кодировщик лица, который сохраняет сложные детали изображения путем добавления слабых пространственных и сильных семантических условий, которые направляют процесс создания изображения, путем включения текстовых подсказок, изображения ориентира и изображения лица. .

Существует три отличительные особенности, которые отличают платформу InstantID от существующих платформ создания текста и изображений.

Совместимость и возможность подключения: Вместо обучения полным параметрам платформы UNet, платформа InstantID фокусируется на обучении облегченного адаптера. В результате платформа InstantID совместима и подключается к существующим предварительно обученным моделям.

Без настройки: Методология платформы InstantID исключает необходимость точной настройки, поскольку для вывода требуется только одно прямое распространение, что делает модель очень практичной и экономичной для точной настройки.
Превосходную производительность: Платформа InstantID демонстрирует высокую гибкость и точность, поскольку она способна обеспечить современную производительность, используя только одно эталонное изображение, что сравнимо с методами, основанными на обучении, которые полагаются на несколько эталонных изображений.

В целом вклад платформы InstantID можно разделить на следующие категории.

Платформа InstantID — это инновационный метод адаптации с сохранением идентификаторов для предварительно обученных моделей распространения текста в изображения, целью которого является преодоление разрыва между эффективностью и точностью.
Платформа InstantID совместима и подключается к специально настроенным моделям, использующим в своей архитектуре ту же модель диффузии, что позволяет сохранять идентификаторы в предварительно обученных моделях без каких-либо дополнительных затрат.

InstantID: методология и архитектура

Как упоминалось ранее, платформа InstantID представляет собой эффективный легкий адаптер, который легко наделяет предварительно обученные модели распространения текста в изображения возможностями сохранения идентификаторов.

Говоря об архитектуре, платформа InstantID построена на основе Модель стабильной диффузии, известный своей способностью выполнять процесс диффузии с высокой вычислительной эффективностью в низкоразмерном скрытом пространстве вместо пиксельного пространства с помощью автоматического кодировщика. Для входного изображения кодер сначала отображает изображение в скрытое представление с коэффициентом понижающей дискретизации и скрытыми размерами. Кроме того, для шумоподавления нормально распределенного шума с зашумленными скрытым, состоянием и текущим временным шагом процесс диффузии использует компонент шумоподавления UNet. Условием является внедрение текстовых подсказок, которые генерируются с помощью предварительно обученного компонента кодирования текста CLIP.

Кроме того, платформа InstantID также использует компонент ControlNet, который способен добавлять пространственный контроль к предварительно обученной модели диффузии в качестве ее условия, выходя далеко за рамки традиционных возможностей текстовых подсказок. Компонент ControlNet также интегрирует архитектуру UNet из платформы Stable Diffusion, используя обученную репликацию компонента UNet. Реплика компонента UNet имеет нулевые слои свертки внутри средних блоков и блоков кодера. Несмотря на сходство, компонент ControlNet отличается от модели Stable Diffusion; они оба различаются по последнему остаточному элементу. Компонент ControlNet кодирует информацию о пространственных условиях, такую как позы, карты глубины, эскизы и многое другое, путем добавления остатков в блок UNet, а затем встраивает эти остатки в исходную сеть.

Платформа InstantID также черпает вдохновение из IP-адаптера или адаптера подсказки изображения, который представляет новый подход для реализации возможностей подсказок в виде изображений, работающих параллельно с текстовыми подсказками, без необходимости изменения исходного текста в моделях изображений. Компонент IP-адаптер также использует уникальную стратегию разделения перекрестного внимания, которая использует дополнительные уровни перекрестного внимания для внедрения функций изображения, оставляя при этом другие параметры неизменными.

Методология

Чтобы дать вам краткий обзор, платформа InstantID предназначена для создания индивидуальных изображений с разными стилями или позами, используя только одно эталонное идентификационное изображение с высокой точностью. На следующем рисунке кратко представлен обзор платформы InstantID.

Как можно заметить, платформа InstantID состоит из трех основных компонентов:

Компонент внедрения идентификаторов, который собирает надежную семантическую информацию о чертах лица на изображении.
Легкий адаптированный модуль с отделенным компонентом перекрестного внимания, упрощающим использование изображения в качестве визуальной подсказки.
Компонент IdentityNet, который кодирует подробные характеристики эталонного изображения с помощью дополнительного пространственного управления.

Встраивание идентификатора

В отличие от существующих методов, таких как FaceStudio, PhotoMaker, IP-Adapter и других, которые полагаются на предварительно обученный кодировщик изображений CLIP для извлечения визуальных подсказок, платформа InstantID фокусируется на повышенной точности и более четкой семантической детализации в задаче сохранения идентификаторов. Стоит отметить, что внутренние ограничения компонента CLIP заключаются, прежде всего, в его процессе обучения на слабо выровненных данных, что означает, что закодированные функции кодера CLIP в первую очередь фиксируют широкую и неоднозначную семантическую информацию, такую как цвета, стиль и композиция. Хотя эти функции могут выступать в качестве общего дополнения к встраиванию текста, они не подходят для точных задач сохранения идентификаторов, в которых большое внимание уделяется строгой семантике и высокой точности. Кроме того, недавние исследования моделей представления лиц, особенно в области распознавания лиц, продемонстрировали эффективность представления лиц в сложных задачах, включая реконструкцию и распознавание лиц. Основываясь на том же, платформа InstantID стремится использовать предварительно обученную модель лица для обнаружения и извлечения встроенных идентификаторов лица из эталонного изображения, направляя модель для генерации изображения.

Адаптер изображения

Возможность предварительно обученные модели диффузии текста в изображения в задачах с подсказками изображений значительно расширяет возможности текстовых подсказок, особенно для сценариев, которые не могут быть адекватно описаны с помощью текстовых подсказок. Платформа InstantID использует стратегию, аналогичную той, которая используется моделью IP-адаптера для подсказок изображений, которая представляет легкий адаптивный модуль в сочетании с отделенным компонентом перекрестного внимания для поддержки изображений в качестве подсказок ввода. Однако, в отличие от внедрений CLIP с грубым выравниванием, платформа InstantID отличается использованием внедрений идентификаторов в качестве подсказок изображения в попытке добиться семантически богатой и более тонкой интеграции подсказок.

Идентитинет

Хотя существующие методы способны интегрировать подсказки в виде изображений с текстовыми подсказками, платформа InstantID утверждает, что эти методы лишь улучшают грубые функции с уровнем интеграции, которого недостаточно для генерации изображений с сохранением идентификатора. Более того, добавление токенов изображения и текста в слои перекрестного внимания напрямую имеет тенденцию ослаблять контроль над текстовыми токенами, а попытка повысить силу токенов изображения может привести к ухудшению возможностей текстовых токенов при выполнении задач редактирования. Чтобы противостоять этим проблемам, платформа InstantID выбирает ControlNet, альтернативный метод внедрения функций, который использует пространственную информацию в качестве входных данных для управляемого модуля, что позволяет ему поддерживать согласованность с настройками UNet в моделях распространения.

Платформа InstantID вносит два изменения в традиционную архитектуру ControlNet: для условных входных данных платформа InstantID выбирает 5 ключевых точек лица вместо детальных ключевых точек лица OpenPose. Во-вторых, платформа InstantID использует встраивание идентификаторов вместо текстовых подсказок в качестве условий для уровней перекрестного внимания в архитектуре ControlNet.

Обучение и вывод

На этапе обучения платформа InstantID оптимизирует параметры IdentityNet и адаптера изображения, одновременно замораживая параметры предварительно обученной диффузионной модели. Весь конвейер InstantID обучается на парах изображение-текст, в которых изображены люди, и использует цель обучения, аналогичную той, которая используется в стабильной диффузионной структуре с условиями изображения для конкретной задачи. Изюминкой метода обучения InstantID является разделение между слоями перекрестного внимания изображения и текста в адаптере подсказки к изображению. Этот выбор позволяет платформе InstantID гибко и независимо регулировать веса этих условий изображения, обеспечивая тем самым более целенаправленное и контролируемое воздействие. вывод и процесс обучения.

InstantID: эксперименты и результаты

Платформа InstantID реализует Stable Diffusion и обучает его на LAION-Face, крупномасштабном наборе данных с открытым исходным кодом, состоящем из более чем 50 миллионов пар изображение-текст. Кроме того, платформа InstantID собирает более 10 миллионов изображений людей с помощью автоматизации, автоматически генерируемой моделью BLIP2, для дальнейшего повышения качества генерации изображений. Платформа InstantID фокусируется в первую очередь на изображениях одного человека и использует предварительно обученную модель лица для обнаружения и извлечения встроенных идентификаторов лица из изображений людей, а вместо обучения наборов данных обрезанных лиц обучает исходные изображения людей. Кроме того, во время обучения платформа InstantID замораживает предварительно обученную модель преобразования текста в изображение и обновляет только параметры IdentityNet и Image Adaptor.

Генерация только изображения

Модель InstantID использует пустой запрос для управления процессом создания изображения с использованием только эталонного изображения, а результаты без запросов показаны на следующем изображении.

Генерация «пустого запроса», как показано на изображении выше, демонстрирует способность платформы InstantID надежно поддерживать богатые семантические черты лица, такие как личность, возраст и выражение лица. Однако стоит отметить, что использование пустых подсказок может не позволить точно воспроизвести результаты по другим семантикам, таким как пол. Кроме того, на изображении выше в столбцах со 2 по 4 используются изображение и подсказка, и, как можно видеть, сгенерированное изображение не демонстрирует какого-либо ухудшения возможностей управления текстом, а также обеспечивает согласованность идентичности. Наконец, в столбцах с 5 по 9 используются изображение, подсказка и пространственный элемент управления, демонстрируя совместимость модели с предварительно обученными моделями пространственного управления, что позволяет модели InstantID гибко вводить пространственные элементы управления с использованием предварительно обученного компонента ControlNet.

Также стоит отметить, что количество эталонных изображений оказывает существенное влияние на создаваемое изображение, как показано на изображении выше. Хотя платформа InstantID способна обеспечить хорошие результаты с использованием одного эталонного изображения, несколько эталонных изображений создают изображение более высокого качества, поскольку платформа InstantID принимает среднее значение вложений идентификаторов в качестве подсказки изображения. В дальнейшем важно сравнить платформу InstantID с предыдущими методами, которые генерируют персонализированные изображения с использованием одного эталонного изображения. На следующем рисунке сравниваются результаты, полученные с помощью платформы InstantID, и существующие современные модели для создания настраиваемых изображений по одной ссылке.

Как можно видеть, платформа InstantID способна сохранять характеристики лица благодаря внедрению идентификаторов, которые по своей сути содержат богатую семантическую информацию, такую как личность, возраст и пол. Можно с уверенностью сказать, что платформа InstantID превосходит существующие платформы в создании настраиваемых изображений, поскольку она способна сохранять человеческую идентичность, сохраняя при этом контроль и стилистическую гибкость.

Заключение

В этой статье мы говорили об InstantID, решении для генерации изображений на основе модели диффузии. InstantID — это модуль Plug and Play, который эффективно генерирует и персонализирует изображения в различных стилях с помощью всего лишь одного эталонного изображения, а также обеспечивает высокую точность воспроизведения. Платформа InstantID фокусируется на мгновенном синтезе изображений с сохранением идентичности и пытается преодолеть разрыв между эффективностью и высокой точностью, вводя простой модуль Plug and Play, который позволяет платформе обрабатывать персонализацию изображений, используя только одно изображение лица, сохраняя при этом высокую точность.

Возрождение цифровой легенды: превращение LimeWire в центр генеративного искусственного интеллекта

Не пропустите

Тихая эволюция искусственного интеллекта: появление сложных систем искусственного интеллекта за пределами традиционных моделей искусственного интеллекта

Кунал Кеджривал

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.

Unite.ИИ

InstantID: генерация с нулевым выстрелом с сохранением личности за считанные секунды

Artificial Intelligence

InstantID: генерация с нулевым выстрелом с сохранением личности за считанные секунды

Оглавление

InstantID: создание изображений с нулевым разрешением и сохранением личности