Штучний інтелект

InstantID: генерація ідентичності за нульових зразків у секунди

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

Технологія генерації зображень, що використовує штучний інтелект, пережила значний розвиток за останні кілька років, починаючи з появи великих моделей дифузії тексту в зображення, таких як DALL-E, GLIDE, Stable Diffusion, Imagen та інші. Незважаючи на те, що моделі генерації зображень мають унікальну архітектуру та методи навчання, вони всі мають одну спільну мету: персоналізовану генерацію зображень, яка спрямована на створення зображень із постійним ідентифікатором персонажа, об’єкта та стилю на основі зображень-відмінників. Завдяки своїм видатним можливостям генерації, сучасні кадри генерації зображень знайшли застосування в галузях, таких як анімація зображень, віртуальна реальність, електронна комерція, портрети штучного інтелекту та багато іншого. Однак, незважаючи на свої видатні можливості генерації, ці кадри всі мають одну спільну перешкоду: більшість з них не можуть генерувати персоналізовані зображення, зберігаючи при цьому дрібні деталі людських об’єктів.

Генерація персоналізованих зображень із збереженням дрібних деталей має критичне значення, особливо в завданнях ідентифікації людських осіб, які вимагають високого рівня точності та деталізації, а також нюансів семантики у порівнянні з завданнями генерації зображень загальних об’єктів, які зосереджені в основному на текстурах та кольорах. Крім того, персоналізовані кадри синтезу зображень в останні роки, такі як LoRA, DreamBooth, Textual Inversion та інші, значно покращилися. Однак персоналізовані моделі генерації зображень все ще не досконалі для розгортання в реальних сценаріях, оскільки вони мають високі вимоги до пам’яті, потребують декількох зображень-відмінників та часто мають тривалий процес налаштування. З іншого боку, хоча існуючі методи, засновані на ID-ембеддингу, вимагають лише одного прямого відмінника, вони або не мають сумісності з публічно доступними попередньо натренованими моделями, або вимагають надмірного процесу налаштування по численним параметрам, або не можуть зберегти високу вірність обличчя.

Щоб подолати ці виклики та подальше покращити можливості генерації зображень, в цій статті ми будемо говорити про InstantID, рішення на основі моделі дифузії для генерації зображень. InstantID – це модуль “підключи і грай”, який обробляє генерацію зображень та персоналізацію адаптивно в різних стилях з використанням лише одного зображення-відмінника та забезпечує високу вірність. Основна мета цієї статті – надати нашим читачам глибоке розуміння технічних основ та компонентів кадру InstantID, оскільки ми будемо детально розглядати архітектуру моделі, процес навчання та сценарії застосування. Тому почнімо.

InstantID: генерація ідентичності за нульових зразків

Поява моделей дифузії тексту в зображення значно сприяла розвитку технології генерації зображень. Основна мета цих моделей – персоналізована генерація, а також створення зображень із постійним об’єктом, стилем та ідентифікатором персонажа з використанням одного або декількох зображень-відмінників. Спроможність цих кадрів створювати постійні зображення створила потенційні застосування в різних галузях, включаючи анімацію зображень, генерацію портретів штучного інтелекту, електронну комерцію, віртуальну та доповнену реальність та багато іншого.

Однак, незважаючи на свої видатні можливості, ці кадри мають фундаментальну перешкоду: вони часто не можуть генерувати персоналізовані зображення, які зберігають дрібні деталі людських осіб точно. Варто зазначити, що генерація персоналізованих зображень із дрібними деталями – це складне завдання, оскільки ідентифікація людських осіб вимагає вищого рівня точності та деталізації, а також більш просунутих семантичних нюансів у порівнянні з завданнями генерації зображень загальних об’єктів, які зосереджені в основному на текстурах та кольорах. Існуючі моделі генерації зображень, що використовують текст, залежать від детальних текстових описів та не можуть досягти сильної семантичної відповідності для персоналізованої генерації зображень. Крім того, деякі великі попередньо натреновані моделі генерації зображень додають контролюючі засоби просторової умовності, щоб підвищити керованність, забезпечуючи тонкий структурний контроль з використанням елементів, таких як пози тіла, карти глибини, нариси користувача, семантичні карти сегментації та багато іншого. Однак, незважаючи на ці доповнення та покращення, ці кадри можуть досягти лише часткової вірності згенерованих зображень до зображень-відмінників.

Щоб подолати ці перешкоди, кадр InstantID зосереджується на миттєвій генерації ідентичності, зберігаючи при цьому дрібні деталі обличчя, та намагається звузити розрив між ефективністю та високою вірністю шляхом введення простого модуля “підключи і грай”, який дозволяє кадру обробляти персоналізацію зображень з використанням лише одного обличчя-відмінника та забезпечує високу вірність. Крім того, щоб зберегти ідентифікатор обличчя з зображення-відмінника, кадр InstantID реалізує новий кодувальник обличчя, який зберігає дрібні деталі зображення, додаючи слабкі просторові та сильні семантичні умови, які керують процесом генерації зображень шляхом включення текстових підказок, зображень-відмінників та обличчя.

Є три відмінні особливості, які відрізняють кадр InstantID від існуючих моделей генерації зображень.

Сумісність та підключення: Натомість ніж навчання на повних параметрах кадру UNet, кадр InstantID зосереджується на навчанні легкого адаптера. В результаті, кадр InstantID є сумісним та підключеним з існуючими попередньо натренованими моделями.

Відсутність налаштування: Методологія кадру InstantID усуває необхідність у налаштуванні, оскільки йому потрібно лише одне прямое поширення для висновку, що робить модель високо практичною та економічною для налаштування.
Видатна продуктивність: Кадр InstantID демонструє високу гнучкість та вірність, оскільки він здатний забезпечити продуктивність на рівні стану мистецтва, використовуючи лише одне зображення-відмінник, порівнювану з методами, заснованими на навчанні, які залежать від декількох зображень-відмінників.

В цілому, внески кадру InstantID можна категоризувати наступним чином.

Кадр InstantID – це інноваційний метод адаптації ідентичності для попередньо натренованих моделей дифузії тексту в зображення з метою звузити розрив між ефективністю та вірністю.
Кадр InstantID є сумісним та підключеним з моделями, до яких здійснено персоналізацію з використанням того ж моделі дифузії в своїй архітектурі, що дозволяє зберегти ідентичність у попередньо натренованих моделях без додаткових витрат.

InstantID: методологія та архітектура

Як згадувалося раніше, кадр InstantID – це ефективний легкий адаптер, який наділяє попередньо натреновані моделі дифузії тексту в зображення можливостями збереження ідентичності.

Говорячи про архітектуру, кадр InstantID побудований на основі моделі Stable Diffusion, відомої своєю здатністю виконувати процес дифузії з високою обчислювальною ефективністю в низьковимірному латентному просторі замість простору пікселів з авто-кодувальником. Для вхідного зображення кодувальник спочатку відображає зображення у латентне представлення з коефіцієнтом підзірання та латентними розмірами. Крім того, щоб знешумити нормально розподілене шум з шумним латентним, умовою та поточним кроком часу, процес дифузії приймає компонент денойзингу UNet. Умова – це ембеддинг текстових підказок, який генерується попередньо натренованим компонентом кодувальника тексту CLIP.

Крім того, кадр InstantID також використовує компонент ControlNet, який здатний додавати просторовий контроль до попередньо натренованої моделі дифузії як умову, що значно розширює традиційні можливості текстових підказок. Компонент ControlNet також інтегрує архітектуру UNet з кадру Stable Diffusion, використовуючи натреновану репліку компоненту UNet. Репліка компоненту UNet має нульові конволюційні шари всередині середніх блоків та блоків кодувальника. Незважаючи на їхню схожість, компонент ControlNet відрізняється від моделі Stable Diffusion; вони обидва відрізняються в останньому залишковому елементі. Компонент ControlNet кодує просторову умовну інформацію, таку як пози, карти глибини, нариси тощо, додаючи залишки до блоку UNet, а потім ембеддить ці залишки в оригінальну мережу.

Кадр InstantID також черпає натхнення з IP-Adapter або Image Prompt Adapter, який вводить новий підхід для досягнення можливостей підказок зображень, що працюють паралельно з текстовими підказками без потреби модифікувати оригінальні моделі тексту в зображення. Компонент IP-Adapter також використовує унікальну стратегію декуплювання крос-аттенції, яка використовує додаткові шари крос-аттенції для ембеддингу особливостей зображення, залишаючи при цьому інші параметри незмінними.

Методологія

Щоб дати вам короткий огляд, кадр InstantID спрямований на генерацію персоналізованих зображень із різними стилями або позами, використовуючи лише одне зображення-відмінник із високою вірністю. Наступна фігура коротко надає огляд кадру InstantID.

Як можна бачити, кадр InstantID має три основні компоненти:

Компонент ембеддингу ідентичності, який захоплює міцну семантичну інформацію про особливості обличчя в зображенні.
Легкий адаптований модуль з компонентом декуплювання крос-аттенції, який дозволяє використовувати зображення як візуальну підказку.
Компонент IdentityNet, який кодує детальні особливості з зображення-відмінника з використанням додаткового просторового контролю.

Ембеддинг ідентичності

На відміну від існуючих методів, таких як FaceStudio, PhotoMaker, IP-Adapter тощо, які залежать від попередньо натренованого кодувальника зображення CLIP для витягування візуальних підказок, кадр InstantID зосереджується на підвищенні вірності та сильнішій семантиці в завданнях збереження ідентичності. Варто зазначити, що вбудовані обмеження компоненту CLIP лежать в основному в його процесі навчання на слабо пов’язаних даних, що означає, що ембеддингові особливості кодувальника CLIP в основному захоплюють широкі та двозначні семантичні особливості, такі як кольори, стиль та композиція. Хоча ці особливості можуть діяти як загальне доповнення до текстових ембеддингів, вони не підходять для точних завдань збереження ідентичності, які підкреслюють сильну семантику та високу вірність. Крім того, недавні дослідження у сфері моделей представлення обличчя, особливо у сфері розпізнавання обличчя, продемонстрували ефективність представлення обличчя у складних завданнях, включаючи реконструкцію та розпізнавання обличчя. Будуючи на цьому, кадр InstantID спрямований на використання попередньо натренованої моделі обличчя для виявлення та витягування ембеддингів ідентичності обличчя з зображення-відмінника, керуючи моделлю для генерації зображення.

Адаптер зображення

Спроможність попередньо натренованих моделей дифузії тексту в зображення у завданнях підказок зображень значно підвищує текстові підказки, особливо у сценаріях, які не можуть бути адекватно описані текстовими підказками. Кадр InstantID приймає стратегію, подібну до тієї, яку використовує модель IP-Adapter, для підказок зображень, яка вводить легкий адаптований модуль, поєднаний з компонентом декуплювання крос-аттенції, для підтримки зображень як вхідних підказок. Однак, на відміну від грубо-вирівняних ембеддингів CLIP, кадр InstantID відрізняється тим, що використовує ембеддинги ідентичності як підказки зображень у спробі досягти семантично багатих та більш нюансівних підказок.

IdentityNet

Хоча існуючі методи здатні інтегрувати підказки зображень з текстовими підказками, кадр InstantID стверджує, що ці методи підвищують лише грубі особливості з рівнем інтеграції, який є недостатнім для генерації зображень, що зберігають ідентичність. Крім того, додавання підказок зображень та текстових токенів у шари крос-аттенції безпосередньо схильне до ослаблення контролю текстових токенів, а спроба підвищити силу токенів зображень може призвести до порушення можливостей текстових токенів у завданнях редагування. Щоб подолати ці виклики, кадр InstantID вибирає ControlNet, альтернативний метод ембеддингу особливостей, який використовує просторову інформацію як вхід для керованого модуля, що дозволяє йому зберігати узгодженість з налаштуваннями UNet у моделях дифузії.

Кадр InstantID робить два зміни до традиційної архітектури ControlNet: для умовних вхідних даних кадр InstantID вибирає 5 ключових точок обличчя замість тонких ключових точок OpenPose. Друга зміна полягає в тому, що кадр InstantID використовує ембеддинги ідентичності замість текстових підказок як умови для шарів крос-аттенції в архітектурі ControlNet.

Навчання та висновок

Під час фази навчання кадр InstantID оптимізує параметри компонентів IdentityNet та Image Adapter, заморожуючи при цьому параметри попередньо натренованої моделі дифузії. Цілком кадр InstantID навчається на парах зображень та тексту, що містять людські об’єкти, та використовує завдання навчання, подібне до того, яке використовується у кадрі стабільної дифузії з умовними зображеннями. Висвітлення методу навчання InstantID полягає у розділенні шарів крос-аттенції зображення та тексту всередині адаптера підказок зображення, що дозволяє кадру InstantID регулювати ваги цих умов зображення гнучко та незалежно, забезпечуючи більш цільовий та контрольований процес висновку та навчання.

InstantID: експерименти та результати

Кадр InstantID реалізує модель Stable Diffusion та навчає її на LAION-Face, великому відкритому наборі даних, що складається з понад 50 мільйонів пар зображень та тексту. Крім того, кадр InstantID збирає понад 10 мільйонів людських зображень з автоматично згенерованими анотаціями, створеними моделлю BLIP2, щоб ще більше підвищити якість генерації зображень. Кадр InstantID зосереджується в основному на зображеннях однієї особи та використовує попередньо натреновану модель обличчя для виявлення та витягування ембеддингів ідентичності обличчя з людських зображень, та навчає оригінальні людські зображення замість обрізаних наборів даних обличчя. Крім того, під час навчання кадр InstantID заморожує попередньо натреновану модель тексту в зображення та оновлює лише параметри компонентів IdentityNet та Image Adapter.

Генерація зображень лише з використанням зображення

Модель InstantID використовує порожню підказку для керування процесом генерації зображення, використовуючи лише зображення-відмінник, та результати без підказок демонструються на наступному зображенні.

Генерація з «порожньою підказкою» демонструє здатність кадру InstantID зберігати багатющі семантичні особливості обличчя, такі як ідентичність, вік та вираз, міцно. Однак варто зазначити, що використання порожніх підказок може не бути здатним точно відтворити результати на інших семантиках, таких як стать. Крім того, у вищезазначеному зображенні стовпці 2-4 використовують зображення та підказку, та, як можна бачити, згенероване зображення не демонструє жодного погіршення можливостей контролю тексту, та також забезпечує узгодженість ідентичності. Нарешті, стовпці 5-9 використовують зображення, підказку та просторовий контроль, демонструючи сумісність моделі з попередньо натренованими моделями просторового контролю, що дозволяє кадру InstantID гнучко вводити просторовий контроль з використанням попередньо натренованого компоненту ControlNet.

Варто зазначити, що кількість зображень-відмінників має значний вплив на згенероване зображення, як демонструється на вищезазначеному зображенні. Хоча кадр InstantID здатний забезпечити хороші результати, використовуючи лише одне зображення-відмінник, декілька зображень-відмінників дають краще якість зображення, оскільки кадр InstantID приймає середнє значення ембеддингів ідентичності як підказку зображення. Продовжуючи, важливо порівняти кадр InstantID з попередніми методами, які генерують персоналізовані зображення, використовуючи одне зображення-відмінник. Наступна фігура порівнює результати, згенеровані кадром InstantID, та існуючими моделями стану мистецтва для генерації персоналізованих зображень з використанням одного зображення-відмінника.

Як можна бачити, кадр InstantID здатний зберігати особливості обличчя завдяки ембеддингу ідентичності, який містить багатющу семантичну інформацію, таку як ідентичність, вік та стать. Безперечно, кадр InstantID перевершує існуючі кадри у генерації персоналізованих зображень, оскільки він здатний зберігати людську ідентичність, зберігаючи при цьому контроль та стилістичну гнучкість.

Остатні думки

У цій статті ми говорили про InstantID, рішення на основі моделі дифузії для генерації зображень. InstantID – це модуль «підключи і грай», який обробляє генерацію зображень та персоналізацію адаптивно в різних стилях з використанням лише одного зображення-відмінника та забезпечує високу вірність. Кадр InstantID зосереджується на миттєвій генерації ідентичності, зберігаючи при цьому дрібні деталі обличчя, та намагається звузити розрив між ефективністю та високою вірністю шляхом введення простого модуля «підключи і грай», який дозволяє кадру обробляти персоналізацію зображень з використанням лише одного обличчя-відмінника та забезпечує високу вірність.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.