Umělá inteligence

InstantID: Zero-shot Identity-Preserving Generation in Seconds

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

Technologie generování obrazů s využitím umělé inteligence zaznamenala pozoruhodný růst v posledních letech, kdy se na scéně objevily velké text-to-image difuzní modely, jako jsou DALL-E, GLIDE, Stable Diffusion, Imagen a další. Přestože modely generování obrazů mají jedinečnou architekturu a metody školení, všechny sdílejí společný cíl: přizpůsobené a personalizované generování obrazů, jehož cílem je vytvářet obrazy s konzistentní identitou charakteru, subjektu a stylu na základě referenčních obrazů. Díky svým pozoruhodným generativním schopnostem našly moderní rámce generování obrazů uplatnění v oblastech, jako je animace obrazů, virtuální realita, e-commerce, portréty AI a další. Nicméně, navzdory svým pozoruhodným generativním schopnostem, všechny tyto rámce sdílejí společnou překážku: většina z nich není schopna generovat přizpůsobené obrazy, zatímco zachovává jemné identifikační detaily lidských objektů.

Generování přizpůsobených obrazů, zatímco zachovává jemné detaily, je zásadně důležité, zejména u úkolů lidské identifikace obličeje, které vyžadují vysoký standard věrnosti a detailů a nuancovaných sémantik ve srovnání s úkoly generování obrazů obecných objektů, které se soustředí primárně na hrubozrnné textury a barvy. Kromě toho, personalizované rámce syntézy obrazů v posledních letech, jako je LoRA, DreamBooth, Textual Inversion a další, pokročily významně. Nicméně, personalizované modely generování obrazů nejsou dosud dokonalé pro nasazení v reálných scénářích, protože mají vysoké požadavky na úložiště, vyžadují několik referenčních obrazů a často mají dlouhou fázi jemného ladění. Na druhou stranu, existující metody založené na ID-embedding vyžadují pouze jednu referenční obraz, ale buď postrádají kompatibilitu s veřejně dostupnými předškolními modely, nebo vyžadují nadměrnou fázi jemného ladění přes mnoho parametrů, nebo nejsou schopny zachovat vysokou věrnost obličeje.

Aby se tyto výzvy překonaly a dále vylepšily schopnosti generování obrazů, budeme v tomto článku hovořit o InstantID, řešení založeném na difuzním modelu pro generování obrazů. InstantID je modul plug and play, který zpracovává generování a personalizaci obrazů adeptně napříč různými styly s pouze jednou referenční obraz a také zajišťuje vysokou věrnost. Hlavním cílem tohoto článku je poskytnout našim čtenářům komplexní pochopení technických základů a komponent InstantID rámce, protože budeme podrobně zkoumat architekturu modelu, proces školení a scénáře aplikace. Takže pojďme začít.

InstantID: Zero-Shot Identity-Preserving Image Generation

Vývoj text-to-image difuzních modelů přispěl významně k pokroku v technologii generování obrazů. Hlavním cílem těchto modelů je přizpůsobená a personalizovaná generace a vytváření obrazů s konzistentním subjektem, stylem a identitou charakteru pomocí jedné nebo více referenčních obrazů. Schopnost těchto rámců vytvářet konzistentní obrazy vytvořila potenciální aplikace v různých odvětvích, včetně animace obrazů, generování portrétů AI, e-commerce, virtuální a rozšířené reality a mnoho dalších.

Nicméně, navzdory svým pozoruhodným schopnostem, tyto rámce čelí základní výzvě: často se potýkají s generováním přizpůsobených obrazů, které zachovávají jemné detaily lidských subjektů přesně. Je třeba poznamenat, že generování přizpůsobených obrazů s intrinsickými detaily je náročným úkolem, protože lidská identifikace obličeje vyžaduje vyšší stupeň věrnosti a detailů a pokročilejší sémantiku ve srovnání s obecnými objekty nebo styly, které se soustředí primárně na barvy nebo hrubozrnné textury. Existující text-to-image modely závisí na podrobných textových popisech a potýkají se s dosažením silné sémantické relevance pro přizpůsobenou generaci obrazů. Kromě toho, některé velké předškolené text-to-image rámce přidávají prostorové podmínky pro zlepšení ovladatelnosti, usnadňující jemnou strukturální kontrolu pomocí prvků, jako jsou postoje těla, hloubkové mapy, uživatelské kresby, sémantické segmentační mapy a další. Nicméně, navzdory těmto doplňkům a vylepšením, tyto rámce jsou schopny dosáhnout pouze částečné věrnosti generovaného obrazu k referenčnímu obrazu.

Aby se tyto překážky překonaly, InstantID rámec se zaměřuje na okamžitou identitu-preservation syntézu obrazů a snaží se překlenout mezeru mezi efektivitou a vysokou věrností, zaváděním jednoduchého modulu plug and play, který umožňuje rámcu zpracovat personalizaci obrazů pomocí pouze jedné obličeje a zachovat vysokou věrnost. Kromě toho, aby se zachovala identita obličeje z referenčního obrazu, InstantID rámec implementuje novou face encoder, která zachovává jemné obrazové detaily přidáním slabých prostorových a silných sémantických podmínek, které řídí proces generování obrazů, zahrnující textové popisy, landmark obraz a obličejový obraz.

Existují tři rozlišující rysy, které odlišují InstantID rámec od existujících text-to-image generativních rámců.

Kompatibilita a Pluggability: Namísto školení na plné parametry UNet rámce, InstantID rámec se zaměřuje na školení lehkého adaptéru. Jako výsledek, InstantID rámec je kompatibilní a pluggable s existujícími předškolými modely.

Ladění-Free: Metodologie InstantID rámce eliminuje požadavek na jemné ladění, protože vyžaduje pouze jednu přímou propagaci pro inference, což činí model vysoce praktickým a ekonomickým pro jemné ladění.
Superior Performance: InstantID rámec demonstruje vysokou flexibilitu a věrnost, protože je schopen dodat špičkové výsledky pomocí pouze jedné referenční obraz, srovnatelné s metodami založenými na školení, které spoléhají na několik referenčních obrazů.

Celkově, příspěvky InstantID rámce lze kategorizovat do následujících bodů.

InstantID rámec je inovativní, ID-preservation adaptace metoda pro předškolené text-to-image difuzní modely, jejímž cílem je překlenout mezeru mezi efektivitou a věrností.
InstantID rámec je kompatibilní a pluggable s přizpůsobenými předškolými modely, používající stejný difuzní model ve své architektuře, umožňující ID preservation v předškolených modelech bez dalších nákladů.

InstantID: Metodologie a Architektura

Jak bylo zmíněno dříve, InstantID rámec je efektivní lehký adaptér, který vybavuje předškolené text-to-image difuzní modely s ID preservation schopnostmi bez úsilí.

Mluvící o architektuře, InstantID rámec je postaven na základě Stable Diffusion modelu, proslulého svou schopností provádět difuzní proces s vysokou výpočetní efektivitou v nízkorozměrové latentní prostoru místo pixelového prostoru s autoencoderem. Pro vstupní obraz, encoder nejprve mapuje obraz na latentní reprezentaci s downsampling faktorem a latentními rozměry. Kromě toho, aby se odhlukly normálně distribuované hluk s hlukem latentním, podmínkou a aktuálním časovým krokem, difuzní proces přijímá denoising UNet komponent. Podmínka je embedding textových popisu, které jsou generovány pomocí předškoleného CLIP textového encoder komponentu.

Kromě toho, InstantID rámec také využívá ControlNet komponent, který je schopen přidat prostorovou kontrolu k předškolenému difuznímu modelu jako jeho podmínka, sahající daleko za tradiční schopnosti textových popisu. ControlNet komponent také integruje UNet architekturu ze Stable Diffusion rámce pomocí trénovaného repliky UNet komponentu. Replika UNet komponentu má nulové konvoluční vrstvy ve středních blocích a encoder blocích. Přestože se podobají, ControlNet komponent se liší od Stable Diffusion modelu; oba se liší v posledním reziduálním položce. ControlNet komponent kóduje prostorové podmínkové informace, jako jsou postoje, hloubkové mapy, kresby a další, přidáním reziduí do UNet bloku a poté vkládáním těchto reziduí do původní sítě.

InstantID rámec také čerpá inspiraci z IP-Adapteru nebo Image Prompt Adapteru, který představuje novou metodu pro dosažení image prompt schopností, běžících paralelně s textovými popisy, bez nutnosti modifikovat původní text-to-image modely. IP-Adapter komponent také využívá jedinečnou decoupled cross-attention strategii, která používá dodatečné cross-attention vrstvy pro vložení obrazových funkcí, zatímco ponechává ostatní parametry nezměněné.

Metodologie

Abychom vám poskytli stručný přehled, InstantID rámec se zaměřuje na generování přizpůsobených obrazů s různými styly nebo postoji, používající pouze jednu referenční ID obraz s vysokou věrností. Následující obraz poskytuje stručný přehled InstantID rámce.

Jak je patrné, InstantID rámec má tři základní komponenty:

ID embedding komponent, který zachycuje robustní sémantické informace o obličejových funkcích v obraze.
Lehký adaptér s decoupled cross-attention komponentem, který usnadňuje použití obrazu jako vizuálního popisu.
IdentityNet komponent, který kóduje podrobné funkce z referenčního obrazu pomocí dodatečné prostorové kontroly.

ID Embedding

Na rozdíl od existujících metod, jako je FaceStudio, PhotoMaker, IP-Adapter a další, které spoléhají na předškolený CLIP image encoder pro extrakci vizuálních popisu, InstantID rámec se zaměřuje na vylepšenou věrnost a silnější sémantické detaily v ID preservation úkolu. Je třeba poznamenat, že inherentní omezení CLIP komponenty spočívá primárně ve svém tréninkovém procesu na slabě zarovnaných datech, což znamená, že zakódované funkce CLIP encoderu primárně zachycují široké a vágní sémantické informace, jako jsou barvy, styl a kompozice. Přestože tyto funkce mohou sloužit jako obecné doplnění textových embeddingů, nejsou vhodné pro přesné ID preservation úkoly, které kladou velký důraz na silné sémantiky a vysokou věrnost. Kromě toho, recentní výzkum v modelech obličejové reprezentace, zejména v oblasti obličejového rozpoznávání, prokázal efektivitu obličejové reprezentace v komplexních úkolech, včetně obličejové rekonstrukce a rozpoznávání. Budoucí na tomto, InstantID rámec se snaží využít předškolený face model pro detekci a extrakci face ID embeddingů z referenčního obrazu, řídící model pro generování obrazů.

Image Adapter

Schopnost předškolených text-to-image difuzních modelů v image prompting úkolech vylepšuje textové popisy významně, zejména pro scénáře, které nelze dostatečně popsat pomocí textových popisu. InstantID rámec přijímá strategii podobnou té, která je použita v IP-Adapter modelu pro image prompting, která představuje lehký adaptér spojený s decoupled cross-attention komponentem pro podporu obrazů jako vstupních popisu. Nicméně, na rozdíl od hrubě zarovnaných CLIP embeddingů, InstantID rámec se liší tím, že využívá ID embeddingy jako image popisy v pokusu o dosažení sémanticky bohatého a nuancovaného prompt integration.

IdentityNet

Přestože existující metody jsou schopny integrovat image popisy s textovými popisy, InstantID rámec argumentuje, že tyto metody pouze vylepšují hrubozrnné funkce s úrovní integrace, která je nedostatečná pro ID-preservation image generaci. Kromě toho, přidání image a textových tokenů v cross-attention vrstvách přímo má tendenci oslabit kontrolu textových tokenů, a pokus o vylepšení image tokenů může vést k poškození schopností textových tokenů v editačních úkolech. Aby se tyto výzvy překonaly, InstantID rámec volí ControlNet, alternativní metodu pro vkládání funkcí, která využívá prostorové informace jako vstup pro kontrolovatelný modul, umožňující mu zachovat konzistenci s UNet nastavením v difuzních modelech.

InstantID rámec provedl dvě změny v tradiční ControlNet architektuře: pro podmínkové vstupy, InstantID rámec volí 5 obličejových klíčových bodů místo jemných OpenPose obličejových klíčových bodů. Za druhé, InstantID rámec využívá ID embeddingy místo textových popisu jako podmínky pro cross-attention vrstvy v ControlNet architektuře.

Školení a Inference

Během fáze školení, InstantID rámec optimalizuje parametry IdentityNet a Image Adapter, zatímco zmrazí parametry předškoleného difuzního modelu. Celý InstantID pipeline je trénován na image-text párech, které obsahují lidské subjekty, a využívá tréninkový cíl podobný tomu, který je použit v stable difuzním rámci s úkolem specifickými image podmínkami. Hlavní výhodou InstantID tréninkové metody je oddělení mezi image a textovými cross-attention vrstvami v rámci image prompt adapteru, což umožňuje InstantID rámcu upravit váhy těchto image podmínek flexibilně a nezávisle, zajišťující tak cílenější a kontrolovanější inference a tréninkový proces.

InstantID : Experimenty a Výsledky

InstantID rámec implementuje Stable Diffusion a trénuje ho na LAION-Face, velké otevřené datové sadě, která obsahuje více než 50 milionů image-text páru. Kromě toho, InstantID rámec shromažďuje více než 10 milionů lidských obrazů s automaty generovanými automaticky BLIP2 modelem, aby dále vylepšil kvalitu generování obrazů. InstantID rámec se zaměřuje primárně na single-person obrazy a využívá předškolený face model pro detekci a extrakci face ID embeddingů z lidských obrazů, a místo školení ořezaných face dat, trénuje původní lidské obrazy. Kromě toho, během školení, InstantID rámec zmrazí předškolený text-to-image model a aktualizuje pouze parametry IdentityNet a Image Adapter.

Image Only Generation

InstantID model využívá prázdný prompt pro řízení procesu generování obrazů, používající pouze referenční obraz, a výsledky bez popisu jsou demonstrovány v následujícím obraze.

Generování s “prázdným promptem” demonstrováno v obraze výše ukazuje schopnost InstantID rámce zachovat bohaté sémantické obličejové funkce, jako je identita, věk a výraz robustně. Nicméně, je třeba poznamenat, že použití prázdných popisu může být nedostatečné pro replikaci výsledků na jiných sémantikách, jako je pohlaví. Kromě toho, ve výše uvedeném obraze, sloupce 2-4 využívají obraz a prompt, a jak je patrné, generovaný obraz neukazuje žádné zhoršení textové kontroly a také zajišťuje konzistenci identity. Nakonec, sloupce 5-9 využívají obraz, prompt a prostorovou kontrolu, demonstrován kompatibilitu modelu s předškolými prostorovými kontrolními modely, umožňující InstantID modelu flexibilně zavádět prostorovou kontrolu pomocí předškoleného ControlNet komponentu.

Je také třeba poznamenat, že počet referenčních obrazů má významný dopad na generovaný obraz, jak je demonstrováno v obraze výše. Přestože InstantID rámec je schopen dodat dobré výsledky, používající pouze jednu referenční obraz, více referenčních obrazů produkuje lepší kvalitu obrazu, protože InstantID rámec bere průměrnou hodnotu ID embeddingů jako image prompt. Pokračujíc, je esenciální porovnat InstantID rámec s předchozími metodami, které generují personalizované obrazy, používající pouze jednu referenční obraz. Následující obraz porovnává výsledky generované InstantID rámcem a existujícími špičkovými modely pro single reference přizpůsobenou generaci obrazů.

Jak je patrné, InstantID rámec je schopen zachovat obličejové charakteristiky, díky ID embeddingu, který inherentně nese bohaté sémantické informace, jako je identita, věk a pohlaví. Bylo by možné říci, že InstantID rámec překonává existující rámce v přizpůsobené generaci obrazů, protože je schopen zachovat lidskou identitu, zatímco zachovává kontrolu a stylovou flexibilitu.

Závěrečné myšlenky

V tomto článku, jsme hovořili o InstantID, řešení založeném na difuzním modelu pro generování obrazů. InstantID je modul plug and play, který zpracovává generování a personalizaci obrazů adeptně napříč různými styly s pouze jednou referenční obraz a také zajišťuje vysokou věrnost. InstantID rámec se zaměřuje na okamžitou identitu-preservation syntézu obrazů a snaží se překlenout mezeru mezi efektivitou a vysokou věrností, zaváděním jednoduchého modulu plug and play, který umožňuje rámcu zpracovat personalizaci obrazů pomocí pouze jedné obličejové obraz a zachovat vysokou věrnost.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.