Sztuczna inteligencja
InstantID: Generacja z zachowaniem tożsamości w ciągu kilku sekund
Technologia generacji obrazów wspomagana przez sztuczną inteligencję doświadczyła znacznego rozwoju w ciągu ostatnich kilku lat, odkąd duże modele dyfuzyjne tekstu na obraz, takie jak DALL-E, GLIDE, Stable Diffusion, Imagen i wiele innych, pojawiły się na scenie. Pomimo faktu, że modele generacji obrazów AI mają unikalną architekturę i metody szkolenia, wszystkie mają wspólny punkt odniesienia: dostosowaną i personalizowaną generację obrazów, której celem jest tworzenie obrazów o spójnej tożsamości postaci, przedmiotu i stylu na podstawie obrazów referencyjnych. Dzięki swoim wyjątkowym zdolnościom generacyjnym, nowoczesne ramy generacji obrazów AI znalazły zastosowanie w dziedzinach, takich jak animacja obrazu, rzeczywistość wirtualna, handel elektroniczny, portrety AI i wiele innych. Jednak pomimo ich wyjątkowych zdolności generacyjnych, wszystkie te ramy mają wspólną przeszkodę, większość z nich nie jest w stanie generować dostosowanych obrazów, zachowując delikatne szczegóły tożsamości obiektów ludzkich.
Generowanie dostosowanych obrazów, zachowując szczegóły, jest sprawą o krytycznym znaczeniu, szczególnie w zadaniach tożsamości twarzy, które wymagają wysokiego poziomu wierności i szczegółowości, a także nuansów semantyki w porównaniu z zadania generacji obrazów ogólnych, które koncentrują się głównie na teksturach i kolorach. Ponadto, ramy syntezy obrazów personalizowanych w ostatnich latach, takie jak LoRA, DreamBooth, Textual Inversion i wiele innych, znacznie się rozwinęły. Jednak modele generacji obrazów personalizowanych są nadal nieidealne do wdrożenia w scenariuszach rzeczywistych, ponieważ mają wysokie wymagania dotyczące przechowywania, wymagają wielu obrazów referencyjnych i często mają długi proces dostrajania. Z drugiej strony, chociaż istniejące metody oparte na ID-embedding wymagają tylko jednej referencyjnej propagacji do przodu, albo nie są kompatybilne z pre-trenowanymi modelami publicznie dostępnymi, albo wymagają nadmiernego procesu dostrajania na licznych parametrach, albo nie są w stanie utrzymać wysokiej wierności twarzy.
Aby rozwiązać te wyzwania i dalej poprawić możliwości generacji obrazów, w tym artykule będziemy rozmawiać o InstantID, rozwiązaniu opartym na modelu dyfuzyjnym do generacji obrazów. InstantID jest modułem plug and play, który zajmuje się generacją i personalizacją obrazów w różnych stylach z tylko jednym obrazem referencyjnym i zapewnia wysoką wierność. Głównym celem tego artykułu jest zapewnienie czytelnikom dogłębnego zrozumienia technicznych podstaw i komponentów ramy InstantID, gdyż będziemy mieli szczegółowy ogląd architektury modelu, procesu szkolenia i scenariuszy zastosowań. Zatem zacznijmy.
InstantID: Generacja obrazów z zachowaniem tożsamości w ciągu kilku sekund
Pojawienie się modeli dyfuzyjnych tekstu na obraz przyczyniło się znacznie do rozwoju technologii generacji obrazów. Głównym celem tych modeli jest generacja dostosowana i personalizowana, a także tworzenie obrazów o spójnej tożsamości, stylu i przedmiocie przy użyciu jednego lub więcej obrazów referencyjnych. Możliwość tych ram generowania spójnych obrazów stworzyła potencjalne zastosowania w różnych branżach, w tym animacji obrazu, generacji portretów AI, handlu elektronicznym, rzeczywistości wirtualnej i augmentowanej, i wiele innych.
Jednak pomimo ich wyjątkowych zdolności, te ramy napotykają na podstawowe wyzwanie: często mają trudności z generowaniem dostosowanych obrazów, które zachowują delikatne szczegóły obiektów ludzkich. Warto zauważyć, że generowanie dostosowanych obrazów z szczegółami jest zadaniem trudnym, ponieważ tożsamość twarzy wymaga wyższego poziomu wierności i szczegółowości, a także bardziej zaawansowanej semantyki w porównaniu z ogólnymi obiektami lub stylami, które koncentrują się głównie na kolorach lub teksturach. Istniejące modele tekstu na obraz opierają się na szczegółowych opisach tekstowych i mają trudności w osiąganiu silnej relewancji semantycznej dla generacji obrazów dostosowanych. Ponadto, niektóre duże pre-trenowane ramy tekstu na obraz dodają kontrolę warunkową, aby poprawić sterowalność, ułatwiając kontrolę strukturalną z wykorzystaniem elementów takich jak pozy twarzy, mapy głębi, rysunki użytkownika, mapy segmentacji semantycznej i wiele innych. Jednak pomimo tych dodatków i ulepszeń, te ramy są w stanie osiągnąć tylko częściową wierność generowanego obrazu do obrazu referencyjnego.
Aby pokonać te przeszkody, rama InstantID koncentruje się na natychmiastowej syntezie obrazów z zachowaniem tożsamości i próbuje zlikwidować lukę między wydajnością a wysoką wiernością, wprowadzając prosty moduł plug and play, który pozwala ramie na obsługę personalizacji obrazów przy użyciu tylko jednego obrazu twarzy, zachowując wysoką wierność. Ponadto, aby zachować tożsamość twarzy z obrazu referencyjnego, rama InstantID wdraża nowy enkoder twarzy, który zachowuje delikatne szczegóły obrazu, dodając słabe warunki przestrzenne i silne warunki semantyczne, które kierują procesem generacji obrazu, uwzględniając tekstowe prompty, obraz twarzy i inne.
Istnieją trzy wyróżniające się cechy, które odróżniają ramę InstantID od istniejących ram generacji obrazów tekstu.
- Kompatybilność i wtyczka: Zamiast szkolić pełne parametry ramy UNet, rama InstantID koncentruje się na szkoleniu lekkiego adaptera. W efekcie, rama InstantID jest kompatybilna i wtyczkowa z pre-trenowanymi modelami.
- Bez dostrajania: Metodologia ramy InstantID eliminuje wymóg dostrajania, ponieważ wymaga tylko jednej propagacji do przodu dla inferencji, co czyni model bardzo praktycznym i ekonomicznym do dostrajania.
- Wyższa wydajność: Rama InstantID demonstruje wysoką elastyczność i wierność, ponieważ jest w stanie dostarczyć wyniki na poziomie stanu techniki, używając tylko jednego obrazu referencyjnego, porównywalnego do metod opartych na szkoleniu, które polegają na wielu obrazach referencyjnych.
Ogólnie, wkład ramy InstantID można podzielić na następujące punkty.
- Rama InstantID jest innowacyjną, zachowującą tożsamość metodą adaptacji dla pre-trenowanych modeli dyfuzyjnych tekstu na obraz, mającą na celu zlikwidowanie luki między wydajnością a wiernością.
- Rama InstantID jest kompatybilna i wtyczkowa z modelami dostosowanymi przy użyciu tego samego modelu dyfuzyjnego w swojej architekturze, co pozwala na zachowanie tożsamości w pre-trenowanych modelach bez dodatkowych kosztów.
InstantID: Metodologia i Architektura
Jak wcześniej wspomniano, rama InstantID jest wydajnym, lekkim adapterem, który nadaje pre-trenowanym modelom dyfuzyjnym tekstu na obraz zdolność zachowania tożsamości.
Mówiąc o architekturze, rama InstantID jest zbudowana na podstawie modelu Stable Diffusion, znanego z możliwości wykonania procesu dyfuzyjnego z wysoką efektywnością obliczeniową w niskowymiarowej przestrzeni latentnej zamiast przestrzeni pikseli z auto-encoderem. Dla wejściowego obrazu, enkoder najpierw mapuje obraz na latentną reprezentację z czynnikiem próbkowania i wymiarami latentnymi. Ponadto, aby zdenazyfikować normalnie rozłożony szum z hałaśliwym latentem, warunkiem i bieżącym czasem, proces dyfuzyjny przyjmuje składnik denoising UNet. Warunek jest embedowaniem tekstowych prompty, które są generowane przy użyciu pre-trenowanego enkodera tekstu CLIP.
Ponadto, rama InstantID wykorzystuje również składnik ControlNet, który jest w stanie dodać kontrolę przestrzenną do pre-trenowanego modelu dyfuzyjnego jako warunek, idąc znacznie dalej niż tradycyjne możliwości prompty tekstowych. Składnik ControlNet integruje również architekturę UNet z ramy Stable Diffusion, używając wyuczonej repliki składnika UNet. Replika składnika UNet ma zero warstw konwolucyjnych w bloku środkowym i bloku enkodera. Pomimo ich podobieństwa, składnik ControlNet różni się od modelu Stable Diffusion; oba różnią się w pozostałych elementach resztowych. Składnik ControlNet koduje informacje warunkowe przestrzenne, takie jak pozy, mapy głębi, szkice i wiele innych, dodając reszty do bloku UNet, a następnie osadzając te reszty w oryginalnej sieci.
Rama InstantID czerpie również inspirację z IP-Adapter lub Image Prompt Adapter, który wprowadza nowy sposób osiągania zdolności prompty obrazu, działający równolegle z promptami tekstowymi bez konieczności modyfikowania oryginalnych modeli tekstu na obraz. Składnik IP-Adapter wykorzystuje również unikalną strategię uwagi krzyżowej, która używa dodatkowych warstw uwagi krzyżowej, aby osadzić cechy obrazu, pozostawiając niezmienione pozostałe parametry.
Metodologia
Aby dać krótkie podsumowanie, rama InstantID ma na celu generowanie dostosowanych obrazów z różnymi stylami lub pozami, używając tylko jednego obrazu referencyjnego z wysoką wiernością. Poniższy rysunek daje ogólne podsumowanie ramy InstantID.

Jak można zauważyć, rama InstantID ma trzy podstawowe składniki:
- Składnik ID embedding, który przechwytuje silną informację semantyczną cech twarzy w obrazie.
- Lekki adapter z składnikiem uwagi krzyżowej, aby ułatwić użycie obrazu jako promtu wizualnego.
- Składnik IdentityNet, który koduje szczegółowe cechy z obrazu referencyjnego, używając dodatkowej kontroli przestrzennej.
ID Embedding
W przeciwieństwie do istniejących metod, takich jak FaceStudio, PhotoMaker, IP-Adapter i wiele innych, które polegają na pre-trenowanym enkoderze obrazu CLIP, aby wyodrębnić prompty wizualne, rama InstantID koncentruje się na poprawionej wierności i silniejszych szczegółach semantycznych w zadaniu zachowania tożsamości. Warto zauważyć, że wewnętrzne ograniczenia składnika CLIP leżą głównie w jego procesie szkolenia na słabo wyrównanych danych, co oznacza, że zakodowane cechy enkodera CLIP przechwytują głównie ogólne i niejasne informacje semantyczne, takie jak kolory, styl i kompozycja. Chociaż te cechy mogą działać jako ogólne uzupełnienie embedowanych tekstów, nie są one odpowiednie do precyzyjnych zadań zachowania tożsamości, które kładą duży nacisk na silną semantykę i wysoką wierność. Ponadto, ostatnie badania w dziedzinie modeli reprezentacji twarzy, szczególnie wokół rozpoznawania twarzy, wykazały skuteczność reprezentacji twarzy w złożonych zadaniach, w tym rekonstrukcji i rozpoznawaniu twarzy. Budując na tym, rama InstantID stara się wykorzystać pre-trenowany model twarzy, aby wykryć i wyodrębnić embedingi ID z obrazu referencyjnego, kierując modelem generacji obrazu.
Image Adapter
Zdolność pre-trenowanych modeli dyfuzyjnych tekstu na obraz w zadaniach prompty obrazu znacznie poprawia prompty tekstowe, szczególnie w scenariuszach, które nie mogą być odpowiednio opisane przez prompty tekstowe. Rama InstantID przyjmuje strategię podobną do tej użytej przez model IP-Adapter do prompty obrazu, który wprowadza lekki adapter z składnikiem uwagi krzyżowej, aby wspierać obrazy jako prompty wejściowe. Jednak w przeciwieństwie do niejasno wyrównanych embedowanych CLIP, rama InstantID odbiega, używając embedingów ID jako prompty obrazu, aby osiągnąć semantycznie bogatsze i bardziej nuansowane integrowanie prompty.
IdentityNet
Chociaż istniejące metody są w stanie zintegrować prompty obrazu z promptami tekstowymi, rama InstantID twierdzi, że te metody tylko poprawiają cechy ogólne, a poziom integracji jest niewystarczający do generacji obrazów z zachowaniem tożsamości. Ponadto, dodawanie tokenów obrazu i tekstu w warstwach uwagi krzyżowej bezpośrednio tendencję do osłabiania kontroli tokenów tekstowych, a próba wzmocnienia tokenów obrazu może skutkować osłabieniem zdolności tokenów tekstowych w zadaniach edycyjnych. Aby przeciwdziałać tym wyzwaniom, rama InstantID optymalizuje alternatywną metodę osadzania cech, ControlNet, która wykorzystuje informacje przestrzenne jako dane wejściowe dla modułu sterowanego, pozwalając na utrzymanie spójności z ustawieniami UNet w modelach dyfuzyjnych.
Rama InstantID wprowadza dwie zmiany w tradycyjnej architekturze ControlNet: dla danych wejściowych warunkowych, rama InstantID optymalizuje 5 punktów kluczowych twarzy zamiast drobnoziarnistych punktów kluczowych twarzy OpenPose. Po drugie, rama InstantID używa embedingów ID zamiast prompty tekstowych jako warunki dla warstw uwagi krzyżowej w architekturze ControlNet.
Szkolenie i Inferencja
Podczas fazy szkolenia, rama InstantID optymalizuje parametry składników IdentityNet i Image Adapter, zamykając parametry pre-trenowanego modelu dyfuzyjnego. Cała rama InstantID jest szkolona na parach obrazu i tekstu, które zawierają obiekty ludzkie, i wykorzystuje cel szkolenia podobny do tego użytego w ramie stabilnej dyfuzyjnej z warunkami obrazu specyficznych dla zadania. Wyróżniającą się cechą metody szkolenia InstantID jest separacja między warstwami uwagi krzyżowej obrazu i tekstu w adapterze prompty obrazu, co pozwala ramie InstantID na elastyczne i niezależne dostosowanie wag tych warunków obrazu, zapewniając bardziej ukierunkowany i kontrolowany proces inferencji i szkolenia.
InstantID: Eksperymenty i Wyniki
Rama InstantID wdraża model Stable Diffusion i szkoli go na LAION-Face, dużym, otwartym zbiorze danych składającym się z ponad 50 milionów par obrazu i tekstu. Dodatkowo, rama InstantID zbiera ponad 10 milionów obrazów ludzi z automatycznie wygenerowanymi promptami BLIP2, aby dalej poprawić jakość generacji obrazu. Rama InstantID koncentruje się głównie na obrazach jednej osoby i wykorzystuje pre-trenowany model twarzy, aby wykryć i wyodrębnić embedingi ID z obrazów ludzkich, zamiast szkolić obcięte zbiory danych twarzy. Ponadto, podczas szkolenia, rama InstantID zamyka pre-trenowany model tekstu na obraz i aktualizuje tylko parametry składników IdentityNet i Image Adapter.
Generacja Obrazu Tylko
Model InstantID używa pustego promtu, aby skierować proces generacji obrazu, używając tylko obrazu referencyjnego, a wyniki bez prompty są demonstrowane na poniższym obrazie.

Generacja z pustym promtem, jak pokazano na powyższym obrazie, demonstruje zdolność ramy InstantID do utrzymania bogatych cech semantycznych, takich jak tożsamość, wiek i wyrażenie, w sposób pewny. Jednak warto zauważyć, że używanie pustych prompty może nie być w stanie odtworzyć wyników w innych semantykach, takich jak płeć, w sposób dokładny. Ponadto, na powyższym obrazie, kolumny 2 do 4 używają obrazu i promtu, a jak widać, wygenerowany obraz nie demonstruje żadnego pogorszenia zdolności kontroli tekstu, a także zapewnia spójność tożsamości. Wreszcie, kolumny 5 do 9 używają obrazu, promtu i kontroli przestrzennej, demonstrując kompatybilność modelu z pre-trenowanymi modelami kontroli przestrzennej, pozwalając modelowi InstantID na elastyczne wprowadzanie kontroli przestrzennej z wykorzystaniem pre-trenowanego składnika ControlNet.

Warto również zauważyć, że liczba obrazów referencyjnych ma znaczący wpływ na wygenerowany obraz, jak pokazano na powyższym obrazie. Chociaż rama InstantID jest w stanie dostarczyć dobre wyniki, używając tylko jednego obrazu referencyjnego, wiele obrazów referencyjnych produkuje lepszą jakość obrazu, ponieważ rama InstantID bierze średnią wartość embedingów ID jako promtu obrazu. Przechodząc dalej, istotne jest porównanie ramy InstantID z poprzednimi metodami, które generują obrazy personalizowane, używając tylko jednego obrazu referencyjnego. Poniższy rysunek porównuje wyniki wygenerowane przez ramę InstantID i istniejące modele stanu techniki dla generacji obrazów dostosowanych z jednym obrazem referencyjnym.

Jak widać, rama InstantID jest w stanie zachować cechy twarzy dzięki embedingom ID, które nieśli same w sobie bogatą informację semantyczną, taką jak tożsamość, wiek i płeć. Można bezpiecznie powiedzieć, że rama InstantID przewyższa istniejące ramy w generacji obrazów dostosowanych, ponieważ jest w stanie zachować tożsamość ludzką, utrzymując kontrolę i elastyczność stylistyczną.

Podsumowanie
W tym artykule rozmawialiśmy o InstantID, rozwiązaniu opartym na modelu dyfuzyjnym do generacji obrazów. InstantID jest modułem plug and play, który zajmuje się generacją i personalizacją obrazów w różnych stylach z tylko jednym obrazem referencyjnym i zapewnia wysoką wierność. Rama InstantID koncentruje się na natychmiastowej syntezie obrazów z zachowaniem tożsamości i próbuje zlikwidować lukę między wydajnością a wysoką wiernością, wprowadzając prosty moduł plug and play, który pozwala ramie na obsługę personalizacji obrazów przy użyciu tylko jednego obrazu twarzy, zachowując wysoką wierność.










