Artificial Intelligence

InstantID: generowanie tożsamości zachowującej tożsamość w kilka sekund

Opublikowany

2 miesięcy temu

12 marca 2024 r.

Technologia generowania obrazu oparta na sztucznej inteligencji odnotowała niezwykły rozwój w ciągu ostatnich kilku lat, odkąd na scenie pojawiły się duże modele dyfuzji tekstu na obraz, takie jak DALL-E, GLIDE, Stable Diffusion, Imagen i inne. Pomimo faktu, że modele AI do generowania obrazów mają unikalną architekturę i metody uczenia, wszystkie mają wspólny punkt centralny: niestandardowe i spersonalizowane generowanie obrazów, którego celem jest tworzenie obrazów o spójnym identyfikatorze postaci, temacie i stylu na podstawie obrazów referencyjnych. Dzięki swoim niezwykłym możliwościom generacyjnym nowoczesne platformy AI do generowania obrazów znalazły zastosowanie w takich dziedzinach, jak animacja obrazu, rzeczywistość wirtualna, handel elektroniczny, portrety AI i nie tylko. Jednak pomimo ich niezwykłych możliwości generacyjnych, wszystkie te struktury mają wspólną przeszkodę: większość z nich nie jest w stanie generować niestandardowych obrazów, zachowując jednocześnie delikatne szczegóły tożsamości obiektów ludzkich.

Generowanie niestandardowych obrazów przy jednoczesnym zachowaniu skomplikowanych szczegółów ma kluczowe znaczenie, zwłaszcza w przypadku zadań związanych z identyfikacją twarzy, które wymagają wysokiego standardu wierności i szczegółowości oraz dopracowanej semantyki w porównaniu z ogólnymi zadaniami generowania obrazów obiektów, które koncentrują się głównie na gruboziarnistych teksturach i kolorach. Co więcej, w ostatnich latach platformy spersonalizowanej syntezy obrazu, takie jak LoRA, DreamBooth, Textual Inversion i inne, znacznie się rozwinęły. Jednak spersonalizowane modele sztucznej inteligencji generujące obrazy nadal nie są idealne do wdrożenia w rzeczywistych scenariuszach, ponieważ mają duże wymagania dotyczące pamięci masowej, wymagają wielu obrazów referencyjnych i często wymagają długiego procesu dostrajania. Z drugiej strony, chociaż istniejące metody oparte na osadzaniu identyfikatorów wymagają tylko jednego odniesienia do przodu, albo brakuje im kompatybilności z publicznie dostępnymi, wstępnie wytrenowanymi modelami, albo wymagają nadmiernego procesu dostrajania wielu parametrów, albo nie utrzymują wysokich wierność twarzy.

Aby sprostać tym wyzwaniom i jeszcze bardziej ulepszyć możliwości generowania obrazów, w tym artykule będziemy mówić o InstantID, rozwiązaniu do generowania obrazów opartym na modelu dyfuzji. InstantID to moduł typu plug and play, który skutecznie obsługuje generowanie i personalizację obrazów w różnych stylach za pomocą tylko jednego obrazu referencyjnego, a także zapewnia wysoką wierność. Głównym celem tego artykułu jest zapewnienie naszym czytelnikom dokładnego zrozumienia podstaw technicznych i komponentów platformy InstantID, ponieważ będziemy mieli szczegółowy wgląd w architekturę modelu, proces uczenia i scenariusze aplikacji. Więc zacznijmy.

InstantID: generowanie obrazu zachowującego tożsamość bez użycia strzału

Pojawienie się modeli dyfuzji tekstu na obraz znacząco przyczyniło się do rozwoju technologii generowania obrazów. Głównym celem tych modeli jest spersonalizowane i osobiste generowanie oraz tworzenie obrazów o spójnym temacie, stylu i identyfikatorze postaci przy użyciu jednego lub większej liczby obrazów referencyjnych. Zdolność tych struktur do tworzenia spójnych obrazów stworzyła potencjalne zastosowania w różnych branżach, w tym w animacji obrazu, generowaniu portretów AI, handlu elektronicznym, rzeczywistości wirtualnej i rozszerzonej i wielu innych.

Jednak pomimo swoich niezwykłych możliwości, struktury te stoją przed zasadniczym wyzwaniem: często mają trudności z generowaniem niestandardowych obrazów, które dokładnie zachowują skomplikowane szczegóły ludzkich obiektów. Warto zauważyć, że generowanie niestandardowych obrazów zawierających istotne szczegóły jest trudnym zadaniem, ponieważ tożsamość ludzkiej twarzy wymaga wyższego stopnia wierności i szczegółowości oraz bardziej zaawansowanej semantyki w porównaniu z ogólnymi obiektami lub stylami, które skupiają się głównie na kolorach lub gruboziarnistych teksturach. Istniejące modele zamiany tekstu na obraz opierają się na szczegółowych opisach tekstowych i mają trudności z osiągnięciem silnego znaczenia semantycznego na potrzeby generowania niestandardowych obrazów. Co więcej, niektóre duże, wstępnie wytrenowane struktury tekstu na obraz dodają elementy sterujące warunkowaniem przestrzennym, aby zwiększyć sterowalność, ułatwiając precyzyjną kontrolę strukturalną przy użyciu takich elementów, jak pozy ciała, mapy głębi, szkice rysowane przez użytkownika, mapy segmentacji semantycznej i nie tylko. Jednak pomimo tych dodatków i ulepszeń, struktury te są w stanie osiągnąć jedynie częściową wierność wygenerowanego obrazu z obrazem referencyjnym.

Aby pokonać te przeszkody, platforma InstantID skupia się na natychmiastowej syntezie obrazów zachowującej tożsamość i próbuje wypełnić lukę między wydajnością a wysoką wiernością, wprowadzając prosty moduł typu plug and play, który umożliwia platformie obsługę personalizacji obrazu przy użyciu tylko jednego obrazu twarzy przy zachowaniu wysokiej wierności. Co więcej, aby zachować tożsamość twarzy na podstawie obrazu referencyjnego, platforma InstantID implementuje nowatorski koder twarzy, który zachowuje skomplikowane szczegóły obrazu, dodając słabe warunki przestrzenne i silne warunki semantyczne, które kierują procesem generowania obrazu poprzez uwzględnienie podpowiedzi tekstowych, obrazu charakterystycznego i obrazu twarzy .

Istnieją trzy wyróżniające cechy, które oddzielają platformę InstantID od istniejących platform generowania tekstu na obraz.

Kompatybilność i możliwość podłączania: Zamiast trenować pełne parametry platformy UNet, platforma InstantID koncentruje się na szkoleniu lekkiego adaptera. W rezultacie platforma InstantID jest kompatybilna i można ją podłączyć do istniejących, wstępnie wyszkolonych modeli.

Bez strojenia: Metodologia struktury InstantID eliminuje wymóg dostrajania, ponieważ do wnioskowania wymaga tylko jednej propagacji w przód, co czyni model wysoce praktycznym i ekonomicznym w dostrajaniu.
Doskonała wydajność: Struktura InstantID charakteryzuje się dużą elastycznością i wiernością, ponieważ jest w stanie zapewnić najnowocześniejszą wydajność przy użyciu tylko jednego obrazu referencyjnego, porównywalnego z metodami opartymi na szkoleniu, które opierają się na wielu obrazach referencyjnych.

Ogólnie rzecz biorąc, wkład platformy InstantID można podzielić na następujące punkty.

Struktura InstantID to innowacyjna, zachowująca identyfikator metoda adaptacji dla wstępnie wyszkolonych modeli dyfuzji tekstu na obraz, mająca na celu wypełnienie luki między wydajnością a wiernością.
Platforma InstantID jest kompatybilna i można ją podłączać do niestandardowych, precyzyjnie dostrojonych modeli wykorzystujących w swojej architekturze ten sam model dyfuzji, co pozwala na zachowanie identyfikatorów we wstępnie wyszkolonych modelach bez żadnych dodatkowych kosztów.

InstantID: Metodologia i architektura

Jak wspomniano wcześniej, platforma InstantID to wydajny, lekki adapter, który bez wysiłku udostępnia wstępnie wyszkolonym modelom rozpowszechniania tekstu na obraz funkcje zachowywania identyfikatorów.

Mówiąc o architekturze, platforma InstantID jest zbudowana na bazie Model stabilnej dyfuzji, znany ze swojej zdolności do przeprowadzania procesu dyfuzji z wysoką wydajnością obliczeniową w niskowymiarowej przestrzeni utajonej zamiast w przestrzeni pikseli za pomocą automatycznego kodera. W przypadku obrazu wejściowego koder najpierw odwzorowuje obraz na ukrytą reprezentację ze współczynnikiem próbkowania w dół i ukrytymi wymiarami. Co więcej, aby odszumić szum o rozkładzie normalnym za pomocą szumu utajonego, stanu i bieżącego kroku czasowego, w procesie dyfuzji wykorzystuje się składnik odszumiający UNet. Warunkiem jest osadzenie podpowiedzi tekstowych generowanych przy użyciu wstępnie przeszkolonego komponentu kodera tekstu CLIP.

Co więcej, platforma InstantID wykorzystuje również komponent ControlNet, który może dodać kontrolę przestrzenną do wstępnie wytrenowanego modelu dyfuzji jako warunek, wykraczając daleko poza tradycyjne możliwości podpowiedzi tekstowych. Komponent ControlNet integruje również architekturę UNet ze środowiska Stable Diffusion przy użyciu wyszkolonej replikacji komponentu UNet. Replika komponentu UNet zawiera zerowe warstwy splotu w blokach środkowych i blokach kodera. Pomimo podobieństw komponent ControlNet różni się od modelu Stable Diffusion; oba różnią się tym ostatnim elementem resztkowym. Komponent ControlNet koduje informacje o warunkach przestrzennych, takie jak pozy, mapy głębokości, szkice i inne, dodając reszty do bloku UNet, a następnie osadza te pozostałości w oryginalnej sieci.

Struktura InstantID czerpie także inspirację z adaptera IP lub adaptera Image Prompt Adapter, który wprowadza nowatorskie podejście do uzyskiwania funkcji podpowiedzi obrazowych działających równolegle z podpowiedziami tekstowymi bez konieczności modyfikowania oryginalnego modelu tekstu na obraz. Komponent IP-Adapter wykorzystuje również unikalną strategię oddzielenia uwagi, która wykorzystuje dodatkowe warstwy wzajemnej uwagi w celu osadzenia cech obrazu, pozostawiając inne parametry bez zmian.

Metodologia

Aby dać krótki przegląd, platforma InstantID ma na celu generowanie niestandardowych obrazów o różnych stylach i pozach przy użyciu tylko jednego obrazu identyfikatora referencyjnego o wysokiej wierności. Poniższy rysunek w skrócie przedstawia przegląd struktury InstantID.

Jak można zauważyć, framework InstantID składa się z trzech zasadniczych komponentów:

Komponent osadzający identyfikator, który przechwytuje szczegółowe informacje semantyczne o rysach twarzy na obrazie.
Lekki moduł z oddzielonym komponentem wzajemnej uwagi, ułatwiający użycie obrazu jako podpowiedzi wizualnej.
Komponent IdentityNet, który koduje szczegółowe funkcje z obrazu referencyjnego przy użyciu dodatkowej kontroli przestrzennej.

Osadzanie identyfikatora

W przeciwieństwie do istniejących metod, takich jak FaceStudio, PhotoMaker, IP-Adapter i innych, które opierają się na wstępnie wytrenowanym koderze obrazu CLIP w celu wyodrębnienia podpowiedzi wizualnych, platforma InstantID skupia się na zwiększonej wierności i silniejszych szczegółach semantycznych w zadaniu zachowania identyfikatora. Warto zauważyć, że nieodłączne ograniczenia komponentu CLIP polegają przede wszystkim na procesie uczenia na słabo dopasowanych danych, co oznacza, że zakodowane funkcje kodera CLIP przechwytują przede wszystkim szerokie i niejednoznaczne informacje semantyczne, takie jak kolory, styl i kompozycja. Chociaż te funkcje mogą działać jako ogólne uzupełnienie osadzania tekstu, nie nadają się do precyzyjnych zadań zachowywania identyfikatorów, które kładą duży nacisk na silną semantykę i wysoką wierność. Co więcej, ostatnie badania nad modelami reprezentacji twarzy, szczególnie w zakresie rozpoznawania twarzy, wykazały skuteczność reprezentacji twarzy w złożonych zadaniach, w tym rekonstrukcji i rozpoznawaniu twarzy. Opierając się na tym samym, platforma InstantID ma na celu wykorzystanie wstępnie wytrenowanego modelu twarzy do wykrywania i wyodrębniania osadzonych identyfikatorów twarzy z obrazu referencyjnego, kierując modelem do generowania obrazu.

Adapter obrazu

Zdolność wstępnie wytrenowane modele dyfuzji tekstu na obraz w zadaniach podpowiedzi obrazowych znacznie ulepsza podpowiedzi tekstowe, szczególnie w przypadku scenariuszy, których nie można odpowiednio opisać za pomocą podpowiedzi tekstowych. Struktura InstantID przyjmuje strategię przypominającą tę używaną przez model IP-Adapter do podpowiedzi obrazowych, która wprowadza lekki moduł adaptacyjny w połączeniu z oddzielonym komponentem wzajemnej uwagi w celu obsługi obrazów jako podpowiedzi wejściowych. Jednak w przeciwieństwie do osadzania zgrubnie wyrównanego CLIP, platforma InstantID różni się, wykorzystując osadzanie identyfikatorów w miarę monitów obrazu, próbując osiągnąć bogatą semantycznie i bardziej zniuansowaną integrację podpowiedzi.

Sieć tożsamości

Chociaż istniejące metody umożliwiają integrację podpowiedzi graficznych z podpowiedziami tekstowymi, platforma InstantID twierdzi, że metody te ulepszają jedynie gruboziarniste funkcje przy poziomie integracji, który jest niewystarczający do generowania obrazów zachowujących identyfikator. Co więcej, dodanie tokenów obrazu i tekstu do warstw wzajemnej uwagi bezpośrednio osłabia kontrolę nad tokenami tekstowymi, a próba zwiększenia siły tokenów obrazu może skutkować pogorszeniem możliwości tokenów tekstowych w zadaniach edycyjnych. Aby stawić czoła tym wyzwaniom, platforma InstantID wybiera ControlNet, alternatywną metodę osadzania funkcji, która wykorzystuje informacje przestrzenne jako dane wejściowe dla sterowalnego modułu, umożliwiając mu zachowanie spójności z ustawieniami UNet w modelach dyfuzji.

Struktura InstantID wprowadza dwie zmiany w stosunku do tradycyjnej architektury ControlNet: w przypadku danych wejściowych warunkowych platforma InstantID wybiera 5 punktów kluczowych dotyczących twarzy zamiast drobnoziarnistych punktów kluczowych dotyczących twarzy OpenPose. Po drugie, platforma InstantID wykorzystuje osadzanie identyfikatorów zamiast podpowiedzi tekstowych jako warunki dla warstw wzajemnej uwagi w architekturze ControlNet.

Trening i wnioskowanie

W fazie uczenia platforma InstantID optymalizuje parametry sieci IdentityNet i adaptera obrazu, jednocześnie zamrażając parametry wstępnie wytrenowanego modelu dyfuzji. Cały potok InstantID jest szkolony na parach obraz-tekst przedstawiających ludzi i wykorzystuje cel szkoleniowy podobny do tego stosowanego w stabilnej strukturze rozpowszechniania z warunkami obrazu specyficznymi dla zadania. Najważniejszym elementem metody szkoleniowej InstantID jest oddzielenie warstw wzajemnej uwagi obrazu i tekstu w adapterze podpowiedzi obrazu, co pozwala platformie InstantID na elastyczne i niezależne dostosowywanie wag tych warunków obrazu, zapewniając w ten sposób bardziej ukierunkowane i kontrolowane proces wnioskowania i uczenia się.

InstantID: Eksperymenty i wyniki

Platforma InstantID implementuje Stable Diffusion i uczy ją na LAION-Face, wielkoskalowym zbiorze danych typu open source składającym się z ponad 50 milionów par obraz-tekst. Dodatkowo platforma InstantID gromadzi ponad 10 milionów obrazów ludzkich z automatyzacją generowaną automatycznie przez model BLIP2 w celu dalszej poprawy jakości generowania obrazów. Struktura InstantID skupia się głównie na obrazach pojedynczych osób i wykorzystuje wstępnie wyszkolony model twarzy do wykrywania i wyodrębniania osadzonych identyfikatorów twarzy z obrazów ludzkich, zamiast trenować przycięte zbiory danych twarzy, trenując oryginalne obrazy ludzi. Co więcej, podczas szkolenia platforma InstantID zamraża wstępnie wyszkolony model tekstu na obraz i aktualizuje jedynie parametry IdentityNet i Image Adapter.

Generowanie tylko obrazu

Model InstantID wykorzystuje pusty monit do kierowania procesem generowania obrazu przy użyciu wyłącznie obrazu referencyjnego, a wyniki bez monitów pokazano na poniższej ilustracji.

Generowanie „Empty Prompt”, jak pokazano na powyższym obrazku, demonstruje zdolność struktury InstantID do niezawodnego utrzymywania bogatych semantycznych cech twarzy, takich jak tożsamość, wiek i ekspresja. Warto jednak zauważyć, że użycie pustych podpowiedzi może nie pozwolić na dokładne odtworzenie wyników w przypadku innych parametrów semantycznych, takich jak płeć. Co więcej, na powyższym obrazku kolumny od 2 do 4 wykorzystują obraz i zachętę, a jak widać, wygenerowany obraz nie wykazuje żadnego pogorszenia możliwości kontroli tekstu, a także zapewnia spójność tożsamości. Na koniec kolumny od 5 do 9 wykorzystują obraz, podpowiedź i kontrolę przestrzenną, demonstrując zgodność modelu ze wstępnie wytrenowanymi modelami kontroli przestrzennej, umożliwiając modelowi InstantID elastyczne wprowadzanie kontroli przestrzennej przy użyciu wstępnie wytrenowanego komponentu ControlNet.

Warto również zaznaczyć, że ilość obrazów referencyjnych ma istotny wpływ na wygenerowany obraz, co widać na powyższym obrazku. Chociaż platforma InstantID jest w stanie zapewnić dobre wyniki przy użyciu pojedynczego obrazu referencyjnego, wiele obrazów referencyjnych daje obraz lepszej jakości, ponieważ platforma InstantID przyjmuje średnią średnią osadzonych identyfikatorów jako monit obrazu. Idąc dalej, istotne jest porównanie frameworku InstantID z poprzednimi metodami, które generują spersonalizowane obrazy przy użyciu pojedynczego obrazu referencyjnego. Poniższy rysunek porównuje wyniki wygenerowane przez platformę InstantID i istniejące, najnowocześniejsze modele generowania niestandardowych obrazów z pojedynczym odniesieniem.

Jak widać, framework InstantID jest w stanie zachować cechy twarzy dzięki osadzaniu identyfikatora, który z natury niesie ze sobą bogate informacje semantyczne, takie jak tożsamość, wiek i płeć. Można śmiało powiedzieć, że platforma InstantID przewyższa istniejące platformy w generowaniu niestandardowych obrazów, ponieważ jest w stanie zachować ludzką tożsamość, zachowując jednocześnie kontrolę i elastyczność stylistyczną.

Final Thoughts

W tym artykule omówiliśmy InstantID, rozwiązanie oparte na modelu dyfuzji do generowania obrazów. InstantID to moduł typu plug and play, który skutecznie obsługuje generowanie i personalizację obrazów w różnych stylach za pomocą tylko jednego obrazu referencyjnego, a także zapewnia wysoką wierność. Struktura InstantID koncentruje się na natychmiastowej syntezie obrazu zachowującej tożsamość i próbuje wypełnić lukę między wydajnością a wysoką wiernością, wprowadzając prosty moduł typu plug and play, który umożliwia platformie obsługę personalizacji obrazu przy użyciu tylko jednego obrazu twarzy przy zachowaniu wysokiej wierności.

W przyszłym

Wskrzeszanie cyfrowej legendy: transformacja LimeWire w generatywną potęgę sztucznej inteligencji

Nie przegap

Cicha ewolucja sztucznej inteligencji: powstanie złożonych systemów sztucznej inteligencji wykraczających poza tradycyjne modele sztucznej inteligencji

Kunal Kejriwal

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.