škrbina InstantID: Generacija bez pokušaja očuvanja identiteta u sekundi - Unite.AI
Povežite se s nama

Umjetna inteligencija

InstantID: Generacija bez potrebe za očuvanjem identiteta u sekundi

mm

Objavljeno

 on

Tehnologija generiranja slika utemeljena na umjetnoj inteligenciji doživjela je nevjerojatan rast u posljednjih nekoliko godina otkako su na scenu izbili veliki modeli difuzije teksta u sliku kao što su DALL-E, GLIDE, Stable Diffusion, Imagen i drugi. Unatoč činjenici da AI modeli za generiranje slika imaju jedinstvenu arhitekturu i metode obuke, svi oni dijele zajedničku središnju točku: prilagođeno i personalizirano generiranje slika koje ima za cilj stvoriti slike s dosljednim ID-om karaktera, predmetom i stilom na temelju referentnih slika. Zahvaljujući svojim izvanrednim generativnim sposobnostima, moderni AI okviri za generiranje slika našli su primjenu u poljima uključujući slikovnu animaciju, virtualnu stvarnost, e-trgovinu, AI portrete i još mnogo toga. Međutim, usprkos njihovim izvanrednim generativnim sposobnostima, svi ovi okviri dijele zajedničku prepreku, većina njih ne može generirati prilagođene slike uz očuvanje delikatnih detalja identiteta ljudskih objekata. 

Generiranje prilagođenih slika uz očuvanje zamršenih detalja od ključne je važnosti, posebno u zadacima identiteta ljudskog lica koji zahtijevaju visok standard vjernosti i detalja, te nijansiranu semantiku u usporedbi s općim zadacima generiranja slike objekta koji se prvenstveno koncentriraju na grube teksture i boje. Nadalje, personalizirani okviri za sintezu slika posljednjih godina kao što su LoRA, DreamBooth, Textual Inversion i drugi značajno su napredovali. Međutim, modeli umjetne inteligencije koji generiraju personalizirane slike još uvijek nisu savršeni za implementaciju u scenarijima stvarnog svijeta budući da imaju velike zahtjeve za pohranu, zahtijevaju više referentnih slika i često imaju dugotrajan postupak finog podešavanja. S druge strane, iako postojeće metode koje se temelje na ugrađivanju ID-a zahtijevaju samo jednu referencu naprijed, one ili nemaju kompatibilnost s javno dostupnim unaprijed obučenim modelima, ili zahtijevaju pretjerani proces finog podešavanja brojnih parametara, ili ne uspijevaju održati visoku lice vjernost. 

Kako bismo odgovorili na ove izazove i dodatno poboljšali mogućnosti generiranja slika, u ovom ćemo članku govoriti o InstantID-u, rješenju za generiranje slika koje se temelji na modelu difuzije. InstantID je plug and play modul koji vješto upravlja generiranjem i personalizacijom slika u različitim stilovima sa samo jednom referentnom slikom i također osigurava visoku vjernost. Primarni cilj ovog članka je pružiti našim čitateljima temeljito razumijevanje tehničkih osnova i komponenti okvira InstantID jer ćemo imati detaljan pregled arhitekture modela, procesa obuke i scenarija primjene. Pa krenimo.

InstantID: Zero-Shot Generiranje slike za očuvanje identiteta


Pojava modela difuzije teksta u sliku značajno je pridonijela napretku tehnologije generiranja slika. Primarni cilj ovih modela je prilagođeno i osobno generiranje te stvaranje slika s dosljednim subjektom, stilom i ID-om karaktera pomoću jedne ili više referentnih slika. Sposobnost ovih okvira za stvaranje dosljednih slika stvorila je potencijalne primjene u različitim industrijama, uključujući animaciju slika, generiranje portreta umjetnom inteligencijom, e-trgovinu, virtualnu i proširenu stvarnost i još mnogo toga. 

Međutim, unatoč svojim nevjerojatnim sposobnostima, ovi se okviri suočavaju s temeljnim izazovom: često se bore s generiranjem prilagođenih slika koje točno čuvaju zamršene detalje ljudskih subjekata. Vrijedno je napomenuti da je generiranje prilagođenih slika s intrinzičnim detaljima izazovan zadatak budući da identitet ljudskog lica zahtijeva viši stupanj vjernosti i detalja zajedno s naprednijom semantikom u usporedbi s općim objektima ili stilovima koji se primarno fokusiraju na boje ili grubo zrnate teksture. Postojeći modeli teksta u sliku ovise o detaljnim tekstualnim opisima i bore se u postizanju snažne semantičke relevantnosti za prilagođeno generiranje slika. Nadalje, neki veliki unaprijed uvježbani okviri teksta u sliku dodaju kontrole prostornog uvjetovanja za poboljšanje upravljivosti, olakšavajući detaljnu strukturnu kontrolu korištenjem elemenata kao što su poze tijela, mape dubine, skice koje je nacrtao korisnik, mape semantičke segmentacije i više. Međutim, unatoč ovim dodacima i poboljšanjima, ovi okviri mogu postići samo djelomičnu vjernost generirane slike referentnoj slici. 

Kako bi prevladao ove prepreke, okvir InstantID fokusiran je na trenutnu sintezu slika za očuvanje identiteta i pokušava premostiti jaz između učinkovitosti i visoke vjernosti uvođenjem jednostavnog plug and play modula koji omogućuje okviru da upravlja personalizacijom slike koristeći samo jednu sliku lica zadržavajući visoku vjernost. Nadalje, kako bi se sačuvao identitet lica iz referentne slike, okvir InstantID implementira novi koder lica koji zadržava zamršene detalje slike dodavanjem slabih prostornih i jakih semantičkih uvjeta koji vode proces generiranja slike uključivanjem tekstualnih upita, slike znamenitosti i slike lica . 

Postoje tri razlikovne značajke koje odvajaju okvir InstantID od postojećih okvira za generiranje teksta u sliku. 

  • Kompatibilnost i mogućnost priključivanja: Umjesto obuke o punim parametrima okvira UNet, okvir InstantID fokusiran je na obuku laganog adaptera. Kao rezultat toga, okvir InstantID je kompatibilan i može se priključiti na postojeće modele koji su prethodno obučeni. 
  • Bez podešavanja: Metodologija okvira InstantID eliminira zahtjev za finim podešavanjem budući da je potrebno samo jedno širenje naprijed za zaključivanje, što model čini vrlo praktičnim i ekonomičnim za fino podešavanje. 
  • Vrhunske performanse: Okvir InstantID pokazuje visoku fleksibilnost i vjernost budući da je u stanju isporučiti vrhunsku izvedbu koristeći samo jednu referentnu sliku, usporedivo s metodama koje se temelje na obuci i oslanjaju se na više referentnih slika. 

Sve u svemu, doprinosi okvira InstantID mogu se kategorizirati u sljedeće točke. 

  1. Okvir InstantID je inovativna metoda prilagodbe koja čuva ID za unaprijed obučene modele difuzije teksta u sliku s ciljem premošćivanja jaza između učinkovitosti i vjernosti. 
  2. Okvir InstantID je kompatibilan i može se priključiti na prilagođene fino podešene modele koji koriste isti difuzijski model u svojoj arhitekturi, što omogućuje očuvanje ID-a u unaprijed obučenim modelima bez ikakvih dodatnih troškova. 

InstantID: Metodologija i arhitektura

Kao što je ranije spomenuto, okvir InstantID učinkovit je lagani adapter koji modele difuzije teksta u sliku bez napora obdaruje mogućnostima očuvanja ID-a. 

Govoreći o arhitekturi, okvir InstantID izgrađen je na vrhu Model stabilne difuzije, poznat po svojoj sposobnosti izvođenja procesa difuzije s visokom računskom učinkovitošću u niskodimenzionalnom latentnom prostoru umjesto u prostoru piksela s automatskim koderom. Za ulaznu sliku, koder prvo preslikava sliku u latentni prikaz s faktorom smanjenja uzorkovanja i latentnim dimenzijama. Nadalje, za uklanjanje normalno distribuiranog šuma s latentom buke, stanjem i trenutnim vremenskim korakom, proces difuzije usvaja UNet komponentu za uklanjanje šuma. Uvjet je ugrađivanje tekstualnih upita koji su generirani korištenjem prethodno uvježbane komponente kodera teksta CLIP. 

Nadalje, okvir InstantID također koristi komponentu ControlNet koja je sposobna dodati prostornu kontrolu unaprijed obučenom difuzijskom modelu kao svoj uvjet, proširujući daleko izvan tradicionalnih mogućnosti tekstualnih upita. ControlNet komponenta također integrira UNet arhitekturu iz okvira Stable Diffusion koristeći uvježbanu replikaciju UNet komponente. Replika UNet komponente sadrži slojeve nulte konvolucije unutar srednjih blokova i blokova kodera. Unatoč njihovim sličnostima, ControlNet komponenta se razlikuje od Stable Diffusion modela; oboje se razlikuju u potonjoj rezidualnoj stavci. Komponenta ControlNet kodira informacije o prostornim uvjetima kao što su poze, karte dubine, skice i više dodavanjem ostataka u UNet blok, a zatim ugrađuje te ostatke u izvornu mrežu. 

Okvir InstantID također crpi inspiraciju iz IP-Adaptera ili Image Prompt Adaptera koji uvodi novi pristup za postizanje mogućnosti slikovnih odziva koji rade paralelno s tekstualnim upitima bez potrebe za modificiranjem originalnog teksta u slikovne modele. Komponenta IP-Adapter također koristi jedinstvenu razdvojenu strategiju unakrsne pažnje koja koristi dodatne slojeve unakrsne pažnje za ugradnju značajki slike dok ostale parametre ostavlja nepromijenjenima. 

Metodologija

Da bismo vam dali kratak pregled, okvir InstantID ima za cilj generirati prilagođene slike s različitim stilovima ili pozama koristeći samo jednu referentnu ID sliku visoke vjernosti. Sljedeća slika ukratko daje pregled okvira InstantID. 

Kao što se može primijetiti, okvir InstantID ima tri bitne komponente:

  1. Komponenta za ugradnju ID-a koja bilježi robusne semantičke informacije o crtama lica na slici. 
  2. Lagani usvojeni modul s odvojenom komponentom unakrsne pozornosti za olakšavanje upotrebe slike kao vizualne upute. 
  3. IdentityNet komponenta koja kodira detaljne značajke iz referentne slike pomoću dodatne prostorne kontrole. 

ID ugradnja

Za razliku od postojećih metoda kao što su FaceStudio, PhotoMaker, IP-Adapter i više koje se oslanjaju na unaprijed obučeni CLIP koder slike za izdvajanje vizualnih upita, okvir InstantID fokusiran je na poboljšanu vjernost i jače semantičke detalje u zadatku očuvanja ID-a. Vrijedno je napomenuti da inherentna ograničenja CLIP komponente leže prvenstveno u procesu obuke na slabo usklađenim podacima što znači da kodirane značajke CLIP kodera prvenstveno bilježe široke i dvosmislene semantičke informacije poput boja, stila i sastava. Iako ove značajke mogu djelovati kao opći dodatak ugrađivanju teksta, nisu prikladne za precizne zadatke očuvanja ID-a koji stavljaju veliki naglasak na jaku semantiku i visoku vjernost. Nadalje, nedavno istraživanje modela predstavljanja lica, posebno u vezi s prepoznavanjem lica, pokazalo je učinkovitost predstavljanja lica u složenim zadacima, uključujući rekonstrukciju i prepoznavanje lica. Nadovezujući se na isto, okvir InstantID ima za cilj iskoristiti unaprijed obučeni model lica za otkrivanje i izdvajanje umetanja ID-a lica iz referentne slike, usmjeravajući model za generiranje slike. 

Adapter slike

Sposobnost od unaprijed obučeni modeli difuzije teksta u sliku u zadacima slikovnih upita značajno poboljšava tekstualne upite, posebno za scenarije koji se ne mogu adekvatno opisati tekstualnim upitima. Okvir InstantID usvaja strategiju sličnu onoj koju koristi model IP-Adapter za slikovne upite, koji uvodi lagani prilagodljivi modul uparen s odvojenom komponentom unakrsne pažnje za podršku slikama kao ulaznim upitima. Međutim, za razliku od grubo usklađenih CLIP ugrađivanja, InstantID okvir se razlikuje korištenjem ID ugrađivanja kao upite slike u pokušaju postizanja semantički bogatije i nijansiranije brze integracije. 

IdentityNet

Iako postojeće metode mogu integrirati slikovne upite s tekstualnim upitima, okvir InstantID tvrdi da te metode samo poboljšavaju grube značajke s razinom integracije koja je nedovoljna za generiranje slike koja čuva ID. Nadalje, dodavanje slikovnih i tekstualnih tokena u slojeve unakrsne pozornosti izravno ima tendenciju slabljenja kontrole tekstualnih tokena, a pokušaj povećanja snage slikovnih tokena može rezultirati slabljenjem sposobnosti tekstualnih tokena u zadacima uređivanja. Kako bi se suprotstavio ovim izazovima, okvir InstantID odlučuje se za ControlNet, alternativnu metodu ugrađivanja značajki koja koristi prostorne informacije kao ulaz za modul kojim se može upravljati, dopuštajući mu da održi dosljednost s UNet postavkama u modelima difuzije. 

Okvir InstantID čini dvije promjene u tradicionalnoj ControlNet arhitekturi: za uvjetne unose, okvir InstantID odabire 5 ključnih točaka lica umjesto finih OpenPose ključnih točaka lica. Drugo, okvir InstantID koristi ID ugradnje umjesto tekstualnih upita kao uvjete za slojeve unakrsne pažnje u ControlNet arhitekturi. 

Obuka i zaključivanje

Tijekom faze obuke, okvir InstantID optimizira parametre IdentityNeta i Image Adaptera dok zamrzava parametre prethodno obučenog modela difuzije. Cijeli cjevovod InstantID-a trenira se na parovima slika-tekst koji prikazuju ljudske subjekte i koristi cilj obuke sličan onom koji se koristi u stabilnom difuzijskom okviru s uvjetima slike specifičnim za zadatak. Vrhunac metode obuke InstantID je odvajanje između slojeva unakrsne pozornosti slike i teksta unutar slikovnog prompt adaptera, izbor koji InstantID okviru omogućuje fleksibilnu i neovisnu prilagodbu težine ovih uvjeta slike, čime se osigurava ciljaniji i kontroliraniji zaključivanje i proces obuke. 

InstantID : Eksperimenti i rezultati

Okvir InstantID implementira Stable Diffusion i trenira ga na LAION-Face, velikom skupu podataka otvorenog koda koji se sastoji od preko 50 milijuna parova slika-tekst. Dodatno, okvir InstantID prikuplja preko 10 milijuna ljudskih slika s automatizacijom koju automatski generira model BLIP2 kako bi se dodatno poboljšala kvaliteta generiranja slike. Okvir InstantID usredotočen je prvenstveno na slike jedne osobe i koristi unaprijed uvježbani model lica za otkrivanje i ekstrahiranje umetanja ID-a lica iz ljudskih slika, te umjesto uvježbavanja obrezanih skupova podataka o licu, uvježbava izvorne ljudske slike. Nadalje, tijekom obuke, okvir InstantID zamrzava unaprijed obučeni model teksta u sliku i samo ažurira parametre IdentityNeta i Image Adaptera. 

Image Only Generation

InstantID model koristi prazan upit za vođenje procesa generiranja slike koristeći samo referentnu sliku, a rezultati bez upita prikazani su na sljedećoj slici. 

Generiranje 'Empty Prompt' kao što je prikazano na gornjoj slici pokazuje sposobnost okvira InstantID da robusno održava bogate semantičke crte lica kao što su identitet, dob i izraz lica. Međutim, vrijedno je napomenuti da upotreba praznih upita možda neće moći točno replicirati rezultate druge semantike poput roda. Nadalje, na gornjoj slici, stupci 2 do 4 koriste sliku i upit, a kao što se može vidjeti, generirana slika ne pokazuje nikakvu degradaciju u mogućnostima kontrole teksta, a također osigurava dosljednost identiteta. Konačno, stupci od 5 do 9 koriste sliku, brzu i prostornu kontrolu, pokazujući kompatibilnost modela s unaprijed obučenim modelima prostorne kontrole, što omogućuje InstantID modelu da fleksibilno uvede prostorne kontrole pomoću unaprijed obučene ControlNet komponente. 

Također je vrijedno napomenuti da broj referentnih slika ima značajan utjecaj na generiranu sliku, kao što je prikazano na gornjoj slici. Iako okvir InstantID može dati dobre rezultate korištenjem jedne referentne slike, više referentnih slika proizvodi sliku bolje kvalitete budući da okvir InstantID uzima prosječnu srednju vrijednost ugrađivanja ID-a kao upit za sliku. Krećući dalje, bitno je usporediti okvir InstantID s prethodnim metodama koje generiraju personalizirane slike koristeći jednu referentnu sliku. Sljedeća slika uspoređuje rezultate koje je generirao okvir InstantID i postojeći najsuvremeniji modeli za generiranje prilagođene slike za jednu referencu. 

Kao što se može vidjeti, okvir InstantID može sačuvati karakteristike lica zahvaljujući ugrađivanju ID-a koji inherentno nosi bogate semantičke informacije, kao što su identitet, dob i spol. Moglo bi se slobodno reći da okvir InstantID nadmašuje postojeće okvire u generiranju prilagođenih slika budući da je u stanju očuvati ljudski identitet uz zadržavanje kontrole i stilske fleksibilnosti. 

Final Misli

U ovom smo članku govorili o InstantID-u, rješenju temeljenom na modelu difuzije za generiranje slika. InstantID je plug and play modul koji vješto upravlja generiranjem i personalizacijom slika u različitim stilovima sa samo jednom referentnom slikom i također osigurava visoku vjernost. Okvir InstantID usredotočen je na trenutnu sintezu slika za očuvanje identiteta i pokušava premostiti jaz između učinkovitosti i visoke vjernosti uvođenjem jednostavnog plug and play modula koji omogućuje okviru da upravlja personalizacijom slike koristeći samo jednu sliku lica uz održavanje visoke vjernosti.

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.