ciot InstantID: generare zero-shot pentru păstrarea identității în câteva secunde - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

InstantID: generare zero-shot pentru păstrarea identității în câteva secunde

mm

Publicat

 on

Tehnologia de generare a imaginii bazată pe inteligență artificială a înregistrat o creștere remarcabilă în ultimii câțiva ani, de când modelele de difuzie text în imagine precum DALL-E, GLIDE, Stable Diffusion, Imagen și altele au apărut în scenă. În ciuda faptului că modelele AI pentru generarea de imagini au o arhitectură și metode de antrenament unice, toate au un punct focal comun: generarea de imagini personalizată și personalizată, care urmărește să creeze imagini cu ID-ul caracterului, subiectul și stilul consistent pe baza imaginilor de referință. Datorită capacităților lor generative remarcabile, cadrele moderne de AI pentru generarea de imagini și-au găsit aplicații în domenii precum animația imaginilor, realitatea virtuală, comerțul electronic, portretele AI și multe altele. Cu toate acestea, în ciuda capacităților lor generative remarcabile, toate aceste cadre au un obstacol comun, majoritatea dintre ele nu sunt capabile să genereze imagini personalizate, păstrând în același timp detaliile delicate de identitate ale obiectelor umane. 

Generarea de imagini personalizate, păstrând în același timp detaliile complicate, este de o importanță critică, în special în sarcinile de identitate facială umană, care necesită un standard înalt de fidelitate și detalii și semantică nuanțată, în comparație cu sarcinile generale de generare a imaginii obiectelor care se concentrează în principal pe texturi și culori cu granulație grosieră. În plus, cadrele personalizate de sinteză a imaginii în ultimii ani, cum ar fi LoRA, DreamBooth, Textual Inversion și altele, au avansat semnificativ. Cu toate acestea, modelele AI generatoare de imagini personalizate nu sunt încă perfecte pentru implementarea în scenarii din lumea reală, deoarece au o cerință mare de stocare, necesită mai multe imagini de referință și au adesea un proces lung de reglare fină. Pe de altă parte, deși metodele existente bazate pe încorporarea ID-ului necesită doar o singură referință înainte, fie nu sunt compatibile cu modelele pre-antrenate disponibile public, fie necesită un proces excesiv de reglare fină a numeroși parametri, fie nu reușesc să mențină un nivel ridicat. fidelitatea feței. 

Pentru a aborda aceste provocări și pentru a îmbunătăți și mai mult capacitățile de generare de imagini, în acest articol, vom vorbi despre InstantID, o soluție bazată pe model de difuzie pentru generarea de imagini. InstantID este un modul plug and play care gestionează cu abilități generarea și personalizarea imaginilor în diferite stiluri cu o singură imagine de referință și asigură, de asemenea, fidelitate ridicată. Scopul principal al acestui articol este de a oferi cititorilor noștri o înțelegere aprofundată a bazelor tehnice și a componentelor cadrului InstantID, deoarece vom avea o privire detaliată a arhitecturii modelului, a procesului de instruire și a scenariilor de aplicare. Asadar, haideti sa începem.

InstantID: generare de imagini cu păstrarea identității zero-shot


Apariția modelelor de difuzare text în imagine a contribuit în mod semnificativ la progresul tehnologiei de generare a imaginilor. Scopul principal al acestor modele este generarea personalizată și personală și crearea de imagini cu subiect, stil și ID-ul caracterului consistent, folosind una sau mai multe imagini de referință. Capacitatea acestor cadre de a crea imagini consistente a creat aplicații potențiale în diferite industrii, inclusiv animație de imagini, generare de portrete AI, comerț electronic, realitate virtuală și augmentată și multe altele. 

Cu toate acestea, în ciuda abilităților lor remarcabile, aceste cadre se confruntă cu o provocare fundamentală: deseori se luptă să genereze imagini personalizate care să păstreze cu acuratețe detaliile complicate ale subiecților umani. Este demn de remarcat faptul că generarea de imagini personalizate cu detalii intrinseci este o sarcină dificilă, deoarece identitatea facială umană necesită un grad mai mare de fidelitate și detaliu, împreună cu o semantică mai avansată, în comparație cu obiectele sau stilurile generale care se concentrează în primul rând pe culori sau texturi cu granulație grosieră. Modelele existente text în imagine depind de descrierile textuale detaliate și se luptă să obțină o relevanță semantică puternică pentru generarea de imagini personalizate. În plus, unele cadre mari de text la imagine pre-antrenate adaugă controale de condiționare spațială pentru a îmbunătăți controlabilitatea, facilitând controlul structural cu granulație fină folosind elemente precum ipostaze ale corpului, hărți de adâncime, schițe desenate de utilizator, hărți de segmentare semantică și multe altele. Cu toate acestea, în ciuda acestor completări și îmbunătățiri, aceste cadre sunt capabile să realizeze doar o fidelitate parțială a imaginii generate față de imaginea de referință. 

Pentru a depăși aceste obstacole, cadrul InstantID se concentrează pe sinteza instantanee a imaginii care păstrează identitatea și încearcă să reducă decalajul dintre eficiență și fidelitate ridicată prin introducerea unui modul simplu plug and play care permite cadrului să gestioneze personalizarea imaginii folosind doar o singură imagine facială. menținând în același timp o înaltă fidelitate. Mai mult, pentru a păstra identitatea facială din imaginea de referință, cadrul InstantID implementează un nou codificator de față care reține detaliile complicate ale imaginii prin adăugarea de condiții spațiale slabe și semantice puternice care ghidează procesul de generare a imaginii prin încorporarea de indicații textuale, imagine de reper și imagine facială. . 

Există trei caracteristici distinctive care separă cadrul InstantID de cadrele existente de generare de text la imagini. 

  • Compatibilitate și conectare: În loc să se antreneze pe parametrii completi ai cadrului UNet, cadrul InstantID se concentrează pe antrenarea unui adaptor ușor. Ca rezultat, cadrul InstantID este compatibil și conectabil cu modelele existente pre-antrenate. 
  • Fără acord: Metodologia cadrului InstantID elimină cerința de reglare fină, deoarece are nevoie doar de o singură propagare înainte pentru inferență, făcând modelul extrem de practic și economic pentru reglare fină. 
  • Performanta superioara: Cadrul InstantID demonstrează flexibilitate și fidelitate ridicate, deoarece este capabil să ofere performanțe de ultimă generație folosind doar o singură imagine de referință, comparabilă cu metodele bazate pe antrenament care se bazează pe mai multe imagini de referință. 

În general, contribuțiile cadrului InstantID pot fi clasificate în următoarele puncte. 

  1. Cadrul InstantID este o metodă inovatoare de adaptare care păstrează ID-ul pentru modelele de difuzare text la imagine pre-antrenate, cu scopul de a reduce decalajul dintre eficiență și fidelitate. 
  2. Cadrul InstantID este compatibil și conectabil cu modele personalizate ajustate, folosind același model de difuzie în arhitectura sa, permițând păstrarea ID-ului în modele pre-antrenate fără niciun cost suplimentar. 

InstantID: Metodologie și Arhitectură

După cum am menționat mai devreme, cadrul InstantID este un adaptor ușor și eficient, care oferă modele de difuzare a textului la imagini pre-antrenate cu capabilități de conservare a ID-ului fără efort. 

Vorbind despre arhitectură, cadrul InstantID este construit pe deasupra Model de difuzie stabilă, renumit pentru capacitatea sa de a efectua procesul de difuzie cu o eficiență de calcul ridicată într-un spațiu latent cu dimensiuni reduse în loc de spațiu de pixeli cu un codificator automat. Pentru o imagine de intrare, codificatorul mapează mai întâi imaginea la o reprezentare latentă cu factor de eșantionare și dimensiuni latente. În plus, pentru a elimina zgomotul distribuit în mod normal cu zgomot latent, stare și pas de timp curent, procesul de difuzie adoptă o componentă UNet de dezgomot. Condiția este o încorporare a solicitărilor textuale care sunt generate folosind o componentă de codificare de text CLIP pre-antrenată. 

În plus, cadrul InstantID utilizează, de asemenea, o componentă ControlNet care este capabilă să adauge control spațial unui model de difuzie pre-antrenat ca condiție, extinzându-se mult dincolo de capacitățile tradiționale ale prompturilor textuale. Componenta ControlNet integrează, de asemenea, arhitectura UNet din cadrul Stable Diffusion folosind o replicare instruită a componentei UNet. Replica componentei UNet prezintă straturi de convoluție zero în blocurile din mijloc și blocurile codificatoare. În ciuda asemănărilor lor, componenta ControlNet se distinge de modelul Stable Diffusion; ambele diferă în ultimul element rezidual. Componenta ControlNet codifică informații despre starea spațială, cum ar fi poziții, hărți de adâncime, schițe și multe altele, adăugând reziduurile la blocul UNet și apoi încorporează aceste reziduuri în rețeaua originală. 

Cadrul InstantID se inspiră, de asemenea, din adaptorul IP sau adaptorul de prompt pentru imagine, care introduce o abordare nouă pentru a obține capabilități de prompt de imagine care rulează în paralel cu solicitările textuale, fără a necesita modificarea textului original în modele de imagine. Componenta IP-Adapter utilizează, de asemenea, o strategie unică de atenție încrucișată decuplată, care utilizează straturi suplimentare de atenție încrucișată pentru a încorpora caracteristicile imaginii, lăsând ceilalți parametri neschimbați. 

Metodologie

Pentru a vă oferi o scurtă prezentare generală, cadrul InstantID își propune să genereze imagini personalizate cu diferite stiluri sau ipostaze folosind doar o singură imagine ID de referință cu fidelitate ridicată. Figura următoare oferă pe scurt o prezentare generală a cadrului InstantID. 

După cum se poate observa, cadrul InstantID are trei componente esențiale:

  1. O componentă de încorporare a ID-ului care captează informații semantice robuste ale trăsăturilor faciale din imagine. 
  2. Un modul ușor adoptat cu o componentă decuplată de atenție încrucișată pentru a facilita utilizarea unei imagini ca un prompt vizual. 
  3. O componentă IdentityNet care codifică caracteristicile detaliate din imaginea de referință folosind control spațial suplimentar. 

Încorporarea ID

Spre deosebire de metodele existente precum FaceStudio, PhotoMaker, IP-Adapter și altele care se bazează pe un codificator de imagine CLIP pre-antrenat pentru a extrage solicitări vizuale, cadrul InstantID se concentrează pe fidelitate sporită și detalii semantice mai puternice în sarcina de păstrare a ID-ului. Este demn de remarcat faptul că limitările inerente ale componentei CLIP constă în principal în procesul de antrenament al datelor slab aliniate, ceea ce înseamnă că caracteristicile codificate ale codificatorului CLIP captează în primul rând informații semantice ample și ambigue, cum ar fi culorile, stilul și compoziția. Deși aceste caracteristici pot acționa ca un supliment general pentru încorporarea textului, ele nu sunt potrivite pentru sarcini precise de păstrare a ID-ului care pun un accent puternic pe semantică puternică și fidelitate ridicată. Mai mult, cercetările recente în modelele de reprezentare a feței, în special în ceea ce privește recunoașterea facială, au demonstrat eficiența reprezentării feței în sarcini complexe, inclusiv reconstrucția și recunoașterea facială. Pornind de la aceeași, cadrul InstantID își propune să folosească un model de fețe pre-antrenat pentru a detecta și extrage încorporarea ID-ului feței din imaginea de referință, ghidând modelul pentru generarea imaginii. 

Adaptor de imagine

Capacitatea de modele de difuzare text la imagine pre-antrenate în sarcinile de solicitare a imaginii îmbunătățește în mod semnificativ solicitările de text, în special pentru scenariile care nu pot fi descrise în mod adecvat de solicitările de text. Cadrul InstantID adoptă o strategie asemănătoare cu cea utilizată de modelul IP-Adapter pentru atragerea imaginilor, care introduce un modul adaptiv ușor asociat cu o componentă de atenție încrucișată decuplată pentru a sprijini imaginile ca solicitări de intrare. Cu toate acestea, spre deosebire de înglobările CLIP aliniate grosier, cadrul InstantID diferă prin folosirea înglobărilor ID pe măsură ce imaginea solicită, în încercarea de a realiza o integrare promptă bogată din punct de vedere semantic și mai nuanțată. 

IdentityNet

Deși metodele existente sunt capabile să integreze solicitările de imagine cu solicitările de text, cadrul InstantID susține că aceste metode îmbunătățesc doar caracteristicile cu granulație grosieră cu un nivel de integrare care este insuficient pentru generarea de imagini care păstrează ID-ul. În plus, adăugarea simbolurilor de imagine și de text în straturi de atenție încrucișată tinde direct să slăbească controlul simbolurilor de text, iar o încercare de a spori puterea simbolurilor de imagine ar putea duce la afectarea abilităților indicatoarelor de text în sarcinile de editare. Pentru a contracara aceste provocări, cadrul InstantID optează pentru ControlNet, o metodă alternativă de încorporare a caracteristicilor care utilizează informații spațiale ca intrare pentru modulul controlabil, permițându-i să mențină coerența cu setările UNet în modelele de difuzie. 

Cadrul InstantID face două modificări arhitecturii tradiționale ControlNet: pentru intrări condiționate, cadrul InstantID optează pentru 5 puncte cheie faciale în loc de puncte cheie faciale cu granulație fină OpenPose. În al doilea rând, cadrul InstantID utilizează încorporarea ID-ului în loc de solicitări de text ca condiții pentru straturile de atenție încrucișată în arhitectura ControlNet. 

Antrenament și inferență

În timpul fazei de antrenament, cadrul InstantID optimizează parametrii IdentityNet și ai adaptorului de imagine, înghețând în același timp parametrii modelului de difuzie pre-antrenat. Întreaga conductă InstantID este antrenată pe perechi imagine-text care prezintă subiecți umani și folosește un obiectiv de antrenament similar cu cel utilizat în cadrul de difuzie stabilă cu condiții de imagine specifice sarcinii. Punctul culminant al metodei de antrenament InstantID este separarea dintre straturile de atenție încrucișată de imagine și text în cadrul adaptorului de prompt pentru imagine, o alegere care permite cadrului InstantID să ajusteze greutățile acestor condiții de imagine în mod flexibil și independent, asigurând astfel o mai bine direcționată și controlată. procesul de inferență și antrenament. 

InstantID: Experimente și rezultate

Cadrul InstantID implementează Stable Diffusion și îl antrenează pe LAION-Face, un set de date open-source la scară largă, format din peste 50 de milioane de perechi imagine-text. În plus, cadrul InstantID colectează peste 10 milioane de imagini umane cu automatizări generate automat de modelul BLIP2 pentru a îmbunătăți și mai mult calitatea generării imaginilor. Cadrul InstantID se concentrează în primul rând pe imagini cu o singură persoană și folosește un model de fețe pre-antrenat pentru a detecta și extrage încorporarea ID-ului feței din imaginile umane și, în loc să antreneze seturile de date decupate, antrenează imaginile umane originale. În plus, în timpul antrenamentului, cadrul InstantID îngheață modelul pre-antrenat de text la imagine și actualizează doar parametrii IdentityNet și Image Adapter. 

Generație doar imagine

Modelul InstantID folosește un prompt gol pentru a ghida procesul de generare a imaginii folosind doar imaginea de referință, iar rezultatele fără solicitări sunt demonstrate în imaginea următoare. 

Generarea „Empty Prompt”, așa cum este demonstrat în imaginea de mai sus, demonstrează capacitatea cadrului InstantID de a menține în mod robust trăsăturile faciale semantice bogate, cum ar fi identitatea, vârsta și expresia. Cu toate acestea, merită remarcat faptul că utilizarea prompturilor goale ar putea să nu poată reproduce cu acuratețe rezultatele pe alte semantice, cum ar fi genul. Mai mult, în imaginea de mai sus, coloanele 2 până la 4 utilizează o imagine și un prompt și, după cum se poate observa, imaginea generată nu demonstrează nicio degradare a capacităților de control al textului și asigură, de asemenea, consistența identității. În cele din urmă, coloanele 5 până la 9 folosesc o imagine, un control prompt și spațial, demonstrând compatibilitatea modelului cu modele de control spațial pre-antrenate permițând modelului InstantID să introducă în mod flexibil controale spațiale folosind o componentă ControlNet pre-antrenată. 

De asemenea, este de remarcat faptul că numărul de imagini de referință are un impact semnificativ asupra imaginii generate, așa cum se demonstrează în imaginea de mai sus. Deși cadrul InstantID este capabil să ofere rezultate bune folosind o singură imagine de referință, mai multe imagini de referință produc o imagine de mai bună calitate, deoarece cadrul InstantID ia media medie a înglobărilor ID ca prompt de imagine. Continuând, este esențial să comparăm cadrul InstantID cu metodele anterioare care generează imagini personalizate folosind o singură imagine de referință. Următoarea figură compară rezultatele generate de cadrul InstantID și modelele existente de ultimă generație pentru generarea de imagini personalizate cu o singură referință. 

După cum se poate observa, cadrul InstantID este capabil să păstreze caracteristicile faciale datorită încorporarii ID-ului, care conține în mod inerent informații semantice bogate, cum ar fi identitatea, vârsta și sexul. Ar fi sigur să spunem că cadrul InstantID depășește cadrele existente în generarea de imagini personalizate, deoarece este capabil să păstreze identitatea umană, păstrând în același timp controlul și flexibilitatea stilistică. 

Gânduri finale

În acest articol, am vorbit despre InstantID, o soluție bazată pe model de difuzie pentru generarea de imagini. InstantID este un modul plug and play care gestionează cu abilități generarea și personalizarea imaginilor în diferite stiluri cu o singură imagine de referință și asigură, de asemenea, o fidelitate ridicată. Cadrul InstantID se concentrează pe sinteza instantanee a imaginii care păstrează identitatea și încearcă să reducă decalajul dintre eficiență și fidelitate ridicată prin introducerea unui modul plug and play simplu care permite cadrului să gestioneze personalizarea imaginii folosind doar o singură imagine facială, menținând în același timp fidelitatea ridicată.

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.