Inteligență artificială

InstantID: Generare cu Zero-Shot a Identității în Secunde

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

Tehnologia de generare a imaginilor bazată pe inteligență artificială a cunoscut o creștere remarcabilă în ultimii ani, de când modelele de difuzie text-imagine de mari dimensiuni, cum ar fi DALL-E, GLIDE, Stable Diffusion, Imagen și altele, au apărut pe scena tehnologică. În ciuda faptului că modelele de generare a imaginilor au arhitecturi și metode de antrenare unice, toate au un punct focal comun: generarea personalizată și personală a imaginilor, care vizează crearea de imagini cu caracteristici de identitate, subiect și stil consistente, pe baza imaginilor de referință. Datorită capacităților lor generative remarcabile, cadrele moderne de generare a imaginilor bazate pe inteligență artificială au găsit aplicații în domenii precum animația de imagini, realitatea virtuală, comerțul electronic, portretele de inteligență artificială și multe altele. Cu toate acestea, în ciuda capacităților lor generative remarcabile, toate aceste cadre au o piedică comună: majoritatea dintre ele nu sunt capabile să genereze imagini personalizate, păstrând în același timp detalii delicate de identitate ale obiectelor umane.

Generarea de imagini personalizate, păstrând detalii intrinseci, este de o importanță critică, în special în sarcinile de identitate facială care necesită un standard ridicat de fidelitate și detalii, precum și semantice nuanțate, în comparație cu sarcinile generale de generare a imaginilor de obiecte, care se concentrează în primul rând pe texturi și culori grosiere. Mai mult, cadrele de sinteză a imaginilor personalizate din ultimii ani, cum ar fi LoRA, DreamBooth, Textual Inversion și altele, au progresat semnificativ. Cu toate acestea, modelele de generare a imaginilor personalizate bazate pe inteligență artificială nu sunt încă perfecte pentru implementarea în scenarii reale, deoarece au o cerință ridicată de stocare, necesită multiple imagini de referință și adesea au un proces lung de reglare fină. Pe de altă parte, deși metodele existente bazate pe încorporarea ID necesită doar o singură referință înainte, ele fie lipsesc de compatibilitate cu modelele pre-antrenate disponibile public, fie necesită un proces excesiv de reglare fină pe parametri multipli, fie nu reușesc să mențină o fidelitate ridicată a feței.

Pentru a aborda aceste provocări și a îmbunătăți în continuare capacitățile de generare a imaginilor, în acest articol, vom discuta despre InstantID, o soluție bazată pe modelul de difuzie pentru generarea imaginilor. InstantID este un modul plug and play care gestionează generarea și personalizarea imaginilor cu pricepere, în diferite stiluri, cu doar o singură imagine de referință și asigură, de asemenea, o fidelitate ridicată. Scopul principal al acestui articol este de a oferi cititorilor noștri o înțelegere aprofundată a fundamentelor tehnice și a componentelor cadrului InstantID, deoarece vom examina în detaliu arhitectura modelului, procesul de antrenare și scenariile de aplicații. Așadar, să începem.

InstantID: Generare cu Zero-Shot a Identității

Apariția modelelor de difuzie text-imagine a contribuit semnificativ la avansarea tehnologiei de generare a imaginilor. Scopul principal al acestor modele este generarea personalizată și personală, și crearea de imagini cu subiect, stil și caracteristici de identitate consistente, utilizând una sau mai multe imagini de referință. Capacitatea acestor cadre de a crea imagini consistente a creat aplicații potențiale în diverse industrii, inclusiv animația de imagini, generarea de portrete de inteligență artificială, comerțul electronic, realitatea virtuală și augmentată și multe altele.

Cu toate acestea, în ciuda capacităților lor remarcabile, aceste cadre se confruntă cu o provocare fundamentală: adesea au dificultăți în a genera imagini personalizate care să păstreze detalii delicate ale subiectelor umane cu acuratețe. Este important de remarcat că generarea de imagini personalizate cu detalii intrinseci este o sarcină dificilă, deoarece identitatea facială umană necesită un nivel mai ridicat de fidelitate și detalii, precum și semantice mai avansate, în comparație cu obiecte sau stiluri generale care se concentrează în primul rând pe culori sau texturi grosiere. Modelele existente de generare a imaginilor bazate pe text se bazează pe descrieri textuale detaliate și au dificultăți în a atinge o puternică relevanță semantică pentru generarea de imagini personalizate. Mai mult, unele cadre de generare a imaginilor de mare scară adaugă controale de condiționare spațială pentru a îmbunătăți controlabilitatea, facilitând controlul structural fin, utilizând elemente precum poze, hărți de adâncime, schițe desenate de utilizator, hărți de segmentare semantică și multe altele. Cu toate acestea, în ciuda acestor adăugări și îmbunătățiri, aceste cadre pot atinge doar o fidelitate parțială a imaginii generate față de imaginea de referință.

Pentru a depăși aceste provocări, cadrul InstantID se concentrează pe sinteza instantanee a identității și încearcă să acopere golul dintre eficiență și fidelitate ridicată, introducând un modul simplu plug and play care permite cadrului să gestioneze personalizarea imaginilor utilizând doar o singură imagine facială, păstrând în același timp o fidelitate ridicată. Mai mult, pentru a păstra identitatea facială din imaginea de referință, cadrul InstantID implementează un nou codator de față care păstrează detalii de imagine intrinseci, adăugând condiții spațiale slabe și condiții semantice puternice care ghidează procesul de generare a imaginilor, integrând prompturi textuale, imagini de referință și imagini faciale.

Există trei caracteristici distinctive care separă cadrul InstantID de cadrele existente de generare a imaginilor bazate pe text.

Compatibilitate și Pluggability: În loc să se antreneze pe parametrii completi ai cadrului UNet, cadrul InstantID se concentrează pe antrenarea unui adaptor ușor. Ca rezultat, cadrul InstantID este compatibil și pluggable cu modelele pre-antrenate existente.

Reglare Liberă: Metodologia cadrului InstantID elimină necesitatea de reglare fină, deoarece necesită doar o singură propagare înainte pentru inferență, făcând modelul foarte practic și economic pentru reglarea fină.
Performanță Superioară: Cadrul InstantID demonstrează o flexibilitate și fidelitate ridicată, deoarece este capabil să ofere performanțe de ultimă generație, utilizând doar o singură imagine de referință, comparabil cu metodele bazate pe antrenare care se bazează pe multiple imagini de referință.

În general, contribuțiile cadrului InstantID pot fi categorisite în următoarele puncte.

Cadrul InstantID este o metodă inovatoare de adaptare a identității pentru modelele de difuzie text-imagine pre-antrenate, cu scopul de a acoperi golul dintre eficiență și fidelitate.
Cadrul InstantID este compatibil și pluggable cu modelele personalizate, reglate fin, utilizând același model de difuzie în arhitectura sa, permițând păstrarea identității în modelele pre-antrenate, fără niciun cost suplimentar.

InstantID: Metodologie și Arhitectură

Așa cum s-a menționat anterior, cadrul InstantID este un adaptor ușor și eficient care dotează modelele de difuzie text-imagine pre-antrenate cu capacități de păstrare a identității, fără efort.

Vorbind despre arhitectură, cadrul InstantID se bazează pe modelul de difuzie stabilă, cunoscut pentru capacitatea sa de a efectua procesul de difuzie cu o eficiență computațională ridicată, într-un spațiu latent de dimensiuni reduse, în loc de spațiul de pixeli, cu un auto-encoder. Pentru o imagine de intrare, encoderul mappează imaginea la o reprezentare latentă, cu un factor de downsampling și dimensiuni latente. Mai mult, pentru a denumișa un zgomot normal distribuit, cu zgomot latent, condiție și timp de pașă, procesul de difuzie adoptă un component de denoising UNet. Condiția este o încorporare a prompturilor textuale, generate utilizând un encoder de text CLIP pre-antrenat.

Mai mult, cadrul InstantID utilizează și un component ControlNet, care este capabil să adauge control spațial la un model de difuzie pre-antrenat, ca o condiție, extinzându-se mult dincolo de capacitățile tradiționale ale prompturilor textuale. Componentul ControlNet integrează, de asemenea, arhitectura UNet din cadrul de difuzie stabilă, utilizând o replică antrenată a componentului UNet. Replica componentului UNet prezintă zero straturi de convoluție în blocurile medii și blocurile encoder. În ciuda similarităților, componentul ControlNet se diferențiază de modelul de difuzie stabilă; ambele se diferențiază în articolul residual ulterioară. Componentul ControlNet encodează informații de condiție spațială, cum ar fi poze, hărți de adâncime, schițe și multe altele, adăugând reziduurile la blocul UNet și apoi încorporând aceste reziduuri în rețeaua originală.

Cadrul InstantID se inspiră și din IP-Adapter sau Image Prompt Adapter, care introduce o abordare nouă pentru a atinge capacitățile de promptare a imaginilor, care rulează în paralel cu prompturile textuale, fără a necesita modificarea modelelor de text-imagine originale. Componentul IP-Adapter utilizează, de asemenea, o strategie de atenție decuplată, care utilizează straturi suplimentare de atenție pentru a încorpora caracteristicile de imagine, lăsând celelalte parametri nemodificați.

Metodologie

Pentru a oferi o imagine de ansamblu, cadrul InstantID își propune să genereze imagini personalizate, cu diferite stiluri sau poze, utilizând doar o singură imagine de referință, cu o fidelitate ridicată. Următoarea figură oferă o imagine de ansamblu a cadrului InstantID.

Așa cum se poate observa, cadrul InstantID are trei componente esențiale:

Un component de încorporare a identității care capturează informații semantice robuste ale caracteristicilor faciale din imagine.
Un modul de adaptare ușor, cu un component de atenție decuplat, pentru a facilita utilizarea unei imagini ca prompt vizual.
Un component IdentityNet care encodează caracteristicile detaliate din imaginea de referință, utilizând un control spațial suplimentar.

Încorporarea Identității

În contrast cu metodele existente, cum ar fi FaceStudio, PhotoMaker, IP-Adapter și altele, care se bazează pe un encoder de imagine CLIP pre-antrenat pentru a extrage prompturi vizuale, cadrul InstantID se concentrează pe fidelitatea îmbunătățită și detalii semantice puternice în sarcina de păstrare a identității. Este important de remarcat că limitările intrinseci ale componentului CLIP se află în primul rând în procesul de antrenare pe date slab aliniate, ceea ce înseamnă că caracteristicile încorporate ale encoderului CLIP capturează în primul rând informații semantice largi și ambigue, cum ar fi culori, stil și compoziție. Deși aceste caracteristici pot acționa ca un supliment general pentru încorporările de text, ele nu sunt potrivite pentru sarcini de păstrare a identității precise, care pun un accent puternic pe semantica puternică și fidelitate ridicată. Mai mult, cercetările recente în modelele de reprezentare a feței, în special în jurul recunoașterii faciale, au demonstrat eficiența reprezentării feței în sarcini complexe, inclusiv reconstrucția și recunoașterea facială. Pe baza acestor descoperiri, cadrul InstantID își propune să valorifice un model de față pre-antrenat pentru a detecta și extrage încorporări de identitate din imaginea de referință, ghidând modelul pentru generarea de imagini.

Adapter de Imagine

Capacitatea modelelor de difuzie text-imagine pre-antrenate de a îmbunătăți prompturile textuale, în special în scenarii care nu pot fi descrise adecvat de prompturile textuale. Cadrul InstantID adoptă o strategie asemănătoare cu cea utilizată de modelul IP-Adapter pentru promptarea imaginilor, care introduce un modul de adaptare ușor, împerecheat cu un component de atenție decuplat, pentru a sprijini imagini ca prompturi de intrare. Cu toate acestea, în contrast cu încorporările CLIP aliniate grosier, cadrul InstantID se abate prin utilizarea încorporărilor de identitate ca prompturi de imagine, în încercarea de a atinge o integrare a prompturilor mai semantică și mai nuanțată.

IdentityNet

Deși metodele existente sunt capabile să integreze prompturile de imagine cu prompturile textuale, cadrul InstantID susține că aceste metode nu reușesc să îmbunătățească decât caracteristicile grosiere, cu un nivel de integrare care este insuficient pentru generarea de imagini care păstrează identitatea. Mai mult, adăugarea tokenilor de imagine și text în straturile de atenție directă tinde să slăbească controlul tokenilor de text, și o încercare de a îmbunătăți puterea tokenilor de imagine poate rezulta în a afecta capacitățile tokenilor de text în sarcinile de editare. Pentru a contracara aceste provocări, cadrul InstantID optează pentru ControlNet, o metodă alternativă de încorporare a caracteristicilor, care utilizează informații spațiale ca intrare pentru modulul controlabil, permițându-i să mențină consistența cu setările UNet din modelele de difuzie.

Cadrul InstantID face două modificări arhitecturii tradiționale ControlNet: pentru intrările condiționale, cadrul InstantID optează pentru 5 puncte cheie faciale, în loc de puncte cheie faciale fine OpenPose. În al doilea rând, cadrul InstantID utilizează încorporări de identitate în loc de prompturi textuale, ca condiții pentru straturile de atenție în arhitectura ControlNet.

Antrenare și Inferență

În faza de antrenare, cadrul InstantID optimizează parametrii IdentityNet și ai modulului de adaptare, în timp ce îngheață parametrii modelului de difuzie pre-antrenat. Întregul flux de lucru InstantID este antrenat pe perechi de imagini și text care prezintă subiecte umane și utilizează un obiectiv de antrenare similar cu cel utilizat în cadrul de difuzie stabilă, cu condiții de imagine specifice sarcinii. Punctul culminant al metodei de antrenare InstantID este separarea dintre straturile de atenție pentru imagine și text în cadrul modulului de adaptare a imaginii, o alegere care permite cadrului InstantID să ajusteze greutățile acestor condiții de imagine în mod flexibil și independent, asigurând astfel un proces de inferență și antrenare mai țintit și controlat.

InstantID: Experimente și Rezultate

Cadrul InstantID implementează modelul de difuzie stabilă și îl antrenează pe LAION-Face, un set de date de mari dimensiuni, deschis și gratuit, care conține peste 50 de milioane de perechi de imagini și text. Mai mult, cadrul InstantID colectează peste 10 milioane de imagini umane, generate automat de modelul BLIP2, pentru a îmbunătăți în continuare calitatea generării de imagini. Cadrul InstantID se concentrează în primul rând pe imagini cu o singură persoană și utilizează un model de față pre-antrenat pentru a detecta și extrage încorporări de identitate din imagini umane, și în loc de a antrena seturi de date de fețe decupate, antrenează imagini umane originale. Mai mult, în timpul antrenării, cadrul InstantID îngheață modelul de text-imagine pre-antrenat și actualizează doar parametrii IdentityNet și ai modulului de adaptare.

Generare de Imagini doar cu Imagine

Modelul InstantID utilizează un prompt gol pentru a ghida procesul de generare a imaginilor, utilizând doar imaginea de referință, și rezultatele fără prompturi sunt demonstrate în imaginea de mai jos.

Generarea cu «prompt gol» demonstrează capacitatea cadrului InstantID de a menține caracteristici semantice faciale bogate, cum ar fi identitatea, vârsta și expresia, în mod robust. Cu toate acestea, este important de remarcat că utilizarea prompturilor goale nu poate reproduce rezultatele pe alte semantici, cum ar fi sexul. Mai mult, în imaginea de mai sus, coloanele 2-4 utilizează o imagine și un prompt, și, așa cum se poate vedea, imaginea generată nu demonstrează nicio degradare a capacităților de control al textului, și asigură, de asemenea, consistența identității. În final, coloanele 5-9 utilizează o imagine, un prompt și control spațial, demonstrând compatibilitatea modelului cu modelele de control spațial pre-antrenate, permițând modelului InstantID să introducă control spațial în mod flexibil, utilizând un component ControlNet pre-antrenat.

Este, de asemenea, important de remarcat că numărul de imagini de referință are un impact semnificativ asupra imaginii generate, așa cum se demonstrează în imaginea de mai sus. Deși cadrul InstantID este capabil să ofere rezultate bune utilizând o singură imagine de referință, multiple imagini de referință produc o imagine de calitate superioară, deoarece cadrul InstantID ia media medie a încorporărilor de identitate ca prompt de imagine. Continuând, este esențial să se compare cadrul InstantID cu metodele anterioare care generează imagini personalizate utilizând o singură imagine de referință. Următoarea figură compară rezultatele generate de cadrul InstantID și de modelele actuale de ultimă generație pentru generarea de imagini personalizate cu o singură referință.

Așa cum se poate vedea, cadrul InstantID este capabil să păstreze caracteristicile faciale datorită încorporărilor de identitate care întruchipează informații semantice bogate, cum ar fi identitatea, vârsta și sexul. Ar fi sigur să spunem că cadrul InstantID depășește cadrele existente în generarea de imagini personalizate, deoarece este capabil să păstreze identitatea umană, menținând în același timp controlul și flexibilitatea stilistică.

Gânduri Finale

În acest articol, am discutat despre InstantID, o soluție bazată pe modelul de difuzie pentru generarea de imagini. InstantID este un modul plug and play care gestionează generarea și personalizarea imaginilor cu pricepere, în diferite stiluri, cu doar o singură imagine de referință și asigură, de asemenea, o fidelitate ridicată. Cadrul InstantID se concentrează pe sinteza instantanee a identității și încearcă să acopere golul dintre eficiență și fidelitate ridicată, introducând un modul simplu plug and play care permite cadrului să gestioneze personalizarea imaginilor utilizând doar o singură imagine facială, păstrând în același timp o fidelitate ridicată.

Kunal Kejriwal

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.