Kunstig intelligens

InstantID: Zero-shot Identitetsbevarende Generation på få Sekunder

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

AI-dreven billedgenereringsteknologi har oplevet betydelig vækst i de seneste år, siden store tekst-til-billede-diffusionsmodeller som DALL-E, GLIDE, Stable Diffusion, Imagen og flere andre dukkede op på scenen. Selv om billedgenererings-AI-modeller har unik arkitektur og træningsmetoder, deler de alle en fælles fokus: tilpasset og personlig billedgenerering, der sigter mod at skabe billeder med konsekvent karakter-ID, emne og stil på basis af referencebilleder. Takket være deres bemærkelsesværdige generative evner, har moderne billedgenererings-AI-rammer fundet anvendelser i områder som billedanimation, virtuel virkelighed, e-handel, AI-portrætter og mere. However, selv om de har bemærkelsesværdige generative evner, deler disse rammer alle en fælles udfordring: de fleste af dem er ikke i stand til at generere tilpassede billeder, der bevarende de ømfindtlige identitetsdetaljer af menneskelige objekter.

At generere tilpassede billeder, der bevarende detaljer, er af kritisk betydning, især i menneskelige ansigtsidentitetsopgaver, der kræver en høj standard for troværdighed og detaljer, og nuancerede semantik, når de sammenlignes med almindelige objektbilledgenereringsopgaver, der koncentrerer sig primært om grove teksturer og farver. Desuden har personlige billedsyntheserammer i de seneste år som LoRA, DreamBooth, Textual Inversion og mere fremgangsigtsfuldt. However, personlige billedgenererings-AI-modeller er stadig ikke perfekte til udrulning i virkelige scenarier, da de har en høj lagringskrav, de kræver multiple referencebilleder, og de ofte har en længere finjusteringsproces.

For at imødekomme disse udfordringer og yderligere forbedre billedgenereringsfærdigheder, vil vi i denne artikel tale om InstantID, en diffusionsmodelbaseret løsning til billedgenerering. InstantID er en plug-and-play-modul, der behandler billedgenerering og personliggørelse dygtigt på tværs af forskellige stilarter med kun ét enkelt referencebillede og sikrer også høj troværdighed. Det primære formål med denne artikel er at give vores læsere en dyb forståelse af de tekniske underliggende strukturer og komponenter i InstantID-rammen, da vi vil have en detaljeret gennemgang af modellens arkitektur, træningsproces og anvendelsesscenarier. Så lad os komme i gang.

InstantID: Zero-Shot Identitetsbevarende Billedgenerering

Opkomsten af tekst-til-billede-diffusionsmodeller har bidraget betydeligt til fremgangen i billedgenereringsteknologien. Det primære formål med disse modeller er tilpasset og personlig generering, og skabelse af billeder med konsekvent emne, stil og karakter-ID ved hjælp af ét eller flere referencebilleder. Evnen af disse rammer til at skabe konsekvente billeder har skabt potentiale til anvendelser i forskellige industrier, herunder billedanimation, AI-portrætgenerering, e-handel, virtuel og forstærket virkelighed og meget mere.

However, selv om de har bemærkelsesværdige evner, står disse rammer over for en grundlæggende udfordring: de kæmper ofte med at generere tilpassede billeder, der bevarende de ømfindtlige detaljer af menneskelige subjekter nøjagtigt. Det er værd at bemærke, at generering af tilpassede billeder med indre detaljer er en udfordrende opgave, da menneskeligt ansigtsidentitet kræver en højere grad af troværdighed og detaljer samt mere avancerede semantik, når de sammenlignes med almindelige objekter eller stilarter, der fokuserer primært på farver eller grove teksturer. Eksisterende tekst-til-billede-modeller afhænger af detaljerede tekstbeskrivelser, og de kæmper med at opnå stærk semantisk relevans for tilpasset billedgenerering.

For at overvinde disse hindringer, fokuserer InstantID-rammen på øjeblikkelig identitetsbevarende billedsynthese, og forsøger at lukke gapet mellem effektivitet og høj troværdighed ved at introducere en simpel plug-and-play-modul, der tillader rammen at håndtere billedpersonliggørelse ved hjælp af kun ét enkelt ansigtsbillede, mens den bevarende høj troværdighed. Desuden til at bevare ansigtsidentiteten fra referencebilledet, implementerer InstantID-rammen en ny ansigtsencoder, der bevarende de ømfindtlige billedetaljer ved at tilføje svage rumlige og stærke semantiske betingelser, der vejleder billedgenereringsprocessen ved at inkorporere tekstprompte, landmarkbilleder og ansigtsbilleder.

Der er tre karakteristika, der adskiller InstantID-rammen fra eksisterende tekst-til-billede-genereringsrammer.

Kompatibilitet og Plug-and-Play: I stedet for at træne på fulde parametre af UNet-rammen, fokuserer InstantID-rammen på at træne en letvægtsadapter. Dette gør InstantID-rammen kompatibel og plug-and-play med eksisterende fortrænede modeller.

Finjusteringsfri: Metoden i InstantID-rammen eliminerer behovet for finjustering, da den kun kræver en enkelt fremadpropagation til inferens, hvilket gør modellen meget praktisk og økonomisk til finjustering.
Overlegen Præstation: InstantID-rammen demonstrerer høj fleksibilitet og troværdighed, da den kan levere stat-of-the-art-præstation ved hjælp af kun ét enkelt referencebillede, sammenlignelig med træningsbaserede metoder, der afhænger af multiple referencebilleder.

Samlet set kan bidragene fra InstantID-rammen kategoriseres i følgende punkter.

InstantID-rammen er en innovativ, ID-bevarende tilpasningsmetode for fortrænede tekst-til-billede-diffusionsmodeller med det formål at lukke gapet mellem effektivitet og troværdighed.
InstantID-rammen er kompatibel og plug-and-play med tilpassede finjusterede modeller, der bruger den samme diffusionsmodel i sin arkitektur, hvilket tillader ID-bevarelse i fortrænede modeller uden ekstra omkostninger.

InstantID: Metode og Arkitektur

Som nævnt tidligere er InstantID-rammen en effektiv letvægtsadapter, der giver fortrænede tekst-til-billede-diffusionsmodeller ID-bevarelsesevner uden besvær.

Når det kommer til arkitekturen, er InstantID-rammen bygget oven på Stable Diffusion-modellen, der er kendt for sin evne til at udføre diffusionsprocessen med høj beregnings-effektivitet i et lavdimensionelt latentspace i stedet for pixelspace med en autoencoder. For et inputbillede, mapper encoderen først billedet til en latent repræsentation med downsampling-faktor og latent dimensioner. Desuden til at støje en normalt fordelt støj med støjigt latent, betingelse og nuværende tidssteg, adopterer diffusionsprocessen en støjenings-UNet-komponent. Betingelsen er en embedding af tekstprompte, der genereres ved hjælp af en fortrænet CLIP-tekstencoder-komponent.

Desuden bruger InstantID-rammen også en ControlNet-komponent, der kan tilføje rumlig kontrol til en fortrænet diffusionsmodel som dens betingelse, hvilket går langt ud over de traditionelle muligheder for tekstprompte. ControlNet-komponenten integrerer også UNet-arkitekturen fra Stable Diffusion-rammen ved hjælp af en trænet kopi af UNet-komponenten. Kopien af UNet-komponenten har ingen convolutionelle lag i midterste blokke og encoder-blokke. Selv om de ligner hinanden, adskiller ControlNet-komponenten sig fra Stable Diffusion-modellen; de to adskiller sig i den sidste restpost. ControlNet-komponenten encoderer rumlige betingelsesinformationer som stillinger, dybdekort, skitser og mere ved at tilføje restposterne til UNet-blokken og derefter embedde disse restposter i den originale netværk.

InstantID-rammen søger også inspiration fra IP-Adapter eller Image Prompt Adapter, der introducerer en ny tilgang til at opnå billedprompt-funktioner, der kører parallelt med tekstprompte uden at kræve ændring af de originale tekst-til-billede-modeller. IP-Adapter-komponenten bruger også en unik decoupled cross-attention-strategi, der anvender ekstra cross-attention-lag til at embedde billedfunktioner, mens de andre parametre forbliver uændrede.

Metode

For at give dig en kort oversigt, sigter InstantID-rammen mod at generere tilpassede billeder med forskellige stilarter eller stillinger ved hjælp af kun ét enkelt reference-ID-billede med høj troværdighed. Følgende figur giver en kort oversigt over InstantID-rammen.

Som det kan ses, har InstantID-rammen tre essentielle komponenter:

En ID-embedding-komponent, der fanger robust semantisk information om ansigtsfunktioner i billedet.
En letvægtsadapter-modul med en decoupled cross-attention-komponent til at facilitere brugen af et billede som et visuelt prompt.
En IdentityNet-komponent, der encoderer detaljerede funktioner fra referencebilledet ved hjælp af ekstra rumlig kontrol.

ID-Embedding

I modsætning til eksisterende metoder som FaceStudio, PhotoMaker, IP-Adapter og mere, der afhænger af en fortrænet CLIP-billede-encoder til at trække billedprompte, fokuserer InstantID-rammen på forbedret troværdighed og stærkere semantiske detaljer i ID-bevarelsesopgaven. Det er værd at bemærke, at de indre begrænsninger af CLIP-komponenten ligger primært i dens træningsproces på svagt alignet data, hvilket betyder, at de encodede funktioner af CLIP-encoderen primært fanger brede og tvetydige semantiske informationer som farver, stil og komposition. Selv om disse funktioner kan fungere som generelle supplement til tekst-embeddings, er de ikke egnede til præcise ID-bevarelsesopgaver, der lægger stor vægt på stærk semantik og høj troværdighed.

Billedadapter

Evnen af fortrænede tekst-til-billede-diffusionsmodeller i billedprompt-opgaver forbedrer tekstprompte betydeligt, især i scenarier, der ikke kan beskrives tilstrækkeligt af tekstprompte. InstantID-rammen adopterer en strategi, der ligner den, der bruges af IP-Adapter-modellen til billedprompt, der introducerer en letvægtsadapter-modul parret med en decoupled cross-attention-komponent til at understøtte billeder som input-prompte. However, i modsætning til de grove-alignede CLIP-embeddings, afviger InstantID-rammen ved at anvende ID-embeddings som billedprompte i et forsøg på at opnå en semantisk rig og mere nuanceret prompt-integration.

IdentityNet

Selv om eksisterende metoder kan integrere billedprompte med tekstprompte, argumenterer InstantID-rammen for, at disse metoder kun forbedrer grove funktioner med et niveau af integration, der er utilstrækkeligt til ID-bevarende billedgenerering. Desuden kan tilføjelse af billed- og tekst-token i cross-attention-lag direkte svække kontrollen af tekst-token, og et forsøg på at forbedre billed-token kan resultere i at svække evnerne af tekst-token på redigeringsopgaver.

For at imødekomme disse udfordringer, vælger InstantID-rammen ControlNet, en alternativ funktion-embedding-metode, der anvender rumlige informationer som input til den kontrollerbare modul, hvilket tillader den at bevare konsistens med UNet-indstillingerne i diffusionsmodellerne.

InstantID-rammen foretager to ændringer af den traditionelle ControlNet-arkitektur: for betingelses-input, vælger InstantID-rammen 5 ansigtsnøglepunkter i stedet for fine-grainede OpenPose-ansigtsnøglepunkter. For det andet, bruger InstantID-rammen ID-embeddings i stedet for tekstprompte som betingelser for cross-attention-lagene i ControlNet-arkitekturen.

Træning og Inferens

Under træningsfasen, optimerer InstantID-rammen parametrene af IdentityNet og Billedadapter, mens den fryser parametrene af den fortrænede diffusionsmodel. Den samlede InstantID-pipeline trænes på billed-tekst-par, der indeholder menneskelige subjekter, og anvender et træningsmål, der ligner det, der bruges i Stable Diffusion-rammen med opgave-specifikke billedbetingelser.

InstantID: Eksperimenter og Resultater

InstantID-rammen implementerer Stable Diffusion og træner den på LAION-Face, en stor åben kilde-dataset, der består af over 50 millioner billed-tekst-par. Desuden samler InstantID-rammen over 10 millioner menneskelige billeder med automatiske genereringer, der genereres automatisk af BLIP2-modellen for at yderligere forbedre billedgenereringskvaliteten.

Billedgenerering alene

InstantID-modellen bruger en tom prompt til at vejlede billedgenereringsprocessen ved hjælp af kun ét enkelt referencebillede, og resultaterne uden prompte demonstreres i følgende billede.

‘Tom prompt’-generering, som demonstreres i ovenstående billede, demonstrerer evnen af InstantID-rammen til at bevare rige semantiske ansigtsfunktioner som identitet, alder og udtryk robust.

Afsluttende tanker

I denne artikel har vi talt om InstantID, en diffusionsmodelbaseret løsning til billedgenerering. InstantID er en plug-and-play-modul, der behandler billedgenerering og personliggørelse dygtigt på tværs af forskellige stilarter med kun ét enkelt referencebillede og sikrer også høj troværdighed.

Kunal Kejriwal

En ingeniør af profession, en forfatter af hjerte. Kunal er en teknisk forfatter med en dyb kærlighed og forståelse af AI og ML, dedikeret til at forenkle komplekse koncepter inden for disse felter gennem sin engagerende og informative dokumentation.