Kunstmatige intelligentie

InstantID: Zero-shot Identity-Preserving Generatie in Seconden

Published March 12, 2024

Updated April 27, 2026

Kunal Kejriwal

AI-gebaseerde beeldgeneratietechnologie heeft de afgelopen jaren een opmerkelijke groei doorgemaakt sinds grote tekst-naar-beeld-diffusiemodellen zoals DALL-E, GLIDE, Stable Diffusion, Imagen en meer op het toneel verschenen. Ondanks het feit dat beeldgeneratie-AI-modellen een unieke architectuur en trainingsmethoden hebben, delen ze allemaal een gemeenschappelijk focal point: aangepaste en gepersonaliseerde beeldgeneratie die erop gericht is om beelden te creëren met een consistente karakter-ID, onderwerp en stijl op basis van referentiebeelden. Vanwege hun opmerkelijke generatieve mogelijkheden hebben moderne beeldgeneratie-AI-kaders toepassingen gevonden in gebieden zoals beeldanimatie, virtuele realiteit, e-commerce, AI-portretten en meer. Echter, ondanks hun opmerkelijke generatieve mogelijkheden, delen deze kaders allemaal een gemeenschappelijke hindernis, de meeste van hen zijn niet in staat om aangepaste beelden te genereren terwijl ze de delicate identiteitsdetails van menselijke objecten behouden.

Het genereren van aangepaste beelden terwijl intrigerende details worden behouden, is van kritiek belang, vooral bij menselijke gezichtsidentiteitstaken die een hoge standaard van geloofwaardigheid en detail vereisen, en nuanceerde semantiek in vergelijking met algemene objectbeeldgeneratietaken die zich voornamelijk richten op grofkorrelige texturen en kleuren. Bovendien hebben gepersonaliseerde beeldsynthesekaders in recente jaren zoals LoRA, DreamBooth, Textual Inversion en meer aanzienlijk vooruitgang geboekt. Echter, gepersonaliseerde beeldgeneratie-AI-modellen zijn nog steeds niet perfect voor implementatie in real-world-scenario’s, omdat ze een hoge opslagvereiste hebben, meerdere referentiebeelden vereisen en ze vaak een langdurig fine-tuningsproces hebben. Aan de andere kant, hoewel bestaande ID-embedding-gebaseerde methoden slechts één enkele forward-referentie vereisen, ontbreken ze aan compatibiliteit met openbaar beschikbare vooraf getrainde modellen, of ze vereisen een overmatig fine-tuningsproces over meerdere parameters, of ze falen om een hoge gezichtsgeloofwaardigheid te behouden.

Om deze uitdagingen aan te pakken en de beeldgeneratiemogelijkheden verder te verbeteren, zullen we in dit artikel praten over InstantID, een diffusiemodel-gebaseerde oplossing voor beeldgeneratie. InstantID is een plug-and-play-module die beeldgeneratie en personalisatie op een adequate manier afhandelt over verschillende stijlen met slechts één referentiebeeld en zorgt ook voor een hoge geloofwaardigheid. Het primaire doel van dit artikel is om onze lezers een grondige kennis te geven van de technische onderbouwing en componenten van het InstantID-kader, aangezien we een gedetailleerde blik zullen werpen op de architectuur, het trainingsproces en de toepassingsscenario’s van het model. Laten we beginnen.

InstantID: Zero-Shot Identity-Preserving Beeldgeneratie

De opkomst van tekst-naar-beeld-diffusiemodellen heeft aanzienlijk bijgedragen aan de vooruitgang van beeldgeneratietechnologie. Het primaire doel van deze modellen is aangepaste en persoonlijke generatie, en het creëren van beelden met een consistente onderwerp, stijl en karakter-ID met behulp van één of meerdere referentiebeelden. De mogelijkheid van deze kaders om consistente beelden te creëren, heeft potentieel toepassingen gecreëerd in verschillende industrieën, waaronder beeldanimatie, AI-portretgeneratie, e-commerce, virtuele en verbeterde realiteit, en veel meer.

Echter, ondanks hun opmerkelijke mogelijkheden, hebben deze kaders een fundamentele uitdaging: ze worstelen vaak om aangepaste beelden te genereren die de intrigerende details van menselijke onderwerpen nauwkeurig behouden. Het is de moeite waard om op te merken dat het genereren van aangepaste beelden met intrinsieke details een moeilijke taak is, aangezien menselijke gezichtsidentiteit een hogere mate van geloofwaardigheid en detail vereist, evenals geavanceerdere semantiek in vergelijking met algemene objecten of stijlen die zich voornamelijk richten op kleuren of grofkorrelige texturen. Bestaande tekst-naar-beeld-modellen zijn afhankelijk van gedetailleerde tekstuele beschrijvingen en worstelen met het bereiken van een sterke semantische relevantie voor aangepaste beeldgeneratie. Bovendien voegen sommige grote vooraf getrainde tekst-naar-beeld-kaders spatiale conditiecontroles toe om de controleerbaarheid te verbeteren, waardoor fijnekorrelige structurele controle mogelijk wordt met behulp van elementen zoals lichaamshoudingen, dieptekaarten, gebruikersgetekende schetsen, semantische segmentatiekaarten en meer. Echter, ondanks deze toevoegingen en verbeteringen, zijn deze kaders alleen in staat om een gedeeltelijke geloofwaardigheid van de gegenereerde beelden tot de referentiebeelden te bereiken.

Om deze hindernissen te overwinnen, richt het InstantID-kader zich op instant identity-preserving beeldsynthese en probeert het de kloof tussen efficiëntie en hoge geloofwaardigheid te overbruggen door een eenvoudige plug-and-play-module in te voeren die het kader in staat stelt om beeldpersonalisatie af te handelen met behulp van slechts één gezichtsbeeld, terwijl het een hoge geloofwaardigheid behoudt. Bovendien, om de gezichtsidentiteit van het referentiebeeld te behouden, voert het InstantID-kader een novum gezichtsencoder in die de intrigerende beelddetails behoudt door zwakke spatiale en sterke semantische condities toe te voegen die de beeldgeneratieproces leiden door tekstuele prompts, landmarkbeelden en gezichtsbeelden te incorporeren.

Er zijn drie onderscheidende kenmerken die het InstantID-kader onderscheiden van bestaande tekst-naar-beeld-generatiekaders.

Compatibiliteit en Pluggability: In plaats van het trainen van de volledige parameters van de UNet-architectuur, richt het InstantID-kader zich op het trainen van een lichtgewicht adapter. Als gevolg hiervan is het InstantID-kader compatibel en pluggable met bestaande vooraf getrainde modellen.

Tuning-Free: De methodologie van het InstantID-kader elimineert de behoefte aan fine-tuning, aangezien het slechts één enkele forward-propagatie voor inferentie nodig heeft, waardoor het model zeer praktisch en economisch is voor fine-tuning.
Superieure Prestatie: Het InstantID-kader toont een hoge flexibiliteit en geloofwaardigheid, aangezien het in staat is om state-of-the-art-prestaties te leveren met behulp van slechts één referentiebeeld, vergelijkbaar met trainingsgebaseerde methoden die afhankelijk zijn van meerdere referentiebeelden.

Algemeen gezien kunnen de bijdragen van het InstantID-kader worden gecategoriseerd in de volgende punten.

Het InstantID-kader is een innovatieve, ID-preserving adaptatiemethode voor vooraf getrainde tekst-naar-beeld-diffusiemodellen met als doel de kloof tussen efficiëntie en geloofwaardigheid te overbruggen.
Het InstantID-kader is compatibel en pluggable met aangepaste fine-tuned modellen met behulp van dezelfde diffusiemodel in zijn architectuur, waardoor ID-preserving mogelijk wordt in vooraf getrainde modellen zonder extra kosten.

InstantID: Methodologie en Architectuur

Zoals eerder vermeld, is het InstantID-kader een efficiënte lichtgewicht adapter die vooraf getrainde tekst-naar-beeld-diffusiemodellen uitrust met ID-preserving-mogelijkheden.

Het bespreken van de architectuur, is het InstantID-kader gebouwd op de Stable Diffusion model, beroemd om zijn vermogen om het diffusieproces uit te voeren met een hoge computationele efficiëntie in een lage-dimensionale latent ruimte in plaats van pixelruimte met een auto-encoder. Voor een invoerbeeld, kaart de encoder het beeld eerst naar een latent representatie met downsampling factor en latent dimensies. Bovendien, om een normaal verdeelde ruis met een lawaaierig latent, conditie en huidige tijdstap te denoiseren, past het diffusieproces een denoiser UNet-component toe. De conditie is een embedding van tekstuele prompts die gegenereerd worden met behulp van een vooraf getrainde CLIP-tekstencoder-component.

Bovendien maakt het InstantID-kader ook gebruik van een ControlNet-component die in staat is om spatiale controle toe te voegen aan een vooraf getraind diffusiemodel als zijn conditie, verdergaand dan de traditionele mogelijkheden van tekstuele prompts. De ControlNet-component integreert ook de UNet-architectuur van het Stable Diffusion-kader met behulp van een getrainde replica van de UNet-component. De replica van de UNet-component heeft nul convolutie-lagen in de middelste blokken en de encoder-blokken. Ondanks hun overeenkomsten, onderscheidt de ControlNet-component zich van het Stable Diffusion-model; ze verschillen in het laatste residu-item. De ControlNet-component codeert spatiale conditie-informatie zoals poses, dieptekaarten, schetsen en meer door de residuen toe te voegen aan de UNet-blok, en embedt deze residuen vervolgens in het originele netwerk.

Het InstantID-kader put ook inspiratie uit IP-Adapter of Image Prompt Adapter die een novum aanpak introduceert om beeldprompt-mogelijkheden te bereiken die parallel lopen met tekstuele prompts zonder de originele tekst-naar-beeld-modellen te hoeven modificeren. De IP-Adapter-component maakt ook gebruik van een unieke decoupled cross-attention-strategie die extra cross-attention-lagen gebruikt om de beeldfuncties te embedden, terwijl de andere parameters ongewijzigd blijven.

Methodologie

Om u een korte overzicht te geven, heeft het InstantID-kader als doel om aangepaste beelden te genereren met verschillende stijlen of poses met behulp van slechts één referentie-ID-beeld met een hoge geloofwaardigheid. De volgende figuur geeft een overzicht van het InstantID-kader.

Zoals te zien is, heeft het InstantID-kader drie essentiële componenten:

Een ID-embedding-component die robuuste semantische informatie van de gezichtskenmerken in het beeld vastlegt.
Een lichtgewicht aangepaste module met een decoupled cross-attention-component om het gebruik van een beeld als visuele prompt te faciliteren.
Een IdentityNet-component die de gedetailleerde functies van het referentiebeeld codeert met behulp van extra spatiale controle.

ID-Embedding

In tegenstelling tot bestaande methoden zoals FaceStudio, PhotoMaker, IP-Adapter en meer die afhankelijk zijn van een vooraf getrainde CLIP-beeldencoder om visuele prompts te extraheren, richt het InstantID-kader zich op verbeterde geloofwaardigheid en sterke semantische details in de ID-preserving-taak. Het is de moeite waard om op te merken dat de inherente beperkingen van de CLIP-component voornamelijk liggen in zijn trainingsproces op zwak gealigneerde gegevens, wat betekent dat de geëncodeerde functies van de CLIP-encoder voornamelijk brede en vaage semantische informatie vastleggen, zoals kleuren, stijl en compositie. Hoewel deze functies kunnen dienen als een algemene aanvulling op tekstembeddings, zijn ze niet geschikt voor precieze ID-preserving-taken die een sterke semantiek en hoge geloofwaardigheid vereisen. Bovendien heeft recent onderzoek in gezichtsrepresentatiemodellen, vooral op het gebied van gezichtsherkenning, de efficiëntie van gezichtsrepresentatie aangetoond in complexe taken, waaronder gezichtsreconstructie en herkenning. Het InstantID-kader maakt gebruik van een vooraf getraind gezichtsmodel om gezichts-ID-embeddings te detecteren en te extraheren uit het referentiebeeld, waardoor het model wordt geleid voor beeldgeneratie.

Beeldadapter

De mogelijkheid van vooraf getrainde tekst-naar-beeld-diffusiemodellen in beeldprompt-taken verhoogt de tekstprompts aanzienlijk, vooral in scenario’s die niet adequaat kunnen worden beschreven door de tekstprompts. Het InstantID-kader neemt een strategie over die lijkt op die van de IP-Adapter-model voor beeldprompten, die een lichtgewicht adaptatiemodule introduceert die is gekoppeld aan een decoupled cross-attention-component om beelden als invoerprompts te ondersteunen. Echter, in tegenstelling tot de grof gealigneerde CLIP-embeddings, wijkt het InstantID-kader af door het gebruik van ID-embeddings als beeldprompts in een poging om een semantisch rijke en meer nuanceerde prompt-integratie te bereiken.

IdentityNet

Hoewel bestaande methoden in staat zijn om beeldprompts te integreren met tekstprompts, stelt het InstantID-kader dat deze methoden alleen grofkorrelige functies verhogen met een niveau van integratie dat onvoldoende is voor ID-preserving beeldgeneratie. Bovendien kan het toevoegen van beeld- en teksttokens in cross-attention-lagen rechtstreeks leiden tot een verzwakking van de controle van teksttokens, en een poging om de sterkte van beeldtokens te verhogen kan resulteren in het schaden van de mogelijkheden van teksttokens op bewerkingsTaken. Om deze uitdagingen te counteren, kiest het InstantID-kader voor ControlNet, een alternatieve functie-embedding-methode die spatiale informatie als invoer voor de controleerbare module gebruikt, waardoor het in staat is om consistent te blijven met de UNet-instellingen in de diffusiemodellen.

Het InstantID-kader maakt twee wijzigingen in de traditionele ControlNet-architectuur: voor conditionele invoer, kiest het InstantID-kader voor 5 gezichtskenmerken in plaats van fijnekorrelige OpenPose-gezichtskenmerken. Ten tweede gebruikt het InstantID-kader ID-embeddings in plaats van tekstprompts als condities voor de cross-attention-lagen in de ControlNet-architectuur.

Trainen en Inferentie

Tijdens de trainingsfase, optimaliseert het InstantID-kader de parameters van de IdentityNet en de Beeldadapter, terwijl het de parameters van het vooraf getrainde diffusiemodel bevriest. De gehele InstantID-pijplijn wordt getraind op beeld-tekst-paren die menselijke onderwerpen bevatten, en maakt gebruik van een trainingsdoel dat vergelijkbaar is met dat van het Stable Diffusion-kader met taakspecifieke beeldcondities. Het hoogtepunt van de InstantID-trainingsmethode is de scheiding tussen de beeld- en tekst-cross-attention-lagen binnen de beeldprompt-adapter, een keuze die het InstantID-kader in staat stelt om de gewichten van deze beeldcondities flexibel en onafhankelijk aan te passen, waardoor een meer gerichte en gecontroleerde inferentie- en trainingsproces wordt gewaarborgd.

InstantID: Experimenten en Resultaten

Het InstantID-kader implementeert het Stable Diffusion en traint het op LAION-Face, een grote open-source dataset die bestaat uit meer dan 50 miljoen beeld-tekst-paren. Bovendien verzamelt het InstantID-kader meer dan 10 miljoen menselijke beelden met automatiseringen die automatisch worden gegenereerd door het BLIP2-model om de beeldgeneratiekwaliteit verder te verbeteren. Het InstantID-kader richt zich voornamelijk op single-persoonsbeelden en maakt gebruik van een vooraf getraind gezichtsmodel om gezichts-ID-embeddings te detecteren en te extraheren uit menselijke beelden, en in plaats van het trainen van de gewijzigde gezichtsdatasets, traint het de oorspronkelijke menselijke beelden. Bovendien, tijdens de training, bevriest het InstantID-kader het vooraf getrainde tekst-naar-beeld-model en werkt het alleen de parameters van de IdentityNet en de Beeldadapter bij.

Beeld-Alleen Generatie

Het InstantID-model gebruikt een lege prompt om het beeldgeneratieproces te leiden met behulp van slechts het referentiebeeld, en de resultaten zonder prompts worden gedemonstreerd in de volgende afbeelding.

‘Lege Prompt’-generatie, zoals gedemonstreerd in de bovenstaande afbeelding, toont de mogelijkheid van het InstantID-kader om rijke semantische gezichtskenmerken zoals identiteit, leeftijd en expressie robuust te behouden. Echter, het is de moeite waard om op te merken dat het gebruik van lege prompts mogelijk niet in staat is om de resultaten op andere semantiek zoals geslacht nauwkeurig te repliceren. Bovendien, in de bovenstaande afbeelding, gebruiken de kolommen 2 tot 4 een beeld en een prompt, en zoals te zien is, toont het gegenereerde beeld geen degradatie van tekstcontrole-mogelijkheden en behoudt het ook identiteitsconsistentie. Ten slotte, de kolommen 5 tot 9 gebruiken een beeld, een prompt en spatiale controle, waardoor de compatibiliteit van het model met vooraf getrainde spatiale controle-modellen wordt gedemonstreerd, waardoor het InstantID-model in staat is om flexibel spatiale controles in te voeren met behulp van een vooraf getrainde ControlNet-component.

Het is ook de moeite waard om op te merken dat het aantal referentiebeelden een significante invloed heeft op het gegenereerde beeld, zoals gedemonstreerd in de bovenstaande afbeelding. Hoewel het InstantID-kader in staat is om goede resultaten te leveren met behulp van één referentiebeeld, produceren meerdere referentiebeelden een betere kwaliteit beeld, omdat het InstantID-kader de gemiddelde mediaan van ID-embeddings als beeldprompt neemt. Verdergaand, is het essentieel om het InstantID-kader te vergelijken met bestaande methoden die gepersonaliseerde beelden genereren met behulp van één referentiebeeld. De volgende figuur vergelijkt de resultaten gegenereerd door het InstantID-kader en bestaande state-of-the-art-modellen voor single-referentie-aangepaste beeldgeneratie.

Zoals te zien is, is het InstantID-kader in staat om gezichtskenmerken te behouden dankzij ID-embedding die inherent rijke semantische informatie bevat, zoals identiteit, leeftijd en geslacht. Het zou veilig zijn om te zeggen dat het InstantID-kader bestaande kaders overtreft in aangepaste beeldgeneratie, aangezien het in staat is om menselijke identiteit te behouden terwijl het controle en stylistische flexibiliteit behoudt.

Slotgedachten

In dit artikel hebben we gesproken over InstantID, een diffusiemodel-gebaseerde oplossing voor beeldgeneratie. InstantID is een plug-and-play-module die beeldgeneratie en personalisatie op een adequate manier afhandelt over verschillende stijlen met slechts één referentiebeeld en zorgt ook voor een hoge geloofwaardigheid. Het InstantID-kader richt zich op instant identity-preserving beeldsynthese en probeert de kloof tussen efficiëntie en hoge geloofwaardigheid te overbruggen door een eenvoudige plug-and-play-module in te voeren die het kader in staat stelt om beeldpersonalisatie af te handelen met behulp van slechts één gezichtsbeeld, terwijl het een hoge geloofwaardigheid behoudt.

Kunal Kejriwal

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.