Artificiell intelligens

InstantID: Zero-shot Identity-Preserving Generation på några sekunder

Published March 12, 2024

Updated April 27, 2026

Kunal Kejriwal

AI-drivna bildgenereringsteknologier har sett en anmärkningsvärd tillväxt under de senaste åren, sedan stora text-till-bild-diffusionsmodeller som DALL-E, GLIDE, Stable Diffusion, Imagen och fler exploderade på scenen. Trots att bildgenererings-AI-modellerna har unika arkitekturer och träningsmetoder, delar de alla en gemensam fokuspunkt: anpassad och personlig bildgenerering som syftar till att skapa bilder med konsekvent karaktär-ID, ämne och stil baserat på referensbilder. På grund av deras anmärkningsvärda generativa förmågor har moderna bildgenererings-AI-ramverk funnit tillämpningar inom områden som bildanimation, virtuell verklighet, e-handel, AI-porträtt och mycket mer. Men trots deras anmärkningsvärda generativa förmågor delar dessa ramverk alla en gemensam utmaning: de flesta av dem kan inte generera anpassade bilder samtidigt som de bevarar de känsliga identitetsdetaljerna för mänskliga föremål.

Att generera anpassade bilder samtidigt som man bevarar intrikata detaljer är av avgörande betydelse, särskilt i uppgifter som rör mänsklig ansiktsidentitet som kräver en hög standard för trohet och detalj, och nyanserad semantik jämfört med allmänna objektbildgenereringsuppgifter som koncentrerar sig främst på grova texturer och färger. Dessutom har personliga bildsyntesramverk under de senaste åren, som LoRA, DreamBooth, Textual Inversion och fler, utvecklats avsevärt. Men personliga bildgenererings-AI-modeller är fortfarande inte perfekta för distribution i verkliga scenarier, eftersom de har höga lagringskrav, kräver flera referensbilder och ofta har en lång finjusteringsprocess. Å andra sidan kräver befintliga ID-inbäddningsbaserade metoder endast en enda framåtriktad referens, men de saknar antingen kompatibilitet med offentligt tillgängliga förtränade modeller, eller kräver en överdriven finjusteringsprocess över många parametrar, eller misslyckas med att upprätthålla hög ansikts trohet.

För att tackla dessa utmaningar och ytterligare förbättra bildgenereringsförmågorna kommer vi i den här artikeln att prata om InstantID, en diffusionsmodellbaserad lösning för bildgenerering. InstantID är en plug and play-modul som hanterar bildgenerering och personanpassning skickligt över olika stilar med endast en referensbild och säkerställer också hög trohet. Det primära syftet med den här artikeln är att ge våra läsare en grundlig förståelse för de tekniska underbyggnaderna och komponenterna i InstantID-ramverket, eftersom vi kommer att titta närmare på modellens arkitektur, träningsprocess och tillämpningsscenarier. Så låt oss komma igång.

InstantID: Zero-Shot Identity-Preserving Bildgenerering

Uppkomsten av text-till-bild-diffusionsmodeller har bidragit betydligt till utvecklingen av bildgenereringsteknologin. Det primära syftet med dessa modeller är anpassad och personlig generering, och skapande av bilder med konsekvent ämne, stil och karaktär-ID med hjälp av en eller flera referensbilder. Förmågan hos dessa ramverk att skapa konsekventa bilder har skapat potentiella tillämpningar inom olika branscher, inklusive bildanimation, AI-porträttgenerering, e-handel, virtuell och förstärkt verklighet och mycket mer.

Men trots deras anmärkningsvärda förmågor möter dessa ramverk en grundläggande utmaning: de kämpar ofta för att generera anpassade bilder som bevarar de intrikata detaljerna för mänskliga föremål exakt. Det är värt att notera att att generera anpassade bilder med intrinsiska detaljer är en utmanande uppgift, eftersom mänsklig ansiktsidentitet kräver en högre grad av trohet och detalj, tillsammans med mer avancerad semantik, jämfört med allmänna föremål eller stilar som fokuserar främst på färger eller grova texturer. Befintliga text-till-bild-modeller är beroende av detaljerade textbeskrivningar och kämpar för att uppnå stark semantisk relevans för anpassad bildgenerering. Dessutom lägger vissa stora förtränade text-till-bild-ramverk till spatiala styrningskontroller för att förbättra styrbarheten, vilket möjliggör finare strukturstyrning med hjälp av element som kroppsställningar, djupkartor, användarskapade skisser, semantiska segmenteringskartor och mer. Men trots dessa tillägg och förbättringar kan dessa ramverk endast uppnå partiell trohet för den genererade bilden i förhållande till referensbilden.

För att övervinna dessa hinder fokuserar InstantID-ramverket på omedelbar identitetsbevarande bildsyntes och försöker att överbrygga gapet mellan effektivitet och hög trohet genom att införa en enkel plug and play-modul som möjliggör för ramverket att hantera bildpersonanpassning med endast en ansiktsbild samtidigt som den upprätthåller hög trohet. Dessutom, för att bevara ansiktsidentiteten från referensbilden, implementerar InstantID-ramverket en ny ansiktskodare som bevarar de intrikata bildinformationerna genom att lägga till svaga spatiala och starka semantiska villkor som vägleder bildgenereringsprocessen genom att inkorporera textprompts, landmark-bilder och ansiktsbilder.

Det finns tre distinkta funktioner som skiljer InstantID-ramverket från befintliga text-till-bild-genereringsramverk.

Kompatibilitet och Plugghet: Istället för att träna på fulla parametrar för UNet-ramverket, fokuserar InstantID-ramverket på att träna en lättviktig adapter. Som ett resultat är InstantID-ramverket kompatibelt och plug-and-play med befintliga förtränade modeller.

Finjusteringsfri: Metodiken för InstantID-ramverket eliminerar behovet av finjustering, eftersom det endast kräver en enda framåtriktad propagation för inferens, vilket gör modellen mycket praktisk och ekonomisk för finjustering.
Överlägsen prestanda: InstantID-ramverket visar hög flexibilitet och trohet, eftersom det kan leverera toppmodellprestanda med endast en referensbild, jämförbar med träningsbaserade metoder som förlitar sig på flera referensbilder.

Sammanfattningsvis kan bidragen från InstantID-ramverket kategoriseras i följande punkter.

InstantID-ramverket är en innovativ, ID-bevarande anpassningsmetod för förtränade text-till-bild-diffusionsmodeller med syftet att överbrygga gapet mellan effektivitet och trohet.
InstantID-ramverket är kompatibelt och plug-and-play med anpassade finjusterade modeller som använder samma diffusionsmodell i sin arkitektur, vilket möjliggör ID-bevarande i förtränade modeller utan någon extra kostnad.

InstantID: Metodik och Arkitektur

Som nämnts tidigare är InstantID-ramverket en effektiv lättviktig adapter som utrustar förtränade text-till-bild-diffusionsmodeller med ID-bevarandeegenskaper utan ansträngning.

När det gäller arkitektur är InstantID-ramverket byggt ovanpå Stable Diffusion-modellen, som är känd för sin förmåga att utföra diffusionsprocessen med hög beräknings-effektivitet i ett lågdimensionellt latentspace istället för pixelläge med en autoencoder. För en ingångsbild kartar encodern först bilden till en latent representation med ned sampel faktor och latent dimensioner. Dessutom, för att avlägsna ett normalt fördelat brus med brusigt latent, villkor och aktuell tidssteg, antar diffusionsprocessen en avlägsnande UNet-komponent. Villkoret är en inbäddning av textprompts som genereras med hjälp av en förtränad CLIP-textencoder-komponent.

Dessutom använder InstantID-ramverket också en ControlNet-komponent som kan lägga till spatial styrning till en förtränad diffusionsmodell som dess villkor, utökar sig långt bortom de traditionella förmågorna hos textprompts. ControlNet-komponenten integrerar också UNet-arkitekturen från Stable Diffusion-ramverket med hjälp av en tränad replik av UNet-komponenten. Repliken av UNet-komponenten har noll konvolutionslager inom mittenblocken och encodarblocken. Trots deras likheter skiljer sig ControlNet-komponenten från Stable Diffusion-modellen; de båda skiljer sig i den senare residuella artikeln. ControlNet-komponenten kodar spatiala villkorsinformation som poser, djupkartor, skisser och mer genom att lägga till residuen till UNet-blocket och sedan inbäddar dessa residuer i det ursprungliga nätverket.

InstantID-ramverket hämtar också inspiration från IP-Adapter eller Image Prompt Adapter som introducerar en ny metod för att uppnå bildpromptförmågor som körs parallellt med textprompts utan att behöva modifiera de ursprungliga text-till-bild-modellerna. IP-Adapter-komponenten använder också en unik avkopplad cross-attention-strategi som använder ytterligare cross-attention-lager för att inbädda bildfunktionerna medan de andra parametrarna förblir oförändrade.

Metodik

För att ge er en översiktlig bild syftar InstantID-ramverket till att generera anpassade bilder med olika stilar eller poser med hjälp av endast en referens-ID-bild med hög trohet. Följande figur ger en översikt av InstantID-ramverket.

Som det kan observeras har InstantID-ramverket tre väsentliga komponenter:

En ID-inbäddningskomponent som fångar robust semantisk information om ansiktsfunktionerna i bilden.
En lättviktig anpassad modul med en avkopplad cross-attention-komponent för att underlätta användningen av en bild som en visuell prompt.
En IdentityNet-komponent som kodar de detaljerade funktionerna från referensbilden med hjälp av ytterligare spatial styrning.

ID-inbäddning

Till skillnad från befintliga metoder som FaceStudio, PhotoMaker, IP-Adapter och fler som förlitar sig på en förtränad CLIP-bildencoder för att extrahera visuella prompts, fokuserar InstantID-ramverket på förbättrad trohet och starkare semantiska detaljer i ID-bevarandeuppgiften. Det är värt att notera att de inbyggda begränsningarna i CLIP-komponenten ligger främst i dess träningsprocess på svagt anpassade data, vilket innebär att de kodade funktionerna i CLIP-encodern främst fångar breda och tvetydiga semantiska information som färger, stil och komposition. Även om dessa funktioner kan fungera som allmänna supplement till textinbäddningar, är de inte lämpliga för precisa ID-bevarandeuppgifter som lägger stor vikt vid stark semantik och hög trohet. Dessutom har nylig forskning inom ansiktsrepresentationsmodeller, särskilt inom ansiktsigenkänning, visat effektiviteten i ansiktsrepresentation i komplexa uppgifter som ansiktsrekonstruktion och igenkänning. Byggande på detta syftar InstantID-ramverket till att utnyttja en förtränad ansiktsmodell för att upptäcka och extrahera ID-inbäddningar från referensbilden, vilket vägleder modellen för bildgenerering.

Bildadapter

Förmågan hos förtränade text-till-bild-diffusionsmodeller i bildpromptuppgifter förbättrar textprompts avsevärt, särskilt i scenarier som inte kan beskrivas tillräckligt av textprompts. InstantID-ramverket antar en strategi som liknar den som används av IP-Adapter-modellen för bildpromptning, som introducerar en lättviktig anpassad modul parat med en avkopplad cross-attention-komponent för att stödja bilder som inmatningsprompts. Men till skillnad från de grovt anpassade CLIP-inbäddningarna, avviker InstantID-ramverket genom att använda ID-inbäddningar som bildprompts i ett försök att uppnå en semantiskt rik och mer nyanserad promptintegration.

IdentityNet

Även om befintliga metoder kan integrera bildprompts med textprompts, hävdar InstantID-ramverket att dessa metoder endast förbättrar grova funktioner med en nivå av integration som är otillräcklig för ID-bevarande bildgenerering. Dessutom tenderar att lägga till bild- och texttoken direkt i cross-attention-lager att försvaga kontrollen av texttoken, och ett försök att förbättra styrkan hos bildtoken kan resultera i att försämra förmågorna hos texttoken för redigeringsuppgifter. För att motverka dessa utmaningar väljer InstantID-ramverket ControlNet, en alternativ funktionell inbäddningsmetod som använder spatial information som inmatning för den kontrollerbara modulen, vilket möjliggör att den upprätthåller konsekvens med UNet-inställningarna i diffusionsmodellerna.

InstantID-ramverket gör två ändringar i den traditionella ControlNet-arkitekturen: för villkorsinmatningar väljer InstantID-ramverket 5 ansiktsnyckelpunkter istället för fina OpenPose-ansiktsnyckelpunkter. För det andra använder InstantID-ramverket ID-inbäddningar istället för textprompts som villkor för cross-attention-lagren i ControlNet-arkitekturen.

Tränings- och Inferens

Under träningsfasen optimerar InstantID-ramverket parametrarna för IdentityNet och Bildadaptern medan den fryser parametrarna för den förtränade diffusionsmodellen. Hela InstantID-pipelinen tränas på bild-text-par som innehåller mänskliga föremål och använder ett träningsmål som liknar det som används i Stable Diffusion-ramverket med uppgiftsspecifika bildvillkor. Huvudpunkten i InstantID-träningsmetoden är separationen mellan bild- och textcross-attention-lager inom bildpromptadaptern, ett val som möjliggör för InstantID-ramverket att justera viktningen av dessa bildvillkor flexibelt och oberoende, vilket säkerställer en mer riktad och kontrollerad inferens- och träningsprocess.

InstantID: Experiment och Resultat

InstantID-ramverket implementerar Stable Diffusion och tränar det på LAION-Face, en stor offentlig dataset som består av över 50 miljoner bild-text-par. Dessutom samlar InstantID-ramverket in över 10 miljoner mänskliga bilder med automatiserade genereringar som genereras automatiskt av BLIP2-modellen för att ytterligare förbättra bildgenereringskvaliteten. InstantID-ramverket fokuserar främst på enpersonbilder och använder en förtränad ansiktsmodell för att upptäcka och extrahera ID-inbäddningar från mänskliga bilder, och istället för att träna på beskurna ansiktsdataset, tränar det på de ursprungliga mänskliga bilderna. Dessutom, under träningsprocessen, fryser InstantID-ramverket den förtränade text-till-bild-modellen och uppdaterar endast parametrarna för IdentityNet och Bildadapter.

Bildendast Generering

InstantID-modellen använder en tom prompt för att vägleda bildgenereringsprocessen med endast referensbilden, och resultaten utan prompts visas i följande bild.

‘Tom prompt’-generering, som visas i ovanstående bild, demonstrerar InstantID-ramverkets förmåga att upprätthålla rika semantiska ansiktsfunktioner som identitet, ålder och uttryck robust. Men det är värt att notera att att använda tomma prompts kanske inte kan replikera resultaten på andra semantik som kön exakt. Dessutom, i ovanstående bild, används kolumnerna 2 till 4 en bild och en prompt, och som det kan ses, visar den genererade bilden ingen försämring i textkontrollförmågorna och säkerställer också identitetskonsekvens. Slutligen demonstrerar kolumnerna 5 till 9 en bild, en prompt och spatial styrning, vilket visar kompatibiliteten hos modellen med förtränade spatiala styrningsmodeller, vilket möjliggör för InstantID-modellen att flexibelt introducera spatiala styrningar med hjälp av en förtränad ControlNet-komponent.

Det är också värt att notera att antalet referensbilder har en betydande inverkan på den genererade bilden, som visas i ovanstående bild. Även om InstantID-ramverket kan leverera bra resultat med en enda referensbild, producerar flera referensbilder en bättre kvalitetsbild, eftersom InstantID-ramverket tar medelvärdet av ID-inbäddningar som bildprompt. Fortsättningvis är det väsentligt att jämföra InstantID-ramverket med tidigare metoder som genererar personliga bilder med en enda referensbild. Följande figur jämför resultaten som genereras av InstantID-ramverket och befintliga toppmodeller för anpassad bildgenerering med en enda referens.

Som det kan ses, är InstantID-ramverket kapabelt att bevara ansiktskaraktäristika tack vare att ID-inbäddningen inneboende bär rik semantisk information, såsom identitet, ålder och kön. Det vore säkert att säga att InstantID-ramverket överträffar befintliga ramverk i anpassad bildgenerering, eftersom det kan bevara mänsklig identitet samtidigt som det upprätthåller kontroll och stilistisk flexibilitet.

Slutliga Tankar

I den här artikeln har vi talat om InstantID, en diffusionsmodellbaserad lösning för bildgenerering. InstantID är en plug and play-modul som hanterar bildgenerering och personanpassning skickligt över olika stilar med endast en referensbild och säkerställer också hög trohet. InstantID-ramverket fokuserar på omedelbar identitetsbevarande bildsyntes och försöker att överbrygga gapet mellan effektivitet och hög trohet genom att införa en enkel plug and play-modul som möjliggör för ramverket att hantera bildpersonanpassning med endast en ansiktsbild samtidigt som den upprätthåller hög trohet.

Kunal Kejriwal

En ingenjör till yrket, en författare av hjärtat. Kunal är en teknisk skribent med ett djupt kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa begrepp inom dessa områden genom sin engagerande och informativa dokumentation.