Artificiell intelligens
InstantID: Zero-shot Identity-Preserving Generation på några sekunder
AI-driven bildgenereringsteknologi har upplevt en anmärkningsvärd tillväxt under de senaste åren, sedan stora text-till-bild-diffusionsmodeller som DALL-E, GLIDE, Stable Diffusion, Imagen och fler kom in på scenen. Trots att bildgenererings-AI-modellerna har unika arkitekturer och träningsmetoder delar de alla en gemensam fokuspunkt: anpassad och personlig bildgenerering som syftar till att skapa bilder med konsekvent karaktär-ID, ämne och stil baserat på referensbilder. På grund av deras anmärkningsvärda generativa förmågor har moderna bildgenererings-AI-ramverk funnit tillämpningar inom områden som inkluderar bildanimation, virtuell verklighet, e-handel, AI-porträtt och mycket mer. Men trots deras anmärkningsvärda generativa förmågor delar dessa ramverk alla en gemensam utmaning: de flesta av dem kan inte generera anpassade bilder samtidigt som de bevarar de känsliga identitetsdetaljerna för mänskliga föremål.
Att generera anpassade bilder samtidigt som man bevarar intrikata detaljer är av kritisk betydelse, särskilt i uppgifter som rör mänsklig ansiktsidentitet som kräver en hög standard för trohet och detalj, och nyanserad semantik i jämförelse med allmänna objektbildgenereringsuppgifter som koncentrerar sig främst på grova texturer och färger. Dessutom har personliga bildsyntesramverk under de senaste åren, som LoRA, DreamBooth, Textual Inversion och fler, utvecklats avsevärt. Men personliga bildgenererings-AI-modeller är fortfarande inte perfekta för distribution i realvärldsscenarier eftersom de har höga lagringskrav, de kräver flera referensbilder och de ofta har en lång finjusteringsprocess.
För att tackla dessa utmaningar och ytterligare förbättra bildgenereringsförmågorna kommer vi i denna artikel att prata om InstantID, en diffusionsmodellbaserad lösning för bildgenerering. InstantID är en plug and play-modul som hanterar bildgenerering och personanpassning skickligt över olika stilar med bara en enda referensbild och säkerställer också hög trohet. Det primära syftet med denna artikel är att ge våra läsare en grundlig förståelse för de tekniska underbyggnaderna och komponenterna i InstantID-ramverket, eftersom vi kommer att titta närmare på modellens arkitektur, träningsprocess och tillämpningsscenarier. Så låt oss komma igång.
InstantID: Zero-Shot Identity-Preserving Bildgenerering
Uppkomsten av text-till-bild-diffusionsmodeller har bidragit avsevärt till utvecklingen av bildgenereringsteknologi. Det primära syftet med dessa modeller är anpassad och personlig generation, och att skapa bilder med konsekvent ämne, stil och karaktär-ID med hjälp av en eller flera referensbilder. Förmågan hos dessa ramverk att skapa konsekventa bilder har skapat potentialtillämpningar inom olika branscher, inklusive bildanimation, AI-porträttgenerering, e-handel, virtuell och förstärkt verklighet och mycket mer.
Men trots deras anmärkningsvärda förmågor möter dessa ramverk en grundläggande utmaning: de kämpar ofta för att generera anpassade bilder som bevarar de intrikata detaljerna hos mänskliga föremål exakt. Det är värt att notera att att generera anpassade bilder med intrikata detaljer är en utmanande uppgift, eftersom mänsklig ansiktsidentitet kräver en högre grad av trohet och detalj, tillsammans med mer avancerad semantik, i jämförelse med allmänna föremål eller stilar som fokuserar främst på färger eller grova texturer. Existerande text-till-bild-modeller är beroende av detaljerade textbeskrivningar och de kämpar för att uppnå stark semantisk relevans för anpassad bildgenerering. Dessutom lägger vissa stora förtränade text-till-bild-ramverk till spatiala kontrollfunktioner för att förbättra kontrollerbarheten, vilket underlättar finmaskig strukturanpassning med hjälp av element som kroppsställningar, djupkartor, användarskapade skisser, semantiska segmenteringskartor och mer. Men trots dessa tillägg och förbättringar kan dessa ramverk endast uppnå partiell trohet hos den genererade bilden i förhållande till referensbilden.
För att övervinna dessa hinder fokuserar InstantID-ramverket på omedelbar identitetsbevarande bildsyntes och försöker att överbrygga gapet mellan effektivitet och hög trohet genom att införa en enkel plug and play-modul som tillåter ramverket att hantera bildpersonanpassning med hjälp av endast en enda ansiktsbild samtidigt som den upprätthåller hög trohet. Dessutom, för att bevara ansiktsidentiteten från referensbilden, implementerar InstantID-ramverket en ny ansiktskodare som bevarar de intrikata bildinformationerna genom att lägga till svaga spatiala och starka semantiska villkor som vägleder bildgenereringsprocessen genom att inkorporera textprompts, landmärkesbilder och ansiktsbilder.
Det finns tre särskiljande funktioner som skiljer InstantID-ramverket från existerande text-till-bild-genereringsramverk.
- Kompatibilitet och Plug and Play: Istället för att träna på fulla parametrar för UNet-ramverket fokuserar InstantID-ramverket på att träna en lätt adapter. Som ett resultat är InstantID-ramverket kompatibelt och plug and play med existerande förtränade modeller.
- Finjusteringsfri: Metodiken för InstantID-ramverket eliminerar behovet av finjustering eftersom det endast kräver en enda framåtriktad propagation för inferens, vilket gör modellen högt praktisk och ekonomisk för finjustering.
- Överlägsen prestanda: InstantID-ramverket demonstrerar hög flexibilitet och trohet eftersom det kan leverera toppmodellprestanda med hjälp av endast en enda referensbild, jämförbart med träningsbaserade metoder som förlitar sig på flera referensbilder.
Sammanfattningsvis kan bidragen från InstantID-ramverket kategoriseras i följande punkter.
- InstantID-ramverket är en innovativ, ID-bevarande anpassningsmetod för förtränade text-till-bild-diffusionsmodeller med syftet att överbrygga gapet mellan effektivitet och trohet.
- InstantID-ramverket är kompatibelt och plug and play med anpassade finjusterade modeller som använder samma diffusionsmodell i sin arkitektur, vilket tillåter ID-bevarande i förtränade modeller utan någon extra kostnad.
InstantID: Metodik och Arkitektur
Som nämnts tidigare är InstantID-ramverket en effektiv lätt adapter som utrustar förtränade text-till-bild-diffusionsmodeller med ID-bevarande-förmågor utan ansträngning.
När det gäller arkitektur är InstantID-ramverket byggt ovanpå Stable Diffusion-modellen, som är känd för sin förmåga att utföra diffusionsprocessen med hög beräknings-effektivitet i ett lågdimensionellt latentspace istället för pixelläge med en autoencoder. För en ingångsbild kartar encodern först bilden till en latent representation med nedsamplingsfaktor och latentdimensioner. Dessutom, för att avlägsna ett normalt fördelat brus med brusigt latent, villkor och nuvarande tidssteg, antar diffusionsprocessen en avlägsnande UNet-komponent. Villkoret är en inbäddning av textprompts som genereras med hjälp av en förtränad CLIP-textencoder-komponent.
Dessutom använder InstantID-ramverket också en ControlNet-komponent som kan lägga till spatial kontroll till en förtränad diffusionsmodell som dess villkor, vilket går långt utöver de traditionella förmågorna hos textprompts. ControlNet-komponenten integrerar också UNet-arkitekturen från Stable Diffusion-ramverket med hjälp av en tränad replik av UNet-komponenten. Repliken av UNet-komponenten har noll konvolutionslager inom mittenblocken och encodarblocken. Trots deras likheter skiljer sig ControlNet-komponenten från Stable Diffusion-modellen; de båda skiljer sig i den senare restposten. ControlNet-komponenten kodar spatial villkorsinformation som poser, djupkartor, skisser och mer genom att lägga till restposten till UNet-blocket och sedan inbäddar dessa restposter i det ursprungliga nätverket.
InstantID-ramverket hämtar också inspiration från IP-Adapter eller Image Prompt Adapter som introducerar en ny metod för att uppnå bildpromptförmågor som körs parallellt med textprompts utan att kräva att den ursprungliga text-till-bild-modellen modifieras. IP-Adapter-komponenten använder också en unik avkopplad cross-attention-strategi som använder ytterligare cross-attention-lager för att inbädda bildfunktionerna medan de andra parametrarna förblir oförändrade.
Metodik
För att ge er en kort översikt syftar InstantID-ramverket till att generera anpassade bilder med olika stilar eller poser med hjälp av endast en enda referens-ID-bild med hög trohet. Följande figur ger en översikt av InstantID-ramverket.

Som det kan observeras har InstantID-ramverket tre väsentliga komponenter:
- En ID-inbäddningskomponent som fångar robust semantisk information om ansiktsfunktionerna i bilden.
- En lätt adaptermodul med en avkopplad cross-attention-komponent för att underlätta användningen av en bild som en visuell prompt.
- En IdentityNet-komponent som kodar de detaljerade funktionerna från referensbilden med hjälp av ytterligare spatial kontroll.
ID-inbäddning
Till skillnad från existerande metoder som FaceStudio, PhotoMaker, IP-Adapter och fler som förlitar sig på en förtränad CLIP-bildencoder för att extrahera visuella prompts, fokuserar InstantID-ramverket på förbättrad trohet och starkare semantiska detaljer i ID-bevarande-uppgiften. Det är värt att notera att de inbyggda begränsningarna för CLIP-komponenten ligger främst i dess träningsprocess på svagt alignerade data, vilket innebär att de inbäddade funktionerna för CLIP-encodern främst fångar breda och tvetydiga semantiska information som färger, stil och komposition. Även om dessa funktioner kan fungera som allmänna supplement till textinbäddningar är de inte lämpliga för precisa ID-bevarande-uppgifter som lägger stor vikt vid stark semantik och hög trohet. Dessutom har nylig forskning inom ansiktsrepresentationsmodeller, särskilt inom ansiktsigenkänning, visat effektiviteten i ansiktsrepresentation i komplexa uppgifter som ansiktsrekonstruktion och igenkänning. Byggande på detta syftar InstantID-ramverket till att utnyttja en förtränad ansiktsmodell för att upptäcka och extrahera ID-inbäddningar från referensbilden, vilket vägleder modellen för bildgenerering.
Bildadapter
Förmågan hos förtränade text-till-bild-diffusionsmodeller i bildprompt-uppgifter förbättrar textprompten avsevärt, särskilt för scenarier som inte kan beskrivas tillräckligt av textprompten. InstantID-ramverket antar en strategi som liknar den som används av IP-Adapter-modellen för bildprompt, som introducerar en lätt adaptermodul parat med en avkopplad cross-attention-komponent för att stödja bilder som ingångsprompt. Men till skillnad från de grovt alignerade CLIP-inbäddningarna avviker InstantID-ramverket genom att använda ID-inbäddningar som bildprompt i ett försök att uppnå en semantiskt rik och mer nyanserad promptintegration.
IdentityNet
Även om existerande metoder kan integrera bildprompten med textprompten, hävdar InstantID-ramverket att dessa metoder endast förbättrar grova funktioner med en nivå av integration som är otillräcklig för ID-bevarande bildgenerering. Dessutom tenderar att lägga till bild- och texttoken direkt i cross-attention-lagren att försvaga kontrollen av texttoken, och ett försök att förbättra bildtokenens styrka kan resultera i att försvaga texttokenens förmåga på redigeringsuppgifter. För att motverka dessa utmaningar väljer InstantID-ramverket ControlNet, en alternativ funktionell inbäddningsmetod som använder spatial information som ingång för den kontrollerbara modulen, vilket tillåter den att upprätthålla konsekvens med UNet-inställningarna i diffusionsmodellerna.
InstantID-ramverket gör två ändringar i den traditionella ControlNet-arkitekturen: för villkorsingångar väljer InstantID-ramverket 5 ansiktsnyckelpunkter istället för finmaskiga OpenPose-ansiktsnyckelpunkter. För det andra använder InstantID-ramverket ID-inbäddningar istället för textprompt som villkor för cross-attention-lagren i ControlNet-arkitekturen.
Tränings- och Inferensprocess
Under träningsfasen optimerar InstantID-ramverket parametrarna för IdentityNet och Bildadaptern medan den fryser parametrarna för den förtränade diffusionsmodellen. Hela InstantID-pipelinen tränas på bild-text-par som innehåller mänskliga föremål och använder ett träningsmål som liknar det som används i Stable Diffusion-ramverket med uppgiftsspecifika bildvillkor. Huvudpunkten i InstantID-träningsmetoden är separationen mellan bild- och text-cross-attention-lagren inom bildpromptadaptern, ett val som tillåter InstantID-ramverket att justera vikterna för dessa bildvillkor flexibelt och oberoende, vilket säkerställer en mer riktad och kontrollerad inferens- och träningsprocess.
InstantID: Experiment och Resultat
InstantID-ramverket implementerar Stable Diffusion och tränar det på LAION-Face, en stor öppen källkodsdatamängd som består av över 50 miljoner bild-text-par. Dessutom samlar InstantID-ramverket in över 10 miljoner mänskliga bilder med automatiserade generering som genereras automatiskt av BLIP2-modellen för att ytterligare förbättra bildgenereringskvaliteten. InstantID-ramverket fokuserar främst på enpersonbilder och använder en förtränad ansiktsmodell för att upptäcka och extrahera ID-inbäddningar från mänskliga bilder, och istället för att träna på beskurna ansiktsdatamängder tränar den ursprungliga mänskliga bilderna. Dessutom, under träningsprocessen, fryser InstantID-ramverket den förtränade text-till-bild-modellen och uppdaterar endast parametrarna för IdentityNet och Bildadapter.
Bildendast Generering
InstantID-modellen använder en tom prompt för att vägleda bildgenereringsprocessen med hjälp av endast referensbilden, och resultaten utan prompten visas i följande bild.

“Tom prompt”-generering, som visas i ovanstående bild, demonstrerar InstantID-ramverkets förmåga att upprätthålla rika semantiska ansiktsfunktioner som identitet, ålder och uttryck robust. Men det är värt att notera att användning av tomma prompter kanske inte kan replikera resultaten på andra semantiska aspekter som kön exakt. Dessutom, i ovanstående bild, använder kolumnerna 2 till 4 en bild och en prompt, och som det kan ses, visar den genererade bilden ingen försämring i textkontrollförmågor och säkerställer också identitetskonsekvens. Slutligen demonstrerar kolumnerna 5 till 9 en bild, en prompt och spatial kontroll, vilket visar kompatibiliteten hos modellen med förtränade spatiala kontrollmodeller, vilket tillåter InstantID-modellen att flexibelt introducera spatiala kontroller med hjälp av en förtränad ControlNet-komponent.

Det är också värt att notera att antalet referensbilder har en betydande inverkan på den genererade bilden, som visas i ovanstående bild. Även om InstantID-ramverket kan leverera goda resultat med hjälp av en enda referensbild, producerar flera referensbilder en bättre kvalitetsbild, eftersom InstantID-ramverket tar medelvärdet av ID-inbäddningar som bildprompt. Fortsättningvis är det essentiellt att jämföra InstantID-ramverket med tidigare metoder som genererar personliga bilder med hjälp av en enda referensbild. Följande figur jämför resultaten genererade av InstantID-ramverket och existerande toppmodeller för anpassad bildgenerering med en enda referens.

Som det kan ses är InstantID-ramverket kapabelt att bevara ansiktskaraktäristika tack vare ID-inbäddningar som inneboende bär rik semantisk information, såsom identitet, ålder och kön. Det vore säkert att säga att InstantID-ramverket överträffar existerande ramverk i anpassad bildgenerering, eftersom det kan bevara mänsklig identitet samtidigt som det upprätthåller kontroll och stilistisk flexibilitet.

Slutliga Tankar
I denna artikel har vi talat om InstantID, en diffusionsmodellbaserad lösning för bildgenerering. InstantID är en plug and play-modul som hanterar bildgenerering och personanpassning skickligt över olika stilar med bara en enda referensbild och säkerställer också hög trohet. InstantID-ramverket fokuserar på omedelbar identitetsbevarande bildsyntes och försöker att överbrygga gapet mellan effektivitet och hög trohet genom att införa en enkel plug and play-modul som tillåter ramverket att hantera bildpersonanpassning med hjälp av endast en enda ansiktsbild samtidigt som den upprätthåller hög trohet.










