Kunstig intelligens

InstantID: Nullskudd Identitet-Bevarende Generering på Sekunder

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

AI-drevet bildegenereringsteknologi har vært gjennom en bemerkelsesverdig vekst de siste årene, siden store tekst-til-bilde-diffusjonsmodeller som DALL-E, GLIDE, Stable Diffusion, Imagen og flere kom på scenen. Selv om bildegenererings-AI-modellene har unik arkitektur og treningmetoder, deler de alle en felles fokus: tilpasset og personlig bildegenerering som har som mål å skape bilder med konsistent karakter-ID, subjekt og stil basert på referansebilder. Takket være deres bemerkelsesverdige generative evner, har moderne bildegenererings-AI-rammeverk funnet anvendelser i felt som bildeanimasjon, virtuell virkelighet, e-handel, AI-portretter og mer. Men, selv om de har bemerkelsesverdige generative evner, deler disse rammeverkene en felles hindring, de fleste av dem er ikke i stand til å generere tilpassede bilder samtidig som de bevarer de ømfintlige identitetsdetaljene til menneskelige objekter.

Å generere tilpassede bilder samtidig som man bevarer intrikate detaljer, er av kritisk betydning, spesielt i menneskelige ansiktsidentitetoppgaver som krever en høy standard for trofasthet og detalj, og nyansert semantikk sammenlignet med generell objektbildegenerering som konsentrerer seg primært om grove teksturer og farger. Videre har personlige bilde syntetiseringsrammeverk i de siste årene, som LoRA, DreamBooth, Textual Inversion og mer, gått fremover betydelig. Men, personlige bildegenererings-AI-modeller er fortsatt ikke perfekte for utrulling i virkelige scenarioer, siden de har høye lagringskrav, de krever flere referansebilder, og de ofte har en langvarig finjusteringsprosess. På den andre siden, selv om eksisterende ID-embedding-baserte metoder bare krever en enkelt fremover-referanse, mangler de kompatibilitet med offentlig tilgjengelige forhånds-trente modeller, eller de krever en overflodig finjusteringsprosess over mange parametre, eller de mislykkes i å opprettholde høy ansikts-trofasthet.

For å møte disse utfordringene, og videre forbedre bildegenererings-evnene, skal vi i denne artikkelen snakke om InstantID, en diffusjonsmodell-basert løsning for bildegenerering. InstantID er en plug-and-play-modul som håndterer bildegenerering og personligisering dyktig over ulike stiler med bare ett enkelt referansebilde, og sikrer også høy trofasthet. Det primære målet med denne artikkelen er å gi våre lesere en grundig forståelse av de tekniske underliggende komponentene og arkitekturen til InstantID-rammeverket, siden vi skal se nærmere på modellens arkitektur, treningprosess og anvendelsesscenarioer. Så la oss komme i gang.

InstantID: Nullskudd Identitet-Bevarende Bildegenerering

Oppkomsten av tekst-til-bilde-diffusjonsmodeller har bidratt betydelig til fremgangen i bildegenereringsteknologien. Det primære målet med disse modellene er tilpasset og personlig generering, og å skape bilder med konsistent subjekt, stil og karakter-ID ved hjelp av ett eller flere referansebilder. Evnen til disse rammeverkene til å skape konsistente bilder har skapt potensielle anvendelser i ulike industrier, inkludert bildeanimasjon, AI-portrettgenerering, e-handel, virtuell og forbedret virkelighet, og mye mer.

Men, selv om de har bemerkelsesverdige evner, møter disse rammeverkene en grunnleggende utfordring: de ofte sliter med å generere tilpassede bilder som bevarer de ømfintlige detaljene til menneskelige subjekter nøyaktig. Det er verdt å merke seg at å generere tilpassede bilder med intrikate detaljer er en utfordrende oppgave, siden menneskelige ansiktsidentitet krever en høyere grad av trofasthet og detalj, sammen med mer avansert semantikk, sammenlignet med generelle objekter eller stiler som fokuserer primært på farger eller grove teksturer. Eksisterende tekst-til-bilde-modeller avhenger av detaljerte tekstbeskrivelser, og de sliter med å oppnå sterk semantisk relevans for tilpasset bildegenerering. Videre har noen store forhånds-trente tekst-til-bilde-rammeverk lagt til romlige kontrollfunkjoner for å forbedre kontrollen, og muliggjør fin-granet strukturell kontroll ved hjelp av elementer som kroppspose, dybdekart, bruker-tegnede skisser, semantisk segmenteringskart og mer. Men, selv om disse tilleggene og forbedringene, er disse rammeverkene bare i stand til å oppnå delvis trofasthet av det genererte bildet til referansebildet.

For å overvinne disse hindringene, fokuserer InstantID-rammeverket på øyeblikkelig identitet-bevarende bilde syntese, og forsøker å lukke gapet mellom effektivitet og høy trofasthet ved å innføre en enkel plug-and-play-modul som tillater rammeverket å håndtere bildepersonligisering ved hjelp av bare ett enkelt ansiktsbilde, samtidig som det sikrer høy trofasthet. Videre, for å bevare ansiktsidentiteten fra referansebildet, implementerer InstantID-rammeverket en ny ansiktskode som beholder de intrikate bilde-detaljene ved å legge til svake romlige og sterke semantiske betingelser som guider bildegenereringsprosessen ved å inkorporere tekstprompter, landmark-bilder og ansiktsbilder.

Det er tre karakteristika som skiller InstantID-rammeverket fra eksisterende tekst-til-bilde-genereringsrammeverk.

Kompatibilitet og Plug-and-Play: I stedet for å trene på fullstendige parametre til UNet-rammeverket, fokuserer InstantID-rammeverket på å trene en lettvekt-adapter. Som et resultat, er InstantID-rammeverket kompatibelt og plug-and-play med eksisterende forhånds-trente modeller.

Finjusteringsfri: Metodologien til InstantID-rammeverket eliminerer behovet for finjustering, siden det bare krever en enkelt fremover-propagering for inferens, og gjør modellen svært praktisk og økonomisk for finjustering.
Overlegen Ytelse: InstantID-rammeverket demonstrerer høy fleksibilitet og trofasthet, siden det er i stand til å levere stat-of-the-art-ytelse ved hjelp av bare ett enkelt referansebilde, sammenlignet med trening-baserte metoder som avhenger av flere referansebilder.

Samlet sett, kan bidragene til InstantID-rammeverket kategoriseres i følgende punkter.

InstantID-rammeverket er en innovativ, ID-bevarende tilpasningsmetode for forhånds-trente tekst-til-bilde-diffusjonsmodeller med målet å lukke gapet mellom effektivitet og trofasthet.
InstantID-rammeverket er kompatibelt og plug-and-play med tilpassede finjusterte modeller som bruker samme diffusjonsmodell i sin arkitektur, og tillater ID-bevarende i forhånds-trente modeller uten noen ekstra kostnad.

InstantID: Metodologi og Arkitektur

Som nevnt tidligere, er InstantID-rammeverket en effektiv lettvekt-adapter som gir forhånds-trente tekst-til-bilde-diffusjonsmodeller med ID-bevarende evner uten noen problemer.

Når det gjelder arkitekturen, er InstantID-rammeverket bygget på toppen av Stable Diffusion-modellen, som er kjent for sin evne til å utføre diffusjonsprosessen med høy beregnings-effektivitet i et lavt-dimensjonalt latent-rom i stedet for pixel-rom med en auto-encoder. For et inngangs-bilde, kartlegger encoderen bildet til en latent representasjon med ned-sampling-faktor og latent-dimensjoner. Videre, for å fjern-støy en normalt fordelt støy med støy-latent, betingelse og nåværende tidssteg, adopterer diffusjonsprosessen en denoising UNet-komponent. Betingelsen er en embedding av tekstprompter som er generert ved hjelp av en forhånds-trent CLIP-tekst-encoder-komponent.

Videre, bruker InstantID-rammeverket også en ControlNet-komponent som er i stand til å legge til romlig kontroll til en forhånds-trent diffusjonsmodell som sin betingelse, og går langt utover de tradisjonelle evnene til tekstprompter. ControlNet-komponenten integrerer også UNet-arkitekturen fra Stable Diffusion-rammeverket ved hjelp av en trent replika av UNet-komponenten. Replikoen av UNet-komponenten har ingen konvolusjonslag i midten og encoder-blokkene. Selv om de ligner hverandre, skiller ControlNet-komponenten seg fra Stable Diffusion-modellen; de begge forskjeller i den siste rest-item. ControlNet-komponenten koder romlige betingelsesinformasjon som poser, dybdekart, skisser og mer ved å legge til restene til UNet-blokken, og deretter embedder disse restene i det originale nettverket.

InstantID-rammeverket trekker også inspirasjon fra IP-Adapter eller Image Prompt Adapter, som introduserer en ny tilnærming for å oppnå bilde-prompt-evner som kjører parallelt med tekstprompter uten å måtte modifisere de originale tekst-til-bilde-modellene. IP-Adapter-komponenten bruker også en unik dekoppet cross-attention-strategi som bruker ekstra cross-attention-lag for å embedde bilde-egenskapene, samtidig som den lar de andre parameterne uendret.

Metodologi

For å gi deg en kort oversikt, har InstantID-rammeverket som mål å generere tilpassede bilder med ulike stiler eller poser ved hjelp av bare ett enkelt referanse-ID-bilde med høy trofasthet. Følgende figur gir en kort oversikt over InstantID-rammeverket.

Som det kan observeres, har InstantID-rammeverket tre essensielle komponenter:

En ID-embedding-komponent som fanger robust semantisk informasjon om ansikts-egenskapene i bildet.
En lettvekt-adapter-modul med en dekoppet cross-attention-komponent for å muliggjøre bruk av et bilde som en visuell prompt.
En IdentityNet-komponent som koder de detaljerte egenskapene fra referanse-bildet ved hjelp av ekstra romlig kontroll.

ID-Embedding

I motsetning til eksisterende metoder som FaceStudio, PhotoMaker, IP-Adapter og mer, som avhenger av en forhånds-trent CLIP-bilde-encoder for å trekke ut visuelle prompter, fokuserer InstantID-rammeverket på forbedret trofasthet og sterkere semantiske detaljer i ID-bevarende-oppgaven. Det er verdt å merke seg at de innebygde begrensningene til CLIP-komponenten ligger primært i dens treningprosess på svakt-justerte data, noe som betyr at de encodede egenskapene til CLIP-encoderen primært fanger bred og tvetydig semantisk informasjon som farger, stil og komposisjon. Selv om disse egenskapene kan fungere som generelle supplement til tekst-embeddings, er de ikke egnet for nøyaktig ID-bevarende-oppgaver som legger stor vekt på sterke semantiske og høye trofasthets-krav. Videre har nyere forskning i ansikts-representasjonsmodeller, spesielt i ansikts-gjenkjenning, demonstrert effektiviteten av ansikts-representasjon i komplekse oppgaver som ansikts-rekonstruksjon og gjenkjenning. Bygget på dette, forsøker InstantID-rammeverket å utnytte en forhånds-trent ansiktsmodell for å detektere og trekke ut ID-embeddings fra referanse-bildet, og guider modellen for bildegenerering.

Bilde-Adapter

Evnen til forhånds-trente tekst-til-bilde-diffusjonsmodeller i bilde-prompt-oppgaver forbedrer tekstprompter betydelig, spesielt for scenarioer som ikke kan beskrives tilstrekkelig av tekstprompter. InstantID-rammeverket adopterer en strategi som ligner den som brukes av IP-Adapter-modellen for bilde-prompt, som introduserer en lettvekt-adapter-modul parret med en dekoppet cross-attention-komponent for å støtte bilder som inngangs-prompter. Men, i motsetning til de grove-justerte CLIP-embeddings, avviker InstantID-rammeverket ved å bruke ID-embeddings som bilde-prompter i et forsøk på å oppnå en semantisk rik og mer nyansert prompt-integrasjon.

IdentityNet

Selv om eksisterende metoder er i stand til å integrere bilde-prompter med tekstprompter, argumenterer InstantID-rammeverket for at disse metodene bare forbedrer grove-graderte egenskaper med et nivå av integrasjon som er utilstrekkelig for ID-bevarende bildegenerering. Videre, å legge til bilde- og tekst-token i cross-attention-lag direkte, tenderer til å svekke kontrollen over tekst-token, og et forsøk på å forbedre bilde-token-styrken kan resultere i å skade evnene til tekst-token på redigeringsoppgaver. For å motvirke disse utfordringene, velger InstantID-rammeverket ControlNet, en alternativ egenskaps-embedding-metode som bruker romlige informasjon som inngangs-data for den kontrollerbare modulen, og tillater det å opprettholde konsistens med UNet-innstillingene i diffusjonsmodellene.

InstantID-rammeverket gjør to endringer i den tradisjonelle ControlNet-arkitekturen: for betingelses-inngangs-data, velger InstantID-rammeverket fem ansikts-nøkkel-punkter i stedet for fine-granete OpenPose-ansikts-nøkkel-punkter. For det andre, bruker InstantID-rammeverket ID-embeddings i stedet for tekstprompter som betingelser for cross-attention-lagene i ControlNet-arkitekturen.

Trening og Inferens

Under trening-fasen, optimaliserer InstantID-rammeverket parameterne til IdentityNet og Bilde-Adapter, samtidig som det fryser parameterne til den forhånds-trente diffusjonsmodellen. Hele InstantID-pipeline er trent på bilde-tekst-par som inneholder menneskelige subjekter, og bruker et trening-mål som ligner det som brukes i Stable Diffusion-rammeverket med oppgave-spesifikke bilde-betingelser. Høydepunktet til InstantID-trening-metoden er separasjonen mellom bilde- og tekst-cross-attention-lagene innenfor bilde-prompt-adapteren, et valg som tillater InstantID-rammeverket å justere vektene til disse bilde-betingelsene fleksibelt og uavhengig, og sikrer en mer målrettet og kontrollert inferens- og trening-prosess.

InstantID: Eksperimenter og Resultater

InstantID-rammeverket implementerer Stable Diffusion og trener det på LAION-Face, et stort, åpent datasett som består av over 50 millioner bilde-tekst-par. Videre, samler InstantID-rammeverket over 10 millioner menneskelige bilder med automatiseringer generert automatisk av BLIP2-modellen for å forbedre bildegenererings-kvaliteten. InstantID-rammeverket fokuserer primært på enkelt-person-bilder, og bruker en forhånds-trent ansiktsmodell for å detektere og trekke ut ID-embeddings fra menneskelige bilder, og i stedet for å trene på beskåret ansikts-datasett, trener det på de originale menneskelige bildene. Videre, under trening, fryser InstantID-rammeverket den forhånds-trente tekst-til-bilde-modellen, og oppdaterer bare parameterne til IdentityNet og Bilde-Adapter.

Bilde-Generering Kun

InstantID-modellen bruker en tom prompt for å guide bildegenererings-prosessen ved hjelp av bare referanse-bildet, og resultater uten prompter demonstreres i følgende bilde.

‘Tom Prompt’-generering, som demonstreres i ovenstående bilde, demonstrerer evnen til InstantID-rammeverket til å opprettholde rike semantiske ansikts-egenskaper som identitet, alder og uttrykk robust. Men, det er verdt å merke seg at å bruke tomme prompter kanskje ikke kan replikere resultater på andre semantiske aspekter som kjønn nøyaktig. Videre, i ovenstående bilde, bruker kolonnene 2 til 4 et bilde og en prompt, og som det kan sees, demonstrerer det genererte bildet ingen degradering i tekst-kontroll-evner, og sikrer også identitets-konsistens. Til slutt, kolonnene 5 til 9 bruker et bilde, en prompt og romlig kontroll, og demonstrerer kompatibiliteten til modellen med forhånds-trente romlige kontroll-modeller, og tillater InstantID-modellen å fleksibelt introdusere romlige kontroller ved hjelp av en forhånds-trent ControlNet-komponent.

Det er også verdt å merke seg at antallet referanse-bilder har en betydelig innvirkning på det genererte bildet, som demonstreres i ovenstående bilde. Selv om InstantID-rammeverket er i stand til å levere gode resultater ved hjelp av ett enkelt referanse-bilde, produserer flere referanse-bilder en bedre kvalitets-bilde, siden InstantID-rammeverket tar gjennomsnitts-midten av ID-embeddings som bilde-prompt. Videre, er det essensielt å sammenligne InstantID-rammeverket med eksisterende metoder som genererer tilpassede bilder ved hjelp av ett enkelt referanse-bilde. Følgende figur sammenligner resultater generert av InstantID-rammeverket og eksisterende stat-of-the-art-modeller for enkelt-referanse-tilpasset bildegenerering.

Som det kan sees, er InstantID-rammeverket i stand til å bevare ansikts-karakteristika takket være ID-embedding som inneholder rike semantiske informasjon, som identitet, alder og kjønn. Det vil være trygt å si at InstantID-rammeverket overgår eksisterende rammeverk i tilpasset bildegenerering, siden det er i stand til å bevare menneskelig identitet samtidig som det opprettholder kontroll og stilistisk fleksibilitet.

Slutt Tanker

I denne artikkelen, har vi snakket om InstantID, en diffusjonsmodell-basert løsning for bildegenerering. InstantID er en plug-and-play-modul som håndterer bildegenerering og personligisering dyktig over ulike stiler med bare ett enkelt referanse-bilde, og sikrer også høy trofasthet. InstantID-rammeverket fokuserer på øyeblikkelig identitet-bevarende bilde syntese, og forsøker å lukke gapet mellom effektivitet og høy trofasthet ved å innføre en enkel plug-and-play-modul som tillater rammeverket å håndtere bildepersonligisering ved hjelp av bare ett enkelt ansiktsbilde, samtidig som det sikrer høy trofasthet.

Kunal Kejriwal

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.