Artificial Intelligence
InstantID: Zero-shot identiteitsbehoudende generatie in enkele seconden
De door AI aangedreven technologie voor het genereren van afbeeldingen heeft de afgelopen jaren een opmerkelijke groei doorgemaakt sinds grote modellen voor de verspreiding van tekst naar beeld, zoals DALL-E, GLIDE, Stable Diffusion, Imagen en meer, op het toneel verschenen. Ondanks het feit dat AI-modellen voor het genereren van afbeeldingen een unieke architectuur en trainingsmethoden hebben, delen ze allemaal een gemeenschappelijk aandachtspunt: het genereren van aangepaste en gepersonaliseerde afbeeldingen die tot doel hebben afbeeldingen te creëren met een consistente karakter-ID, onderwerp en stijl op basis van referentiebeelden. Dankzij hun opmerkelijke generatieve mogelijkheden hebben moderne AI-frameworks voor het genereren van afbeeldingen toepassingen gevonden op gebieden als beeldanimatie, virtual reality, e-commerce, AI-portretten en meer. Ondanks hun opmerkelijke generatieve mogelijkheden delen deze raamwerken echter allemaal een gemeenschappelijk obstakel: de meerderheid van hen is niet in staat om op maat gemaakte beelden te genereren met behoud van de delicate identiteitsdetails van menselijke objecten.
Het genereren van aangepaste afbeeldingen met behoud van ingewikkelde details is van cruciaal belang, vooral bij menselijke gezichtsidentiteitstaken die een hoge standaard van betrouwbaarheid en detail vereisen, en genuanceerde semantiek in vergelijking met algemene taken voor het genereren van objectafbeeldingen die zich voornamelijk concentreren op grofkorrelige texturen en kleuren. Bovendien zijn de afgelopen jaren gepersonaliseerde kaders voor beeldsynthese, zoals LoRA, DreamBooth, Textual Inversion en meer, aanzienlijk vooruitgegaan. Gepersonaliseerde AI-modellen voor het genereren van afbeeldingen zijn echter nog steeds niet perfect voor gebruik in scenario's in de echte wereld, omdat ze een hoge opslagbehoefte hebben, meerdere referentiebeelden nodig hebben en vaak een langdurig verfijningsproces kennen. Aan de andere kant, hoewel de bestaande op ID-inbedding gebaseerde methoden slechts één enkele voorwaartse referentie vereisen, ontberen ze ofwel compatibiliteit met publiekelijk beschikbare, vooraf getrainde modellen, ofwel vereisen ze een buitensporig fijnafstemmingsproces over talrijke parameters, ofwel slagen ze er niet in om hoge kwaliteitsniveaus te handhaven. gezicht trouw.
Om deze uitdagingen aan te pakken en de mogelijkheden voor beeldgeneratie verder te verbeteren, bespreken we in dit artikel InstantID, een oplossing voor beeldgeneratie op basis van een diffusiemodel. InstantID is een plug-and-playmodule die het genereren en personaliseren van beelden in verschillende stijlen met slechts één referentie-afbeelding vakkundig afhandelt en bovendien een hoge getrouwheid garandeert. Het primaire doel van dit artikel is om onze lezers een grondig inzicht te geven in de technische basis en componenten van het InstantID-framework, aangezien we gedetailleerd ingaan op de architectuur, het trainingsproces en de toepassingsscenario's van het model. Laten we beginnen.
InstantID: Zero-Shot identiteitsbehoudende beeldgeneratie
De opkomst van modellen voor de verspreiding van tekst naar beeld heeft aanzienlijk bijgedragen aan de vooruitgang van de beeldgeneratietechnologie. Het primaire doel van deze modellen is het op maat maken en persoonlijk genereren, en het creëren van afbeeldingen met een consistent onderwerp, stijl en karakter-ID met behulp van een of meer referentieafbeeldingen. Het vermogen van deze raamwerken om consistente afbeeldingen te creëren heeft potentiële toepassingen in verschillende industrieën gecreëerd, waaronder beeldanimatie, AI-portretgeneratie, e-commerce, virtuele en augmented reality en nog veel meer.
Ondanks hun opmerkelijke mogelijkheden worden deze raamwerken echter geconfronteerd met een fundamentele uitdaging: ze hebben vaak moeite met het genereren van op maat gemaakte beelden die de ingewikkelde details van menselijke onderwerpen nauwkeurig weergeven. Het is vermeldenswaard dat het genereren van op maat gemaakte afbeeldingen met intrinsieke details een uitdagende taak is, omdat de menselijke gezichtsidentiteit een hogere mate van betrouwbaarheid en detail vereist, samen met een meer geavanceerde semantiek in vergelijking met algemene objecten of stijlen die zich primair richten op kleuren of grofkorrelige texturen. Bestaande tekst-naar-beeld-modellen zijn afhankelijk van gedetailleerde tekstuele beschrijvingen, en ze hebben moeite met het bereiken van een sterke semantische relevantie voor het genereren van op maat gemaakte afbeeldingen. Bovendien voegen sommige grote, vooraf getrainde tekst-naar-beeld-frameworks ruimtelijke conditioneringsregelaars toe om de beheersbaarheid te verbeteren, waardoor fijnkorrelige structurele controle wordt vergemakkelijkt met behulp van elementen zoals lichaamshoudingen, dieptekaarten, door de gebruiker getekende schetsen, semantische segmentatiekaarten en meer. Ondanks deze toevoegingen en verbeteringen zijn deze raamwerken echter in staat slechts een gedeeltelijke getrouwheid van het gegenereerde beeld ten opzichte van het referentiebeeld te bereiken.
Om deze hindernissen te overwinnen, richt het InstantID-framework zich op onmiddellijke identiteitsbehoudende beeldsynthese en probeert het de kloof tussen efficiëntie en high-fidelity te overbruggen door een eenvoudige plug-and-play-module te introduceren waarmee het framework beeldpersonalisatie kan verwerken met behulp van slechts één enkele gezichtsafbeelding. terwijl de hoge betrouwbaarheid behouden blijft. Om de gezichtsidentiteit van het referentiebeeld te behouden, implementeert het InstantID-framework bovendien een nieuwe gezichtsencoder die de ingewikkelde beelddetails behoudt door zwakke ruimtelijke en sterke semantische omstandigheden toe te voegen die het beeldgeneratieproces begeleiden door tekstuele aanwijzingen, herkenningspuntafbeeldingen en gezichtsafbeeldingen op te nemen. .
Er zijn drie onderscheidende kenmerken die het InstantID-framework onderscheiden van bestaande raamwerken voor het genereren van tekst naar afbeeldingen.
- Compatibiliteit en plugbaarheid: In plaats van te trainen op de volledige parameters van het UNet-framework, richt het InstantID-framework zich op het trainen van een lichtgewicht adapter. Als gevolg hiervan is het InstantID-framework compatibel en plugbaar met bestaande, vooraf getrainde modellen.
- Tuning-vrij: De methodologie van het InstantID-framework elimineert de vereiste voor fijnafstemming, aangezien er slechts een enkele voorwaartse voortplanting nodig is voor gevolgtrekking, waardoor het model zeer praktisch en economisch is voor fijnafstemming.
- Superieure prestatie: Het InstantID-framework demonstreert een hoge flexibiliteit en betrouwbaarheid, omdat het in staat is om state-of-the-art prestaties te leveren met slechts één enkel referentiebeeld, vergelijkbaar met op training gebaseerde methoden die afhankelijk zijn van meerdere referentiebeelden.
Over het geheel genomen kunnen de bijdragen van het InstantID-framework in de volgende punten worden onderverdeeld.
- Het InstantID-framework is een innovatieve, ID-behoudende aanpassingsmethode voor vooraf getrainde tekst-naar-beeldverspreidingsmodellen met als doel de kloof tussen efficiëntie en betrouwbaarheid te overbruggen.
- Het InstantID-framework is compatibel en plug-in met op maat gemaakte, verfijnde modellen die hetzelfde diffusiemodel in de architectuur gebruiken, waardoor ID-behoud in vooraf getrainde modellen mogelijk is zonder extra kosten.
InstantID: Methodologie en architectuur
Zoals eerder vermeld, is het InstantID-framework een efficiënte lichtgewicht adapter die vooraf getrainde tekst-naar-beeld-diffusiemodellen moeiteloos voorziet van ID-behoudmogelijkheden.
Over de architectuur gesproken: het InstantID-framework is er bovenop gebouwd Stabiel diffusiemodel, bekend om zijn vermogen om het diffusieproces met hoge rekenefficiëntie uit te voeren in een laagdimensionale latente ruimte in plaats van pixelruimte met een automatische encoder. Voor een invoerbeeld wijst de encoder het beeld eerst toe aan een latente representatie met een downsamplingfactor en latente dimensies. Om een ​​normaal verdeelde ruis met ruis, latente toestand en huidige tijdstap te deruisen, maakt het diffusieproces bovendien gebruik van een ruisonderdrukking UNet-component. De voorwaarde is een insluiting van tekstuele aanwijzingen die worden gegenereerd met behulp van een vooraf getrainde CLIP-tekstcoderingscomponent.
Bovendien maakt het InstantID-framework ook gebruik van een ControlNet-component die als voorwaarde ruimtelijke controle kan toevoegen aan een vooraf getraind diffusiemodel, dat veel verder gaat dan de traditionele mogelijkheden van tekstuele aanwijzingen. De ControlNet-component integreert ook de UNet-architectuur van het Stable Diffusion-framework met behulp van een getrainde replicatie van de UNet-component. De replica van de UNet-component heeft nulconvolutielagen binnen de middelste blokken en de encoderblokken. Ondanks hun overeenkomsten onderscheidt de ControlNet-component zich van het Stable Diffusion-model; ze verschillen beide op het laatste restitem. De ControlNet-component codeert informatie over de ruimtelijke toestand, zoals poses, dieptekaarten, schetsen en meer door de residuen toe te voegen aan het UNet-blok, en sluit deze residuen vervolgens in het oorspronkelijke netwerk in.
Het InstantID-framework is ook geïnspireerd op de IP-Adapter of Image Prompt Adapter, die een nieuwe aanpak introduceert om mogelijkheden voor beeldprompts te realiseren die parallel lopen met tekstuele prompts zonder dat de originele tekst hoeft te worden gewijzigd in beeldmodellen. De IP-Adapter-component maakt ook gebruik van een unieke ontkoppelde kruis-aandachtsstrategie die extra kruis-aandachtslagen gebruikt om de beeldkenmerken in te sluiten, terwijl de andere parameters ongewijzigd blijven.
Methodologie
Om u een kort overzicht te geven: het InstantID-framework is bedoeld om aangepaste afbeeldingen met verschillende stijlen of poses te genereren met behulp van slechts één referentie-ID-afbeelding met hoge betrouwbaarheid. De volgende afbeelding geeft kort een overzicht van het InstantID-framework.

Zoals u kunt zien, bestaat het InstantID-framework uit drie essentiële componenten:
- Een ID-inbeddingscomponent die robuuste semantische informatie van de gezichtskenmerken in de afbeelding vastlegt.
- Een lichtgewicht module met een ontkoppelde kruisaandachtscomponent om het gebruik van een afbeelding als visuele prompt te vergemakkelijken.
- Een IdentityNet-component die de gedetailleerde kenmerken van het referentiebeeld codeert met behulp van extra ruimtelijke controle.
ID-insluiting
In tegenstelling tot bestaande methoden zoals FaceStudio, PhotoMaker, IP-Adapter en meer die afhankelijk zijn van een vooraf getrainde CLIP-afbeeldingsencoder om visuele aanwijzingen te extraheren, richt het InstantID-framework zich op verbeterde betrouwbaarheid en sterkere semantische details bij de taak voor het behoud van ID's. Het is vermeldenswaard dat de inherente beperkingen van de CLIP-component voornamelijk liggen in het trainingsproces van zwak uitgelijnde gegevens, wat betekent dat de gecodeerde functies van de CLIP-encoder voornamelijk brede en dubbelzinnige semantische informatie zoals kleuren, stijl en compositie vastleggen. Hoewel deze functies kunnen dienen als algemene aanvulling op tekstinsluitingen, zijn ze niet geschikt voor nauwkeurige ID-bewaringstaken waarbij zware nadruk wordt gelegd op sterke semantiek en hoge betrouwbaarheid. Bovendien heeft recent onderzoek naar gezichtsrepresentatiemodellen, vooral rond gezichtsherkenning, de efficiëntie van gezichtsrepresentatie bij complexe taken aangetoond, waaronder gezichtsreconstructie en -herkenning. Hierop voortbouwend, heeft het InstantID-framework tot doel een vooraf getraind gezichtsmodel te gebruiken om gezichts-ID-insluitingen uit het referentiebeeld te detecteren en te extraheren, waardoor het model voor het genereren van afbeeldingen wordt begeleid.
Beeldadapter
het vermogen van vooraf getrainde tekst-naar-beeldverspreidingsmodellen bij taken met beeldaanwijzingen verbetert de tekstaanwijzingen aanzienlijk, vooral voor scenario's die niet adequaat kunnen worden beschreven door de tekstaanwijzingen. Het InstantID-framework hanteert een strategie die lijkt op de strategie die wordt gebruikt door het IP-Adapter-model voor beeldprompts, en introduceert een lichtgewicht adaptieve module gecombineerd met een ontkoppelde kruisaandachtscomponent om afbeeldingen als invoerprompts te ondersteunen. In tegenstelling tot de grof uitgelijnde CLIP-inbeddingen, wijkt het InstantID-framework echter af door ID-inbeddingen te gebruiken als de afbeelding hierom vraagt, in een poging een semantisch rijke en meer genuanceerde promptintegratie te bereiken.
IdentiteitNet
Hoewel bestaande methoden in staat zijn om de afbeeldingsprompts te integreren met tekstprompts, stelt het InstantID-framework dat deze methoden alleen grofkorrelige kenmerken verbeteren met een niveau van integratie dat onvoldoende is voor het genereren van ID-behoudende afbeeldingen. Bovendien heeft het toevoegen van de afbeeldings- en teksttokens in lagen met meerdere aandachtsgebieden de neiging om de controle over teksttokens direct te verzwakken, en een poging om de kracht van de afbeeldingtokens te vergroten zou ertoe kunnen leiden dat de mogelijkheden van teksttokens bij bewerkingstaken worden aangetast. Om deze uitdagingen het hoofd te bieden, kiest het InstantID-framework voor ControlNet, een alternatieve methode voor het insluiten van functies die ruimtelijke informatie gebruikt als invoer voor de bestuurbare module, waardoor deze consistentie kan behouden met de UNet-instellingen in de diffusiemodellen.
Het InstantID-framework brengt twee wijzigingen aan in de traditionele ControlNet-architectuur: voor voorwaardelijke invoer kiest het InstantID-framework voor 5 gezichtssleutelpunten in plaats van fijnmazige OpenPose gezichtssleutelpunten. Ten tweede gebruikt het InstantID-framework ID-insluitingen in plaats van tekstprompts als voorwaarden voor de kruis-aandachtslagen in de ControlNet-architectuur.
Training en gevolgtrekking
Tijdens de trainingsfase optimaliseert het InstantID-framework de parameters van het IdentityNet en de Image Adapter, terwijl de parameters van het vooraf getrainde diffusiemodel worden bevroren. De hele InstantID-pijplijn is getraind op beeld-tekstparen met menselijke onderwerpen, en maakt gebruik van een trainingsdoel dat vergelijkbaar is met het doel dat wordt gebruikt in het stabiele diffusieframework met taakspecifieke beeldomstandigheden. Het hoogtepunt van de InstantID-trainingsmethode is de scheiding tussen de beeld- en tekst-kruisaandachtslagen binnen de beeldpromptadapter, een keuze die het InstantID-framework in staat stelt de gewichten van deze beeldomstandigheden flexibel en onafhankelijk aan te passen, waardoor een meer doelgerichte en gecontroleerde weergave wordt gegarandeerd. gevolgtrekking en trainingsproces.
InstantID: experimenten en resultaten
Het InstantID-framework implementeert de Stable Diffusion en traint deze op LAION-Face, een grootschalige open-source dataset bestaande uit meer dan 50 miljoen beeld-tekstparen. Bovendien verzamelt het InstantID-framework meer dan 10 miljoen menselijke afbeeldingen met automatiseringen die automatisch worden gegenereerd door het BLIP2-model om de kwaliteit van het genereren van afbeeldingen verder te verbeteren. Het InstantID-framework richt zich primair op afbeeldingen van één persoon en maakt gebruik van een vooraf getraind gezichtsmodel om gezichts-ID-insluitingen uit menselijke afbeeldingen te detecteren en te extraheren, en in plaats van de bijgesneden gezichtsgegevenssets te trainen, worden de originele menselijke afbeeldingen getraind. Bovendien bevriest het InstantID-framework tijdens de training het vooraf getrainde tekst-naar-beeldmodel en werkt het alleen de parameters van IdentityNet en Image Adapter bij.
Alleen afbeelding genereren
Het InstantID-model gebruikt een lege prompt om het proces voor het genereren van afbeeldingen te begeleiden, waarbij alleen de referentieafbeelding wordt gebruikt. De resultaten zonder de prompts worden in de volgende afbeelding gedemonstreerd.

Het genereren van 'Empty Prompt', zoals gedemonstreerd in de bovenstaande afbeelding, demonstreert het vermogen van het InstantID-framework om rijke semantische gelaatstrekken zoals identiteit, leeftijd en expressie robuust te behouden. Het is echter de moeite waard om op te merken dat het gebruik van lege aanwijzingen mogelijk niet in staat is om de resultaten op andere semantiek, zoals geslacht, nauwkeurig te repliceren. Bovendien gebruiken de kolommen 2 tot en met 4 in de bovenstaande afbeelding een afbeelding en een prompt, en zoals u kunt zien, vertoont de gegenereerde afbeelding geen enkele verslechtering van de tekstcontrolemogelijkheden en zorgt deze ook voor identiteitsconsistentie. Ten slotte gebruiken de kolommen 5 tot en met 9 een afbeelding, een prompt en ruimtelijke controle, wat de compatibiliteit van het model met vooraf getrainde ruimtelijke controlemodellen aantoont, waardoor het InstantID-model op flexibele wijze ruimtelijke controles kan introduceren met behulp van een vooraf getrainde ControlNet-component.

Het is ook vermeldenswaard dat het aantal referentiebeelden een aanzienlijke invloed heeft op de gegenereerde afbeelding, zoals blijkt uit de bovenstaande afbeelding. Hoewel het InstantID-framework goede resultaten kan leveren met behulp van één enkel referentiebeeld, produceren meerdere referentiebeelden een beeld van betere kwaliteit, omdat het InstantID-framework het gemiddelde gemiddelde van ID-insluitingen als beeldprompt gebruikt. Verderop is het essentieel om het InstantID-framework te vergelijken met eerdere methoden die gepersonaliseerde afbeeldingen genereren met behulp van een enkele referentieafbeelding. De volgende afbeelding vergelijkt de resultaten die zijn gegenereerd door het InstantID-framework en bestaande geavanceerde modellen voor het genereren van aangepaste afbeeldingen met één referentie.

Zoals u kunt zien, is het InstantID-framework in staat gezichtskenmerken te behouden dankzij het feit dat ID-inbedding inherent rijke semantische informatie bevat, zoals identiteit, leeftijd en geslacht. Het zou veilig zijn om te zeggen dat het InstantID-framework beter presteert dan bestaande frameworks bij het genereren van op maat gemaakte afbeeldingen, omdat het in staat is de menselijke identiteit te behouden terwijl de controle en stilistische flexibiliteit behouden blijven.

Conclusie
In dit artikel hebben we het gehad over InstantID, een op diffusiemodellen gebaseerde oplossing voor het genereren van afbeeldingen. InstantID is een plug-and-play-module die het genereren en personaliseren van afbeeldingen in verschillende stijlen op bekwame wijze afhandelt met slechts één referentiebeeld en ook hoge betrouwbaarheid garandeert. Het InstantID-framework richt zich op onmiddellijke identiteitsbehoudende beeldsynthese en probeert de kloof tussen efficiëntie en high-fidelity te overbruggen door een eenvoudige plug-and-play-module te introduceren waarmee het framework beeldpersonalisatie kan verwerken met behulp van slechts één enkel gezichtsbeeld, terwijl de high-fidelity behouden blijft.










