Vernetzen Sie sich mit uns

KĂŒnstliche Intelligenz

InstantID: IdentitÀtserhaltende Zero-Shot-Generierung in Sekundenschnelle

mm

Die KI-gestĂŒtzte Bilderzeugungstechnologie hat in den letzten Jahren ein bemerkenswertes Wachstum erlebt, seit große Text-zu-Bild-Diffusionsmodelle wie DALL-E, GLIDE, Stable Diffusion, Imagen und andere auf den Markt kamen. Obwohl KI-Modelle zur Bildgenerierung ĂŒber eine einzigartige Architektur und Trainingsmethoden verfĂŒgen, haben sie alle einen gemeinsamen Schwerpunkt: die maßgeschneiderte und personalisierte Bildgenerierung, die darauf abzielt, Bilder mit konsistenter Zeichen-ID, Motiv und Stil auf der Grundlage von Referenzbildern zu erstellen. Aufgrund ihrer bemerkenswerten generativen FĂ€higkeiten haben moderne KI-Frameworks zur Bilderzeugung Anwendung in Bereichen wie Bildanimation, virtuelle RealitĂ€t, E-Commerce, KI-PortrĂ€ts und mehr gefunden. Doch trotz ihrer bemerkenswerten generativen FĂ€higkeiten haben diese Frameworks alle eine HĂŒrde gemeinsam: Die meisten von ihnen sind nicht in der Lage, individuelle Bilder zu erzeugen und gleichzeitig die empfindlichen IdentitĂ€tsdetails menschlicher Objekte zu bewahren. 

Die Generierung individueller Bilder unter Beibehaltung komplexer Details ist von entscheidender Bedeutung, insbesondere bei Aufgaben zur Identifizierung menschlicher Gesichter, die einen hohen Standard an Wiedergabetreue und Details sowie nuancierter Semantik erfordern, im Vergleich zu allgemeinen Objektbildgenerierungsaufgaben, die sich hauptsĂ€chlich auf grobkörnige Texturen und Farben konzentrieren. DarĂŒber hinaus haben sich in den letzten Jahren personalisierte Bildsynthese-Frameworks wie LoRA, DreamBooth, Textual Inversion und andere erheblich weiterentwickelt. Allerdings sind personalisierte, bildgenerierende KI-Modelle immer noch nicht perfekt fĂŒr den Einsatz in realen Szenarien geeignet, da sie einen hohen Speicherbedarf haben, mehrere Referenzbilder erfordern und hĂ€ufig einen langwierigen Feinabstimmungsprozess erfordern. Andererseits erfordern bestehende, auf ID-Einbettung basierende Methoden zwar nur eine einzige VorwĂ€rtsreferenz, ihnen fehlt jedoch entweder die KompatibilitĂ€t mit öffentlich verfĂŒgbaren, vorab trainierten Modellen, sie erfordern einen ĂŒbermĂ€ĂŸigen Feinabstimmungsprozess fĂŒr zahlreiche Parameter oder sie können nicht hoch gehalten werden Gesichtstreue. 

Um diese Herausforderungen zu meistern und die Bildgenerierungsmöglichkeiten weiter zu verbessern, stellen wir in diesem Artikel InstantID vor, eine auf Diffusionsmodellen basierende Lösung zur Bildgenerierung. InstantID ist ein Plug-and-Play-Modul, das die Bildgenerierung und -personalisierung in verschiedenen Stilen mit nur einem Referenzbild sicherstellt und gleichzeitig eine hohe Wiedergabetreue gewÀhrleistet. Das Hauptziel dieses Artikels ist es, unseren Lesern ein umfassendes VerstÀndnis der technischen Grundlagen und Komponenten des InstantID-Frameworks zu vermitteln, indem wir einen detaillierten Blick auf die Architektur, den Trainingsprozess und die Anwendungsszenarien des Modells werfen. Legen wir also los.

InstantID: identitÀtserhaltende Zero-Shot-Bilderzeugung


Das Aufkommen von Text-zu-Bild-Diffusionsmodellen hat erheblich zur Weiterentwicklung der Bilderzeugungstechnologie beigetragen. Das Hauptziel dieser Modelle ist die maßgeschneiderte und persönliche Generierung sowie die Erstellung von Bildern mit konsistentem Thema, Stil und Charakter-ID unter Verwendung eines oder mehrerer Referenzbilder. Die FĂ€higkeit dieser Frameworks, konsistente Bilder zu erstellen, hat potenzielle Anwendungen in verschiedenen Branchen geschaffen, darunter Bildanimation, KI-PortrĂ€tgenerierung, E-Commerce, virtuelle und erweiterte RealitĂ€t und vieles mehr. 

Trotz ihrer bemerkenswerten FĂ€higkeiten stehen diese Frameworks jedoch vor einer grundlegenden Herausforderung: Sie haben oft Schwierigkeiten, maßgeschneiderte Bilder zu erstellen, die die komplexen Details menschlicher Motive genau wiedergeben. Es ist erwĂ€hnenswert, dass die Erstellung individueller Bilder mit intrinsischen Details eine herausfordernde Aufgabe ist, da die menschliche GesichtsidentitĂ€t im Vergleich zu allgemeinen Objekten oder Stilen, die sich hauptsĂ€chlich auf Farben oder grobkörnige Texturen konzentrieren, ein höheres Maß an Wiedergabetreue und Details sowie eine fortgeschrittenere Semantik erfordert. Bestehende Text-zu-Bild-Modelle sind auf detaillierte Textbeschreibungen angewiesen und haben Schwierigkeiten, eine starke semantische Relevanz fĂŒr die maßgeschneiderte Bildgenerierung zu erreichen. DarĂŒber hinaus fĂŒgen einige große vorab trainierte Text-zu-Bild-Frameworks rĂ€umliche Konditionierungssteuerungen hinzu, um die Steuerbarkeit zu verbessern und eine feinkörnige Struktursteuerung mithilfe von Elementen wie Körperhaltungen, Tiefenkarten, vom Benutzer gezeichneten Skizzen, semantischen Segmentierungskarten und mehr zu ermöglichen. Trotz dieser ErgĂ€nzungen und Verbesserungen können diese Frameworks jedoch nur eine teilweise Wiedergabetreue des generierten Bildes zum Referenzbild erreichen. 

Um diese HĂŒrden zu ĂŒberwinden, konzentriert sich das InstantID-Framework auf die sofortige identitĂ€tserhaltende Bildsynthese und versucht, die LĂŒcke zwischen Effizienz und hoher Wiedergabetreue zu schließen, indem es ein einfaches Plug-and-Play-Modul einfĂŒhrt, das es dem Framework ermöglicht, die Bildpersonalisierung mit nur einem einzigen Gesichtsbild durchzufĂŒhren unter Beibehaltung der hohen Wiedergabetreue. Um die GesichtsidentitĂ€t aus dem Referenzbild zu bewahren, implementiert das InstantID-Framework außerdem einen neuartigen Gesichtsencoder, der die komplexen Bilddetails beibehĂ€lt, indem er schwache rĂ€umliche und starke semantische Bedingungen hinzufĂŒgt, die den Bilderzeugungsprozess durch die Einbeziehung von Textaufforderungen, Orientierungspunkten und Gesichtsbildern steuern . 

Es gibt drei Unterscheidungsmerkmale, die das InstantID-Framework von bestehenden Frameworks zur Text-zu-Bild-Generierung unterscheiden. 

  • KompatibilitĂ€t und Steckbarkeit: Anstatt die vollstĂ€ndigen Parameter des UNet-Frameworks zu trainieren, konzentriert sich das InstantID-Framework auf das Training eines leichtgewichtigen Adapters. Dadurch ist das InstantID-Framework mit vorhandenen vorab trainierten Modellen kompatibel und steckbar. 
  • Ohne Tuning: Die Methodik des InstantID-Frameworks macht eine Feinabstimmung ĂŒberflĂŒssig, da fĂŒr die Inferenz nur eine einzige VorwĂ€rtsausbreitung erforderlich ist, was das Modell fĂŒr die Feinabstimmung Ă€ußerst praktisch und wirtschaftlich macht. 
  • Überlegene Leistung: Das InstantID-Framework weist eine hohe FlexibilitĂ€t und Genauigkeit auf, da es mit nur einem einzigen Referenzbild eine hochmoderne Leistung liefern kann, vergleichbar mit trainingsbasierten Methoden, die auf mehreren Referenzbildern basieren. 

Insgesamt lassen sich die BeitrĂ€ge des InstantID-Frameworks in die folgenden Punkte einteilen. 

  1. Das InstantID-Framework ist eine innovative, ID-erhaltende Adaptionsmethode fĂŒr vorab trainierte Text-zu-Bild-Diffusionsmodelle mit dem Ziel, die LĂŒcke zwischen Effizienz und Wiedergabetreue zu schließen. 
  2. Das InstantID-Framework ist mit benutzerdefinierten, fein abgestimmten Modellen kompatibel und steckbar, wobei das gleiche Diffusionsmodell in seiner Architektur verwendet wird, sodass die ID in vorab trainierten Modellen ohne zusĂ€tzliche Kosten erhalten bleibt. 

InstantID: Methodik und Architektur

Wie bereits erwĂ€hnt, ist das InstantID-Framework ein effizienter, leichter Adapter, der vorab trainierte Text-zu-Bild-Diffusionsmodelle mĂŒhelos mit Funktionen zur ID-Erhaltung ausstattet. 

Apropos Architektur: Das InstantID-Framework basiert auf dem Stabiles Diffusionsmodell, bekannt fĂŒr seine FĂ€higkeit, den Diffusionsprozess mit hoher Recheneffizienz in einem niedrigdimensionalen latenten Raum statt im Pixelraum mit einem Auto-Encoder durchzufĂŒhren. Bei einem Eingabebild ordnet der Encoder das Bild zunĂ€chst einer latenten Darstellung mit Downsampling-Faktor und latenten Abmessungen zu. Um ein normalverteiltes Rauschen mit verrauschter Latenz, Zustand und aktuellem Zeitschritt zu entrauschen, verwendet der Diffusionsprozess außerdem eine entrauschende UNet-Komponente. Die Bedingung ist eine Einbettung von Textaufforderungen, die mithilfe einer vorab trainierten CLIP-Text-Encoder-Komponente generiert werden. 

DarĂŒber hinaus nutzt das InstantID-Framework auch eine ControlNet-Komponente, die in der Lage ist, rĂ€umliche Kontrolle zu einem vorab trainierten Diffusionsmodell als Bedingung hinzuzufĂŒgen, was weit ĂŒber die herkömmlichen FĂ€higkeiten von Textaufforderungen hinausgeht. Die ControlNet-Komponente integriert auch die UNet-Architektur aus dem Stable Diffusion-Framework mithilfe einer trainierten Replikation der UNet-Komponente. Die Nachbildung der UNet-Komponente weist Null-Faltungsschichten innerhalb der Mittelblöcke und Encoderblöcke auf. Trotz ihrer Ähnlichkeiten unterscheidet sich die ControlNet-Komponente vom Stable Diffusion-Modell; beide unterscheiden sich im letztgenannten Restposten. Die ControlNet-Komponente kodiert rĂ€umliche Zustandsinformationen wie Posen, Tiefenkarten, Skizzen und mehr, indem sie die Residuen zum UNet-Block hinzufĂŒgt und diese Residuen dann in das ursprĂŒngliche Netzwerk einbettet. 

Das InstantID-Framework lĂ€sst sich auch vom IP-Adapter oder Image Prompt Adapter inspirieren, der einen neuartigen Ansatz einfĂŒhrt, um Bildaufforderungsfunktionen parallel zu Textaufforderungen zu erreichen, ohne dass der ursprĂŒngliche Text in Bildmodelle geĂ€ndert werden muss. Die IP-Adapter-Komponente verwendet außerdem eine einzigartige entkoppelte Cross-Attention-Strategie, die zusĂ€tzliche Cross-Attention-Ebenen verwendet, um die Bildmerkmale einzubetten, wĂ€hrend die anderen Parameter unverĂ€ndert bleiben. 

Methodik

Um Ihnen einen kurzen Überblick zu geben: Das InstantID-Framework zielt darauf ab, benutzerdefinierte Bilder mit unterschiedlichen Stilen oder Posen zu generieren, indem nur ein einziges Referenz-ID-Bild mit hoher Wiedergabetreue verwendet wird. Die folgende Abbildung gibt einen kurzen Überblick ĂŒber das InstantID-Framework. 

Wie man beobachten kann, besteht das InstantID-Framework aus drei wesentlichen Komponenten:

  1. Eine ID-Einbettungskomponente, die robuste semantische Informationen der Gesichtsmerkmale im Bild erfasst. 
  2. Ein leichtgewichtiges Modul mit einer entkoppelten Queraufmerksamkeitskomponente, um die Verwendung eines Bildes als visuelle Aufforderung zu erleichtern. 
  3. Eine IdentityNet-Komponente, die die detaillierten Merkmale aus dem Referenzbild mithilfe zusĂ€tzlicher rĂ€umlicher Kontrolle codiert. 

ID-Einbettung

Im Gegensatz zu bestehenden Methoden wie FaceStudio, PhotoMaker, IP-Adapter und anderen, die auf einem vorab trainierten CLIP-Bild-Encoder basieren, um visuelle Eingabeaufforderungen zu extrahieren, konzentriert sich das InstantID-Framework auf eine verbesserte Wiedergabetreue und stĂ€rkere semantische Details bei der ID-Erhaltungsaufgabe. Es ist erwĂ€hnenswert, dass die inhĂ€renten EinschrĂ€nkungen der CLIP-Komponente hauptsĂ€chlich in ihrem Trainingsprozess fĂŒr schwach ausgerichtete Daten liegen, was bedeutet, dass die codierten Funktionen des CLIP-Encoders in erster Linie breite und mehrdeutige semantische Informationen wie Farben, Stil und Zusammensetzung erfassen. Obwohl diese Funktionen als allgemeine ErgĂ€nzung zu Texteinbettungen dienen können, eignen sie sich nicht fĂŒr prĂ€zise ID-Aufbewahrungsaufgaben, bei denen starker Wert auf starke Semantik und hohe Wiedergabetreue gelegt wird. DarĂŒber hinaus haben aktuelle Forschungen zu Gesichtsdarstellungsmodellen, insbesondere im Bereich der Gesichtserkennung, die Effizienz der Gesichtsdarstellung bei komplexen Aufgaben, einschließlich Gesichtsrekonstruktion und -erkennung, gezeigt. Darauf aufbauend zielt das InstantID-Framework darauf ab, ein vorab trainiertes Gesichtsmodell zu nutzen, um Einbettungen von Gesichts-IDs aus dem Referenzbild zu erkennen und zu extrahieren und so das Modell fĂŒr die Bilderzeugung zu leiten. 

Bildadapter

Die FĂ€higkeit von vorab trainierte Text-zu-Bild-Diffusionsmodelle Bei Bildaufforderungsaufgaben werden die Textaufforderungen erheblich verbessert, insbesondere bei Szenarien, die durch die Textaufforderungen nicht ausreichend beschrieben werden können. Das InstantID-Framework ĂŒbernimmt eine Strategie, die der des IP-Adapter-Modells fĂŒr Bildaufforderungen Ă€hnelt und ein leichtes adaptives Modul gepaart mit einer entkoppelten Queraufmerksamkeitskomponente einfĂŒhrt, um Bilder als Eingabeaufforderungen zu unterstĂŒtzen. Im Gegensatz zu den grob ausgerichteten CLIP-Einbettungen unterscheidet sich das InstantID-Framework jedoch dadurch, dass es ID-Einbettungen als Bildaufforderungen verwendet, um eine semantisch reichhaltige und differenziertere Eingabeaufforderungsintegration zu erreichen. 

IdentityNet

Obwohl vorhandene Methoden in der Lage sind, Bildaufforderungen mit Textaufforderungen zu integrieren, argumentiert das InstantID-Framework, dass diese Methoden nur grobkörnige Funktionen mit einem Integrationsgrad verbessern, der fĂŒr die ID-erhaltende Bildgenerierung nicht ausreicht. DarĂŒber hinaus fĂŒhrt das direkte HinzufĂŒgen der Bild- und Text-Tokens zu Queraufmerksamkeitsebenen tendenziell dazu, die Kontrolle ĂŒber Text-Tokens zu schwĂ€chen, und der Versuch, die StĂ€rke der Bild-Tokens zu erhöhen, könnte dazu fĂŒhren, dass die FĂ€higkeiten von Text-Tokens bei Bearbeitungsaufgaben beeintrĂ€chtigt werden. Um diesen Herausforderungen zu begegnen, entscheidet sich das InstantID-Framework fĂŒr ControlNet, eine alternative Methode zur Merkmalseinbettung, die rĂ€umliche Informationen als Eingabe fĂŒr das steuerbare Modul nutzt und es so ermöglicht, die Konsistenz mit den UNet-Einstellungen in den Diffusionsmodellen aufrechtzuerhalten. 

Das InstantID-Framework nimmt zwei Änderungen an der traditionellen ControlNet-Architektur vor: FĂŒr bedingte Eingaben entscheidet sich das InstantID-Framework fĂŒr 5 Gesichts-SchlĂŒsselpunkte anstelle feinkörniger OpenPose-Gesichts-SchlĂŒsselpunkte. Zweitens verwendet das InstantID-Framework ID-Einbettungen anstelle von Textaufforderungen als Bedingungen fĂŒr die Queraufmerksamkeitsebenen in der ControlNet-Architektur. 

Training und Schlussfolgerung

WĂ€hrend der Trainingsphase optimiert das InstantID-Framework die Parameter des IdentityNet und des Image Adapters und friert gleichzeitig die Parameter des vorab trainierten Diffusionsmodells ein. Die gesamte InstantID-Pipeline wird auf Bild-Text-Paaren trainiert, die menschliche Subjekte zeigen, und verwendet ein Trainingsziel, das dem im Stable Diffusion Framework mit aufgabenspezifischen Bildbedingungen verwendeten Ă€hnelt. Das Highlight der InstantID-Trainingsmethode ist die Trennung zwischen den Bild- und Text-Cross-Attention-Layern innerhalb des Image-Prompt-Adapters. Eine Wahl, die es dem InstantID-Framework ermöglicht, die Gewichtungen dieser Bildbedingungen flexibel und unabhĂ€ngig anzupassen und so eine gezieltere und kontrollierte Umsetzung zu gewĂ€hrleisten Inferenz- und Trainingsprozess. 

InstantID: Experimente und Ergebnisse

Das InstantID-Framework implementiert die Stable Diffusion und trainiert sie auf LAION-Face, einem großen Open-Source-Datensatz, der aus ĂŒber 50 Millionen Bild-Text-Paaren besteht. DarĂŒber hinaus sammelt das InstantID-Framework ĂŒber 10 Millionen menschliche Bilder mit automatisch vom BLIP2-Modell generierten Automatisierungen, um die QualitĂ€t der Bilderzeugung weiter zu verbessern. Das InstantID-Framework konzentriert sich hauptsĂ€chlich auf Einzelpersonenbilder und verwendet ein vorab trainiertes Gesichtsmodell, um Einbettungen von Gesichts-IDs aus menschlichen Bildern zu erkennen und zu extrahieren. Anstatt die zugeschnittenen GesichtsdatensĂ€tze zu trainieren, werden die ursprĂŒnglichen menschlichen Bilder trainiert. DarĂŒber hinaus friert das InstantID-Framework wĂ€hrend des Trainings das vorab trainierte Text-zu-Bild-Modell ein und aktualisiert nur die Parameter von IdentityNet und Image Adapter. 

Nur-Bild-Generierung

Das InstantID-Modell verwendet eine leere Eingabeaufforderung, um den Bildgenerierungsprozess nur unter Verwendung des Referenzbilds zu steuern. Die Ergebnisse ohne Eingabeaufforderungen werden in der folgenden Abbildung dargestellt. 

Die Generierung einer „leeren Eingabeaufforderung“, wie im obigen Bild gezeigt, zeigt die FĂ€higkeit des InstantID-Frameworks, umfangreiche semantische Gesichtsmerkmale wie IdentitĂ€t, Alter und Ausdruck robust beizubehalten. Es ist jedoch zu beachten, dass die Verwendung leerer Eingabeaufforderungen möglicherweise nicht in der Lage ist, die Ergebnisse fĂŒr andere Semantiken wie das Geschlecht genau zu reproduzieren. DarĂŒber hinaus verwenden die Spalten 2 bis 4 im obigen Bild ein Bild und eine Eingabeaufforderung, und wie man sehen kann, weist das generierte Bild keine Verschlechterung der TextsteuerungsfĂ€higkeiten auf und gewĂ€hrleistet außerdem die IdentitĂ€tskonsistenz. Schließlich verwenden die Spalten 5 bis 9 ein Bild, eine Eingabeaufforderung und eine rĂ€umliche Steuerung, was die KompatibilitĂ€t des Modells mit vorab trainierten rĂ€umlichen Steuerungsmodellen demonstriert und es dem InstantID-Modell ermöglicht, mithilfe einer vorab trainierten ControlNet-Komponente flexibel rĂ€umliche Steuerungen einzufĂŒhren. 

Es ist auch erwĂ€hnenswert, dass die Anzahl der Referenzbilder einen erheblichen Einfluss auf das generierte Bild hat, wie im obigen Bild gezeigt. Obwohl das InstantID-Framework mit einem einzelnen Referenzbild gute Ergebnisse liefern kann, erzeugen mehrere Referenzbilder ein Bild mit besserer QualitĂ€t, da das InstantID-Framework den durchschnittlichen Mittelwert der ID-Einbettungen als Bildaufforderung verwendet. Im weiteren Verlauf ist es wichtig, das InstantID-Framework mit frĂŒheren Methoden zu vergleichen, die personalisierte Bilder mithilfe eines einzigen Referenzbilds generieren. Die folgende Abbildung vergleicht die vom InstantID-Framework generierten Ergebnisse mit bestehenden Modellen auf dem neuesten Stand der Technik fĂŒr die Generierung benutzerdefinierter Einzelreferenzbilder. 

Wie man sieht, ist das InstantID-Framework in der Lage, Gesichtsmerkmale zu bewahren, da die ID-Einbettung von Natur aus umfangreiche semantische Informationen wie IdentitĂ€t, Alter und Geschlecht enthĂ€lt. Man kann mit Sicherheit sagen, dass das InstantID-Framework bestehende Frameworks bei der individuellen Bildgenerierung ĂŒbertrifft, da es in der Lage ist, die menschliche IdentitĂ€t zu bewahren und gleichzeitig Kontrolle und stilistische FlexibilitĂ€t zu bewahren. 

Fazit

In diesem Artikel haben wir ĂŒber InstantID gesprochen, eine auf einem Diffusionsmodell basierende Lösung zur Bildgenerierung. InstantID ist ein Plug-and-Play-Modul, das die Bildgenerierung und -personalisierung ĂŒber verschiedene Stile hinweg mit nur einem einzigen Referenzbild geschickt beherrscht und zudem eine hohe Wiedergabetreue gewĂ€hrleistet. Das InstantID-Framework konzentriert sich auf die sofortige identitĂ€tserhaltende Bildsynthese und versucht, die LĂŒcke zwischen Effizienz und High-Fidelity zu schließen, indem es ein einfaches Plug-and-Play-Modul einfĂŒhrt, das es dem Framework ermöglicht, die Bildpersonalisierung mit nur einem einzigen Gesichtsbild zu bewĂ€ltigen und dabei High-Fidelity aufrechtzuerhalten.

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen VerstĂ€ndnis fĂŒr KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.