Künstliche Intelligenz
InstantID: Zero-Shot-Identitätspräservierende Generation in Sekunden
Die künstlich intelligente Bildgenerierungstechnologie hat in den letzten Jahren einen bemerkenswerten Aufschwung erlebt, seitdem große Text-zu-Bild-Diffusionsmodelle wie DALL-E, GLIDE, Stable Diffusion, Imagen und mehr auf der Bildfläche erschienen sind. Trotz der Tatsache, dass Bildgenerierungs-AI-Modelle eine einzigartige Architektur und Trainingsmethoden haben, teilen sie alle ein gemeinsames Ziel: maßgeschneiderte und personalisierte Bildgenerierung, die darauf abzielt, Bilder mit konsistenter Charakter-ID, Subjekt und Stil auf der Grundlage von Referenzbildern zu erstellen. Aufgrund ihrer bemerkenswerten generativen Fähigkeiten haben moderne Bildgenerierungs-AI-Frameworks Anwendungen in Bereichen wie Bildanimation, virtueller Realität, E-Commerce, AI-Porträts und mehr gefunden. Allerdings teilen diese Frameworks trotz ihrer bemerkenswerten generativen Fähigkeiten ein gemeinsames Hindernis: Die meisten von ihnen sind nicht in der Lage, maßgeschneiderte Bilder zu generieren, während sie die delikaten Identitätsdetails von menschlichen Objekten erhalten.
Die Generierung von maßgeschneiderten Bildern unter Erhaltung der feinen Details ist von entscheidender Bedeutung, insbesondere bei menschlichen Gesichtsidentitätstasks, die einen hohen Standard an Fidelität und Detail sowie nuancierte Semantik im Vergleich zu allgemeinen Objektbildgenerierungsaufgaben erfordern, die sich hauptsächlich auf grobe Texturen und Farben konzentrieren. Darüber hinaus haben personalisierte Bildsynthese-Frameworks in den letzten Jahren wie LoRA, DreamBooth, Textual Inversion und mehr wesentliche Fortschritte gemacht. Allerdings sind personalisierte Bildgenerierungs-AI-Modelle immer noch nicht perfekt für den Einsatz in realen Szenarien, da sie hohe Speicheranforderungen haben, mehrere Referenzbilder erfordern und oft einen langwierigen Feinabstimmungsprozess haben. Andererseits erfordern bestehende ID-Embedding-basierte Methoden nur eine einzelne Vorwärtsreferenz, aber sie haben entweder keine Kompatibilität mit öffentlich verfügbaren vorgefertigten Modellen, oder sie erfordern einen übermäßigen Feinabstimmungsprozess über zahlreiche Parameter, oder sie können die hohe Gesichtsfidelität nicht aufrechterhalten.
Um diese Herausforderungen zu überwinden und die Bildgenerierungsfähigkeiten weiter zu verbessern, werden wir in diesem Artikel über InstantID sprechen, eine Diffusionsmodell-basierte Lösung für Bildgenerierung. InstantID ist ein Plug-and-Play-Modul, das Bildgenerierung und Personalisierung auf verschiedene Stile mit nur einem Referenzbild und auch hoher Fidelität hinweg beherrscht. Das Hauptziel dieses Artikels ist es, den Lesern ein umfassendes Verständnis der technischen Grundlagen und Komponenten des InstantID-Frameworks zu vermitteln, indem wir uns ausführlich mit der Architektur, dem Trainingsprozess und den Anwendungsszenarien des Modells befassen. Also los geht’s.
InstantID: Zero-Shot-Identitätspräservierende Bildgenerierung
Das Auftauchen von Text-zu-Bild-Diffusionsmodellen hat wesentlich zur Weiterentwicklung der Bildgenerierungstechnologie beigetragen. Das Hauptziel dieser Modelle ist maßgeschneiderte und personalisierte Generation, und die Erstellung von Bildern mit konsistenter Subjekt-, Stil- und Charakter-ID unter Verwendung von einem oder mehreren Referenzbildern. Die Fähigkeit dieser Frameworks, konsistente Bilder zu erstellen, hat potenzielle Anwendungen in verschiedenen Branchen wie Bildanimation, AI-Porträtgenerierung, E-Commerce, virtueller und erweiterter Realität und vielem mehr geschaffen.
Allerdings stellen diese Frameworks trotz ihrer bemerkenswerten Fähigkeiten ein fundamentales Problem dar: Sie haben oft Schwierigkeiten, maßgeschneiderte Bilder zu generieren, die die feinen Details von menschlichen Subjekten genau erhalten. Es ist erwähnenswert, dass die Generierung von maßgeschneiderten Bildern mit inhärenten Details eine schwierige Aufgabe ist, da menschliche Gesichtsidentität einen höheren Grad an Fidelität und Detail sowie fortgeschrittenere Semantik im Vergleich zu allgemeinen Objekten oder Stilen erfordert, die sich hauptsächlich auf Farben oder grobe Texturen konzentrieren. Bestehende Text-zu-Bild-Modelle verlassen sich auf detaillierte textuelle Beschreibungen und haben Schwierigkeiten, starke semantische Relevanz für maßgeschneiderte Bildgenerierung zu erreichen. Darüber hinaus fügen einige große vorgefertigte Text-zu-Bild-Frameworks räumliche Bedingungskontrollen hinzu, um die Steuerbarkeit zu verbessern, was eine feinkörnige strukturelle Steuerung unter Verwendung von Elementen wie Körperhaltungen, Tiefenkarten, Benutzerzeichnungen, semantischen Segmentierungskarten und mehr ermöglicht. Allerdings können diese Frameworks trotz dieser Ergänzungen und Verbesserungen nur eine teilweise Fidelität des generierten Bildes zur Referenzbild erreichen.
Um diese Hürden zu überwinden, konzentriert sich das InstantID-Framework auf die instantane Identitätspräservierende Bildsynthese und versucht, die Lücke zwischen Effizienz und hoher Fidelität durch die Einführung eines einfachen Plug-and-Play-Moduls zu schließen, das es dem Framework ermöglicht, Bildpersonalisierung unter Verwendung nur eines Gesichtsbildes mit hoher Fidelität zu beherrschen. Darüber hinaus implementiert das InstantID-Framework einen neuen Face-Encoder, der die feinen Bild-details durch Hinzufügen von schwachen räumlichen und starken semantischen Bedingungen aufrechterhält, die den Bildgenerierungsprozess durch die Einbeziehung von textuellen Prompts, Landmark-Bildern und Gesichtsbildern leiten.
Es gibt drei unterscheidende Merkmale, die das InstantID-Framework von bestehenden Text-zu-Bild-Generierungsframeworks unterscheiden.
- Kompatibilität und Pluggability: Anstatt auf die vollständigen Parameter des UNet-Frameworks zu trainieren, konzentriert sich das InstantID-Framework auf das Training eines leichten Adapters. Als Ergebnis ist das InstantID-Framework kompatibel und pluggable mit bestehenden vorgefertigten Modellen.
- Feinabstimmungsfrei: Die Methodik des InstantID-Frameworks eliminiert die Notwendigkeit einer Feinabstimmung, da es nur eine einzelne Vorwärtspropagation für die Inferenz benötigt, was das Modell hoch praxisnah und wirtschaftlich für die Feinabstimmung macht.
- Überlegene Leistung: Das InstantID-Framework zeigt eine hohe Flexibilität und Fidelität, da es in der Lage ist, einen Spitzenleistungsstand mit nur einem Referenzbild zu erreichen, vergleichbar mit trainingsbasierten Methoden, die auf mehreren Referenzbildern basieren.
Insgesamt können die Beiträge des InstantID-Frameworks in den folgenden Punkten zusammengefasst werden.
- Das InstantID-Framework ist eine innovative, identitätspräservierende Adapationsmethode für vorgefertigte Text-zu-Bild-Diffusionsmodelle mit dem Ziel, die Lücke zwischen Effizienz und Fidelität zu schließen.
- Das InstantID-Framework ist kompatibel und pluggable mit benutzerdefinierten fein abgestimmten Modellen unter Verwendung des gleichen Diffusionsmodells in seiner Architektur, was die Identitätspräservierung in vorgefertigten Modellen ohne zusätzliche Kosten ermöglicht.
InstantID: Methodik und Architektur
Wie bereits erwähnt, ist das InstantID-Framework ein effizienter, leichter Adapter, der vorgefertigte Text-zu-Bild-Diffusionsmodelle mit Identitätspräservierungsfähigkeiten ausstattet.
Die Architektur des InstantID-Frameworks basiert auf dem Stable-Diffusionsmodell, das für seine Fähigkeit bekannt ist, den Diffusionsprozess mit hoher Rechen-effizienz in einem niedrigdimensionalen latenten Raum anstelle des Pixelraums mit einem Autoencoder durchzuführen. Für ein Eingabebild mappt der Encoder das Bild zunächst auf eine latente Darstellung mit Downsampling-Faktor und latenten Dimensionen. Darüber hinaus adoptiert der Diffusionsprozess ein Denoising-UNet-Component, um ein normalverteiltes Rauschen mit noisy latent, Bedingung und aktuellem Timestep zu entrauschen. Die Bedingung ist eine Einbettung von textuellen Prompts, die mit einem vorgefertigten CLIP-Textencoder-Component generiert werden.
Darüber hinaus verwendet das InstantID-Framework auch ein ControlNet-Component, das in der Lage ist, räumliche Steuerung zu einem vorgefertigten Diffusionsmodell als Bedingung hinzuzufügen, was über die traditionellen Fähigkeiten von textuellen Prompts hinausgeht. Das ControlNet-Component integriert die UNet-Architektur aus dem Stable-Diffusions-Framework unter Verwendung einer trainierten Reproduktion des UNet-Components. Die Reproduktion des UNet-Components verfügt über null Konvolutions-schichten innerhalb der mittleren Blöcke und der Encoder-Blöcke. Trotz ihrer Ähnlichkeiten unterscheidet sich das ControlNet-Component vom Stable-Diffusions-Modell; sie unterscheiden sich in dem letzten Restitem. Das ControlNet-Component kodiert räumliche Bedingungsinformationen wie Posen, Tiefenkarten, Skizzen und mehr, indem es die Reste zum UNet-Block hinzufügt und diese dann in das Originalnetz einbettet.
Das InstantID-Framework zieht auch Inspiration aus dem IP-Adapter oder dem Image-Prompt-Adapter, der einen neuen Ansatz zur Erreichung von Bild-Prompt-Fähigkeiten einführt, der parallel zu textuellen Prompts läuft, ohne dass das ursprüngliche Text-zu-Bild-Modell geändert werden muss. Das IP-Adapter-Component verwendet auch eine einzigartige dekoppelte Cross-Attention-Strategie, die zusätzliche Cross-Attention-Layer verwendet, um die Bildmerkmale einzubetten, während die anderen Parameter unverändert bleiben.
Methodik
Um Ihnen einen kurzen Überblick zu geben, zielt das InstantID-Framework darauf ab, maßgeschneiderte Bilder mit unterschiedlichen Stilen oder Posen unter Verwendung nur eines Referenz-ID-Bildes mit hoher Fidelität zu generieren. Die folgende Abbildung gibt einen kurzen Überblick über das InstantID-Framework.

Wie zu sehen ist, hat das InstantID-Framework drei wesentliche Komponenten:
- Eine ID-Embedding-Komponente, die robuste semantische Informationen der Gesichtsmerkmale im Bild erfasst.
- Ein leichter adaptierter Modul mit einer dekoppelten Cross-Attention-Komponente, um die Verwendung eines Bildes als visuellen Prompt zu ermöglichen.
- Eine IdentityNet-Komponente, die die detaillierten Merkmale aus dem Referenzbild unter Verwendung zusätzlicher räumlicher Steuerung kodiert.
ID-Embedding
Im Gegensatz zu bestehenden Methoden wie FaceStudio, PhotoMaker, IP-Adapter und mehr, die auf einem vorgefertigten CLIP-Bildencoder verlassen, um visuelle Prompts zu extrahieren, konzentriert sich das InstantID-Framework auf eine verbesserte Fidelität und stärkere semantische Details in der Identitätspräservierungsaufgabe. Es ist erwähnenswert, dass die inhärenten Einschränkungen des CLIP-Components hauptsächlich in seinem Trainingsprozess auf schwach ausgerichteten Daten liegen, was bedeutet, dass die kodierten Merkmale des CLIP-Encoders hauptsächlich breite und mehrdeutige semantische Informationen wie Farben, Stil und Komposition erfassen. Obwohl diese Merkmale als allgemeine Ergänzung zu Text-Einbettungen dienen können, sind sie nicht geeignet für präzise Identitätspräservierungsaufgaben, die einen starken Fokus auf starke Semantik und hohe Fidelität legen. Darüber hinaus hat die jüngste Forschung in Gesichtsrepräsentationsmodellen, insbesondere im Bereich der Gesichtserkennung, die Effizienz von Gesichtsrepräsentationen in komplexen Aufgaben wie Gesichtsrekonstruktion und -erkennung demonstriert. Aufbauend auf diesem Wissen zielt das InstantID-Framework darauf ab, ein vorgefertigtes Gesichtsmodell zu nutzen, um Gesichts-ID-Embeddings aus dem Referenzbild zu erkennen und zu extrahieren, um das Modell für die Bildgenerierung zu leiten.
Bild-Adapter
Die Fähigkeit von vorgefertigten Text-zu-Bild-Diffusionsmodellen in Bild-Prompt-Aufgaben verbessert die textuellen Prompts erheblich, insbesondere in Szenarien, die nicht ausreichend durch textuelle Prompts beschrieben werden können. Das InstantID-Framework adoptiert eine Strategie, die der des IP-Adapter-Modells für Bild-Prompting ähnelt, das einen leichten adaptiven Modul mit einer dekoppelten Cross-Attention-Komponente einführt, um Bildern als Eingabe-Prompts zu ermöglichen. Allerdings unterscheidet sich das InstantID-Framework von den grob ausgerichteten CLIP-Einbettungen, indem es ID-Embeddings als Bild-Prompts verwendet, um eine semantisch reichere und nuanciertere Prompt-Integration zu erreichen.
IdentityNet
Obwohl bestehende Methoden in der Lage sind, Bild-Prompts mit textuellen Prompts zu integrieren, argumentiert das InstantID-Framework, dass diese Methoden nur grobe Merkmale verbessern, mit einem Integrationsgrad, der für die Identitätspräservierende Bildgenerierung unzureichend ist. Darüber hinaus kann das direkte Hinzufügen von Bild- und Text-Tokens in Cross-Attention-Layer die Kontrolle der Text-Tokens schwächen, und ein Versuch, die Stärke der Bild-Tokens zu verbessern, kann die Fähigkeiten der Text-Tokens bei Bearbeitungsaufgaben beeinträchtigen. Um diese Herausforderungen zu überwinden, wählt das InstantID-Framework ControlNet, eine alternative Feature-Einbettungsmethode, die räumliche Informationen als Eingabe für das steuerbare Modul verwendet, um die Konsistenz mit den UNet-Einstellungen in den Diffusionsmodellen aufrechtzuerhalten.
Das InstantID-Framework führt zwei Änderungen an der traditionellen ControlNet-Architektur durch: für bedingte Eingaben wählt das InstantID-Framework fünf Gesichtspunkte anstelle von feinkörnigen OpenPose-Gesichtspunkten. Zweitens verwendet das InstantID-Framework ID-Embeddings anstelle von textuellen Prompts als Bedingungen für die Cross-Attention-Layer in der ControlNet-Architektur.
Training und Inferenz
Während der Trainingsphase optimiert das InstantID-Framework die Parameter der IdentityNet und des Bild-Adapters, während die Parameter des vorgefertigten Diffusionsmodells eingefroren werden. Die gesamte InstantID-Pipeline wird auf Bild-Text-Paaren trainiert, die menschliche Subjekte enthalten, und verwendet ein Trainingsziel, das dem des Stable-Diffusions-Frameworks ähnelt, mit Aufgaben-spezifischen Bild-Bedingungen. Der Höhepunkt der InstantID-Trainingsmethode ist die Trennung zwischen den Bild- und Text-Cross-Attention-Layern innerhalb des Bild-Prompt-Adapters, eine Wahl, die es dem InstantID-Framework ermöglicht, die Gewichte dieser Bild-Bedingungen flexibel und unabhängig anzupassen, um so einen gezielteren und kontrollierteren Inferenz- und Trainingsprozess zu gewährleisten.
InstantID: Experimente und Ergebnisse
Das InstantID-Framework implementiert das Stable-Diffusions-Modell und trainiert es auf LAION-Face, einer großen, öffentlich zugänglichen Datenbank, die über 50 Millionen Bild-Text-Paare enthält. Darüber hinaus sammelt das InstantID-Framework über 10 Millionen menschliche Bilder mit Automatisierungen, die automatisch durch das BLIP2-Modell generiert werden, um die Bildgenerierungsqualität weiter zu verbessern. Das InstantID-Framework konzentriert sich hauptsächlich auf Einzelpersonen-Bilder und verwendet ein vorgefertigtes Gesichtsmodell, um Gesichts-ID-Embeddings aus menschlichen Bildern zu erkennen und zu extrahieren, anstelle des Trainings auf beschnittene Gesichtsdatenbanken. Während des Trainings friert das InstantID-Framework das vorgefertigte Text-zu-Bild-Modell ein und aktualisiert nur die Parameter der IdentityNet und des Bild-Adapters.
Bild-Generierung
Das InstantID-Modell verwendet einen leeren Prompt, um den Bildgenerierungsprozess unter Verwendung nur des Referenzbildes zu leiten, und die Ergebnisse ohne Prompts werden in der folgenden Abbildung demonstriert.

Die ‘leeren Prompt’-Generierung, wie in der obigen Abbildung gezeigt, demonstriert die Fähigkeit des InstantID-Frameworks, reiche semantische Gesichtsmerkmale wie Identität, Alter und Ausdruck robust zu erhalten. Allerdings ist es erwähnenswert, dass die Verwendung leerer Prompts möglicherweise nicht in der Lage ist, die Ergebnisse auf andere Semantiken wie Geschlecht genau zu replizieren. Darüber hinaus verwenden die Spalten 2 bis 4 in der obigen Abbildung ein Bild und einen Prompt, und wie zu sehen ist, zeigt das generierte Bild keine Verschlechterung der Text-Steuerungsfähigkeiten und gewährleistet auch die Identitätskonsistenz. Schließlich demonstrieren die Spalten 5 bis 9 die Verwendung eines Bildes, eines Prompts und räumlicher Steuerung, was die Kompatibilität des Modells mit vorgefertigten räumlichen Steuerungsmodellen zeigt, die es dem InstantID-Modell ermöglichen, räumliche Steuerungen unter Verwendung eines vorgefertigten ControlNet-Components flexibel einzuführen.

Es ist auch erwähnenswert, dass die Anzahl der Referenzbilder einen signifikanten Einfluss auf das generierte Bild hat, wie in der obigen Abbildung gezeigt. Obwohl das InstantID-Framework in der Lage ist, gute Ergebnisse mit nur einem Referenzbild zu erzielen, produzieren mehrere Referenzbilder ein Bild von besserer Qualität, da das InstantID-Framework den Mittelwert der ID-Embeddings als Bild-Prompt verwendet. Wenn man weitermacht, ist es wesentlich, das InstantID-Framework mit bestehenden Methoden zu vergleichen, die personalisierte Bilder unter Verwendung eines einzelnen Referenzbildes generieren. Die folgende Abbildung vergleicht die Ergebnisse, die vom InstantID-Framework und bestehenden State-of-the-Art-Modellen für die Generierung von maßgeschneiderten Bildern mit einem einzelnen Referenzbild erzeugt werden.

Wie zu sehen ist, ist das InstantID-Framework in der Lage, Gesichtsmerkmale zu erhalten, dank der ID-Embeddings, die inhärent reiche semantische Informationen wie Identität, Alter und Geschlecht tragen. Es wäre sicher zu sagen, dass das InstantID-Framework bestehende Frameworks in der maßgeschneiderten Bildgenerierung übertrifft, da es in der Lage ist, menschliche Identität zu erhalten, während es Steuerung und stilistische Flexibilität aufrechterhält.

Abschließende Gedanken
In diesem Artikel haben wir über InstantID gesprochen, eine Diffusionsmodell-basierte Lösung für Bildgenerierung. InstantID ist ein Plug-and-Play-Modul, das Bildgenerierung und Personalisierung auf verschiedene Stile mit nur einem Referenzbild und auch hoher Fidelität hinweg beherrscht. Das InstantID-Framework konzentriert sich auf die instantane Identitätspräservierende Bildsynthese und versucht, die Lücke zwischen Effizienz und hoher Fidelität durch die Einführung eines einfachen Plug-and-Play-Moduls zu schließen, das es dem Framework ermöglicht, Bildpersonalisierung unter Verwendung nur eines Gesichtsbildes mit hoher Fidelität zu beherrschen.










