Künstliche Intelligenz

InstantID: Identitätserhaltende Zero-Shot-Generierung in Sekundenschnelle

Veröffentlicht 12. März 2024

Kunal Kejriwal

Die KI-gestützte Bilderzeugungstechnologie hat in den letzten Jahren ein bemerkenswertes Wachstum erlebt, seit große Text-zu-Bild-Diffusionsmodelle wie DALL-E, GLIDE, Stable Diffusion, Imagen und andere auf den Markt kamen. Obwohl KI-Modelle zur Bildgenerierung über eine einzigartige Architektur und Trainingsmethoden verfügen, haben sie alle einen gemeinsamen Schwerpunkt: die maßgeschneiderte und personalisierte Bildgenerierung, die darauf abzielt, Bilder mit konsistenter Zeichen-ID, Motiv und Stil auf der Grundlage von Referenzbildern zu erstellen. Aufgrund ihrer bemerkenswerten generativen Fähigkeiten haben moderne KI-Frameworks zur Bilderzeugung Anwendung in Bereichen wie Bildanimation, virtuelle Realität, E-Commerce, KI-Porträts und mehr gefunden. Doch trotz ihrer bemerkenswerten generativen Fähigkeiten haben diese Frameworks alle eine Hürde gemeinsam: Die meisten von ihnen sind nicht in der Lage, individuelle Bilder zu erzeugen und gleichzeitig die empfindlichen Identitätsdetails menschlicher Objekte zu bewahren.

Die Generierung individueller Bilder unter Beibehaltung komplexer Details ist von entscheidender Bedeutung, insbesondere bei Aufgaben zur Identifizierung menschlicher Gesichter, die einen hohen Standard an Wiedergabetreue und Details sowie nuancierter Semantik erfordern, im Vergleich zu allgemeinen Objektbildgenerierungsaufgaben, die sich hauptsächlich auf grobkörnige Texturen und Farben konzentrieren. Darüber hinaus haben sich in den letzten Jahren personalisierte Bildsynthese-Frameworks wie LoRA, DreamBooth, Textual Inversion und andere erheblich weiterentwickelt. Allerdings sind personalisierte, bildgenerierende KI-Modelle immer noch nicht perfekt für den Einsatz in realen Szenarien geeignet, da sie einen hohen Speicherbedarf haben, mehrere Referenzbilder erfordern und häufig einen langwierigen Feinabstimmungsprozess erfordern. Andererseits erfordern bestehende, auf ID-Einbettung basierende Methoden zwar nur eine einzige Vorwärtsreferenz, ihnen fehlt jedoch entweder die Kompatibilität mit öffentlich verfügbaren, vorab trainierten Modellen, sie erfordern einen übermäßigen Feinabstimmungsprozess für zahlreiche Parameter oder sie können nicht hoch gehalten werden Gesichtstreue.

Um diese Herausforderungen zu meistern und die Bildgenerierungsmöglichkeiten weiter zu verbessern, stellen wir in diesem Artikel InstantID vor, eine auf Diffusionsmodellen basierende Lösung zur Bildgenerierung. InstantID ist ein Plug-and-Play-Modul, das die Bildgenerierung und -personalisierung in verschiedenen Stilen mit nur einem Referenzbild sicherstellt und gleichzeitig eine hohe Wiedergabetreue gewährleistet. Das Hauptziel dieses Artikels ist es, unseren Lesern ein umfassendes Verständnis der technischen Grundlagen und Komponenten des InstantID-Frameworks zu vermitteln, indem wir einen detaillierten Blick auf die Architektur, den Trainingsprozess und die Anwendungsszenarien des Modells werfen. Legen wir also los.

InstantID: identitätserhaltende Zero-Shot-Bilderzeugung

Das Aufkommen von Text-zu-Bild-Diffusionsmodellen hat erheblich zur Weiterentwicklung der Bilderzeugungstechnologie beigetragen. Das Hauptziel dieser Modelle ist die maßgeschneiderte und persönliche Generierung sowie die Erstellung von Bildern mit konsistentem Thema, Stil und Charakter-ID unter Verwendung eines oder mehrerer Referenzbilder. Die Fähigkeit dieser Frameworks, konsistente Bilder zu erstellen, hat potenzielle Anwendungen in verschiedenen Branchen geschaffen, darunter Bildanimation, KI-Porträtgenerierung, E-Commerce, virtuelle und erweiterte Realität und vieles mehr.

Trotz ihrer bemerkenswerten Fähigkeiten stehen diese Frameworks jedoch vor einer grundlegenden Herausforderung: Sie haben oft Schwierigkeiten, maßgeschneiderte Bilder zu erstellen, die die komplexen Details menschlicher Motive genau wiedergeben. Es ist erwähnenswert, dass die Erstellung individueller Bilder mit intrinsischen Details eine herausfordernde Aufgabe ist, da die menschliche Gesichtsidentität im Vergleich zu allgemeinen Objekten oder Stilen, die sich hauptsächlich auf Farben oder grobkörnige Texturen konzentrieren, ein höheres Maß an Wiedergabetreue und Details sowie eine fortgeschrittenere Semantik erfordert. Bestehende Text-zu-Bild-Modelle sind auf detaillierte Textbeschreibungen angewiesen und haben Schwierigkeiten, eine starke semantische Relevanz für die maßgeschneiderte Bildgenerierung zu erreichen. Darüber hinaus fügen einige große vorab trainierte Text-zu-Bild-Frameworks räumliche Konditionierungssteuerungen hinzu, um die Steuerbarkeit zu verbessern und eine feinkörnige Struktursteuerung mithilfe von Elementen wie Körperhaltungen, Tiefenkarten, vom Benutzer gezeichneten Skizzen, semantischen Segmentierungskarten und mehr zu ermöglichen. Trotz dieser Ergänzungen und Verbesserungen können diese Frameworks jedoch nur eine teilweise Wiedergabetreue des generierten Bildes zum Referenzbild erreichen.

Um diese Hürden zu überwinden, konzentriert sich das InstantID-Framework auf die sofortige identitätserhaltende Bildsynthese und versucht, die Lücke zwischen Effizienz und hoher Wiedergabetreue zu schließen, indem es ein einfaches Plug-and-Play-Modul einführt, das es dem Framework ermöglicht, die Bildpersonalisierung mit nur einem einzigen Gesichtsbild durchzuführen unter Beibehaltung der hohen Wiedergabetreue. Um die Gesichtsidentität aus dem Referenzbild zu bewahren, implementiert das InstantID-Framework außerdem einen neuartigen Gesichtsencoder, der die komplexen Bilddetails beibehält, indem er schwache räumliche und starke semantische Bedingungen hinzufügt, die den Bilderzeugungsprozess durch die Einbeziehung von Textaufforderungen, Orientierungspunkten und Gesichtsbildern steuern .

Es gibt drei Unterscheidungsmerkmale, die das InstantID-Framework von bestehenden Frameworks zur Text-zu-Bild-Generierung unterscheiden.

Kompatibilität und Steckbarkeit: Anstatt die vollständigen Parameter des UNet-Frameworks zu trainieren, konzentriert sich das InstantID-Framework auf das Training eines leichtgewichtigen Adapters. Dadurch ist das InstantID-Framework mit vorhandenen vorab trainierten Modellen kompatibel und steckbar.

Ohne Tuning: Die Methodik des InstantID-Frameworks macht eine Feinabstimmung überflüssig, da für die Inferenz nur eine einzige Vorwärtsausbreitung erforderlich ist, was das Modell für die Feinabstimmung äußerst praktisch und wirtschaftlich macht.
Überlegene Leistung: Das InstantID-Framework weist eine hohe Flexibilität und Genauigkeit auf, da es mit nur einem einzigen Referenzbild eine hochmoderne Leistung liefern kann, vergleichbar mit trainingsbasierten Methoden, die auf mehreren Referenzbildern basieren.

Insgesamt lassen sich die Beiträge des InstantID-Frameworks in die folgenden Punkte einteilen.

Das InstantID-Framework ist eine innovative, ID-erhaltende Adaptionsmethode für vorab trainierte Text-zu-Bild-Diffusionsmodelle mit dem Ziel, die Lücke zwischen Effizienz und Wiedergabetreue zu schließen.
Das InstantID-Framework ist mit benutzerdefinierten, fein abgestimmten Modellen kompatibel und steckbar, wobei das gleiche Diffusionsmodell in seiner Architektur verwendet wird, sodass die ID in vorab trainierten Modellen ohne zusätzliche Kosten erhalten bleibt.

InstantID: Methodik und Architektur

Wie bereits erwähnt, ist das InstantID-Framework ein effizienter, leichter Adapter, der vorab trainierte Text-zu-Bild-Diffusionsmodelle mühelos mit Funktionen zur ID-Erhaltung ausstattet.

Apropos Architektur: Das InstantID-Framework basiert auf dem Stabiles Diffusionsmodell, bekannt für seine Fähigkeit, den Diffusionsprozess mit hoher Recheneffizienz in einem niedrigdimensionalen latenten Raum statt im Pixelraum mit einem Auto-Encoder durchzuführen. Bei einem Eingabebild ordnet der Encoder das Bild zunächst einer latenten Darstellung mit Downsampling-Faktor und latenten Abmessungen zu. Um ein normalverteiltes Rauschen mit verrauschter Latenz, Zustand und aktuellem Zeitschritt zu entrauschen, verwendet der Diffusionsprozess außerdem eine entrauschende UNet-Komponente. Die Bedingung ist eine Einbettung von Textaufforderungen, die mithilfe einer vorab trainierten CLIP-Text-Encoder-Komponente generiert werden.

Darüber hinaus nutzt das InstantID-Framework auch eine ControlNet-Komponente, die in der Lage ist, räumliche Kontrolle zu einem vorab trainierten Diffusionsmodell als Bedingung hinzuzufügen, was weit über die herkömmlichen Fähigkeiten von Textaufforderungen hinausgeht. Die ControlNet-Komponente integriert auch die UNet-Architektur aus dem Stable Diffusion-Framework mithilfe einer trainierten Replikation der UNet-Komponente. Die Nachbildung der UNet-Komponente weist Null-Faltungsschichten innerhalb der Mittelblöcke und Encoderblöcke auf. Trotz ihrer Ähnlichkeiten unterscheidet sich die ControlNet-Komponente vom Stable Diffusion-Modell; beide unterscheiden sich im letztgenannten Restposten. Die ControlNet-Komponente kodiert räumliche Zustandsinformationen wie Posen, Tiefenkarten, Skizzen und mehr, indem sie die Residuen zum UNet-Block hinzufügt und diese Residuen dann in das ursprüngliche Netzwerk einbettet.

Das InstantID-Framework lässt sich auch vom IP-Adapter oder Image Prompt Adapter inspirieren, der einen neuartigen Ansatz einführt, um Bildaufforderungsfunktionen parallel zu Textaufforderungen zu erreichen, ohne dass der ursprüngliche Text in Bildmodelle geändert werden muss. Die IP-Adapter-Komponente verwendet außerdem eine einzigartige entkoppelte Cross-Attention-Strategie, die zusätzliche Cross-Attention-Ebenen verwendet, um die Bildmerkmale einzubetten, während die anderen Parameter unverändert bleiben.

Methodik

Um Ihnen einen kurzen Überblick zu geben: Das InstantID-Framework zielt darauf ab, benutzerdefinierte Bilder mit unterschiedlichen Stilen oder Posen zu generieren, indem nur ein einziges Referenz-ID-Bild mit hoher Wiedergabetreue verwendet wird. Die folgende Abbildung gibt einen kurzen Überblick über das InstantID-Framework.

Wie man beobachten kann, besteht das InstantID-Framework aus drei wesentlichen Komponenten:

Eine ID-Einbettungskomponente, die robuste semantische Informationen der Gesichtsmerkmale im Bild erfasst.
Ein leichtgewichtiges Modul mit einer entkoppelten Queraufmerksamkeitskomponente, um die Verwendung eines Bildes als visuelle Aufforderung zu erleichtern.
Eine IdentityNet-Komponente, die die detaillierten Merkmale aus dem Referenzbild mithilfe zusätzlicher räumlicher Kontrolle codiert.

ID-Einbettung

Im Gegensatz zu bestehenden Methoden wie FaceStudio, PhotoMaker, IP-Adapter und anderen, die auf einem vorab trainierten CLIP-Bild-Encoder basieren, um visuelle Eingabeaufforderungen zu extrahieren, konzentriert sich das InstantID-Framework auf eine verbesserte Wiedergabetreue und stärkere semantische Details bei der ID-Erhaltungsaufgabe. Es ist erwähnenswert, dass die inhärenten Einschränkungen der CLIP-Komponente hauptsächlich in ihrem Trainingsprozess für schwach ausgerichtete Daten liegen, was bedeutet, dass die codierten Funktionen des CLIP-Encoders in erster Linie breite und mehrdeutige semantische Informationen wie Farben, Stil und Zusammensetzung erfassen. Obwohl diese Funktionen als allgemeine Ergänzung zu Texteinbettungen dienen können, eignen sie sich nicht für präzise ID-Aufbewahrungsaufgaben, bei denen starker Wert auf starke Semantik und hohe Wiedergabetreue gelegt wird. Darüber hinaus haben aktuelle Forschungen zu Gesichtsdarstellungsmodellen, insbesondere im Bereich der Gesichtserkennung, die Effizienz der Gesichtsdarstellung bei komplexen Aufgaben, einschließlich Gesichtsrekonstruktion und -erkennung, gezeigt. Darauf aufbauend zielt das InstantID-Framework darauf ab, ein vorab trainiertes Gesichtsmodell zu nutzen, um Einbettungen von Gesichts-IDs aus dem Referenzbild zu erkennen und zu extrahieren und so das Modell für die Bilderzeugung zu leiten.

Bildadapter

Die Fähigkeit von vorab trainierte Text-zu-Bild-Diffusionsmodelle Bei Bildaufforderungsaufgaben werden die Textaufforderungen erheblich verbessert, insbesondere bei Szenarien, die durch die Textaufforderungen nicht ausreichend beschrieben werden können. Das InstantID-Framework übernimmt eine Strategie, die der des IP-Adapter-Modells für Bildaufforderungen ähnelt und ein leichtes adaptives Modul gepaart mit einer entkoppelten Queraufmerksamkeitskomponente einführt, um Bilder als Eingabeaufforderungen zu unterstützen. Im Gegensatz zu den grob ausgerichteten CLIP-Einbettungen unterscheidet sich das InstantID-Framework jedoch dadurch, dass es ID-Einbettungen als Bildaufforderungen verwendet, um eine semantisch reichhaltige und differenziertere Eingabeaufforderungsintegration zu erreichen.

IdentityNet

Obwohl vorhandene Methoden in der Lage sind, Bildaufforderungen mit Textaufforderungen zu integrieren, argumentiert das InstantID-Framework, dass diese Methoden nur grobkörnige Funktionen mit einem Integrationsgrad verbessern, der für die ID-erhaltende Bildgenerierung nicht ausreicht. Darüber hinaus führt das direkte Hinzufügen der Bild- und Text-Tokens zu Queraufmerksamkeitsebenen tendenziell dazu, die Kontrolle über Text-Tokens zu schwächen, und der Versuch, die Stärke der Bild-Tokens zu erhöhen, könnte dazu führen, dass die Fähigkeiten von Text-Tokens bei Bearbeitungsaufgaben beeinträchtigt werden. Um diesen Herausforderungen zu begegnen, entscheidet sich das InstantID-Framework für ControlNet, eine alternative Methode zur Merkmalseinbettung, die räumliche Informationen als Eingabe für das steuerbare Modul nutzt und es so ermöglicht, die Konsistenz mit den UNet-Einstellungen in den Diffusionsmodellen aufrechtzuerhalten.

Das InstantID-Framework nimmt zwei Änderungen an der traditionellen ControlNet-Architektur vor: Für bedingte Eingaben entscheidet sich das InstantID-Framework für 5 Gesichts-Schlüsselpunkte anstelle feinkörniger OpenPose-Gesichts-Schlüsselpunkte. Zweitens verwendet das InstantID-Framework ID-Einbettungen anstelle von Textaufforderungen als Bedingungen für die Queraufmerksamkeitsebenen in der ControlNet-Architektur.

Training und Schlussfolgerung

Während der Trainingsphase optimiert das InstantID-Framework die Parameter des IdentityNet und des Image Adapters und friert gleichzeitig die Parameter des vorab trainierten Diffusionsmodells ein. Die gesamte InstantID-Pipeline wird auf Bild-Text-Paaren trainiert, die menschliche Subjekte zeigen, und verwendet ein Trainingsziel, das dem im Stable Diffusion Framework mit aufgabenspezifischen Bildbedingungen verwendeten ähnelt. Das Highlight der InstantID-Trainingsmethode ist die Trennung zwischen den Bild- und Text-Cross-Attention-Layern innerhalb des Image-Prompt-Adapters. Eine Wahl, die es dem InstantID-Framework ermöglicht, die Gewichtungen dieser Bildbedingungen flexibel und unabhängig anzupassen und so eine gezieltere und kontrollierte Umsetzung zu gewährleisten Inferenz- und Trainingsprozess.

InstantID: Experimente und Ergebnisse

Das InstantID-Framework implementiert die Stable Diffusion und trainiert sie auf LAION-Face, einem großen Open-Source-Datensatz, der aus über 50 Millionen Bild-Text-Paaren besteht. Darüber hinaus sammelt das InstantID-Framework über 10 Millionen menschliche Bilder mit automatisch vom BLIP2-Modell generierten Automatisierungen, um die Qualität der Bilderzeugung weiter zu verbessern. Das InstantID-Framework konzentriert sich hauptsächlich auf Einzelpersonenbilder und verwendet ein vorab trainiertes Gesichtsmodell, um Einbettungen von Gesichts-IDs aus menschlichen Bildern zu erkennen und zu extrahieren. Anstatt die zugeschnittenen Gesichtsdatensätze zu trainieren, werden die ursprünglichen menschlichen Bilder trainiert. Darüber hinaus friert das InstantID-Framework während des Trainings das vorab trainierte Text-zu-Bild-Modell ein und aktualisiert nur die Parameter von IdentityNet und Image Adapter.

Nur-Bild-Generierung

Das InstantID-Modell verwendet eine leere Eingabeaufforderung, um den Bildgenerierungsprozess nur unter Verwendung des Referenzbilds zu steuern. Die Ergebnisse ohne Eingabeaufforderungen werden in der folgenden Abbildung dargestellt.

Die Generierung einer „leeren Eingabeaufforderung“, wie im obigen Bild gezeigt, zeigt die Fähigkeit des InstantID-Frameworks, umfangreiche semantische Gesichtsmerkmale wie Identität, Alter und Ausdruck robust beizubehalten. Es ist jedoch zu beachten, dass die Verwendung leerer Eingabeaufforderungen möglicherweise nicht in der Lage ist, die Ergebnisse für andere Semantiken wie das Geschlecht genau zu reproduzieren. Darüber hinaus verwenden die Spalten 2 bis 4 im obigen Bild ein Bild und eine Eingabeaufforderung, und wie man sehen kann, weist das generierte Bild keine Verschlechterung der Textsteuerungsfähigkeiten auf und gewährleistet außerdem die Identitätskonsistenz. Schließlich verwenden die Spalten 5 bis 9 ein Bild, eine Eingabeaufforderung und eine räumliche Steuerung, was die Kompatibilität des Modells mit vorab trainierten räumlichen Steuerungsmodellen demonstriert und es dem InstantID-Modell ermöglicht, mithilfe einer vorab trainierten ControlNet-Komponente flexibel räumliche Steuerungen einzuführen.

Es ist auch erwähnenswert, dass die Anzahl der Referenzbilder einen erheblichen Einfluss auf das generierte Bild hat, wie im obigen Bild gezeigt. Obwohl das InstantID-Framework mit einem einzelnen Referenzbild gute Ergebnisse liefern kann, erzeugen mehrere Referenzbilder ein Bild mit besserer Qualität, da das InstantID-Framework den durchschnittlichen Mittelwert der ID-Einbettungen als Bildaufforderung verwendet. Im weiteren Verlauf ist es wichtig, das InstantID-Framework mit früheren Methoden zu vergleichen, die personalisierte Bilder mithilfe eines einzigen Referenzbilds generieren. Die folgende Abbildung vergleicht die vom InstantID-Framework generierten Ergebnisse mit bestehenden Modellen auf dem neuesten Stand der Technik für die Generierung benutzerdefinierter Einzelreferenzbilder.

Wie man sieht, ist das InstantID-Framework in der Lage, Gesichtsmerkmale zu bewahren, da die ID-Einbettung von Natur aus umfangreiche semantische Informationen wie Identität, Alter und Geschlecht enthält. Man kann mit Sicherheit sagen, dass das InstantID-Framework bestehende Frameworks bei der individuellen Bildgenerierung übertrifft, da es in der Lage ist, die menschliche Identität zu bewahren und gleichzeitig Kontrolle und stilistische Flexibilität zu bewahren.

Fazit

In diesem Artikel haben wir über InstantID gesprochen, eine auf einem Diffusionsmodell basierende Lösung zur Bildgenerierung. InstantID ist ein Plug-and-Play-Modul, das die Bildgenerierung und -personalisierung über verschiedene Stile hinweg mit nur einem einzigen Referenzbild geschickt beherrscht und zudem eine hohe Wiedergabetreue gewährleistet. Das InstantID-Framework konzentriert sich auf die sofortige identitätserhaltende Bildsynthese und versucht, die Lücke zwischen Effizienz und High-Fidelity zu schließen, indem es ein einfaches Plug-and-Play-Modul einführt, das es dem Framework ermöglicht, die Bildpersonalisierung mit nur einem einzigen Gesichtsbild zu bewältigen und dabei High-Fidelity aufrechtzuerhalten.

Kunal Kejriwal

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.