Connect with us

Andersons Blickwinkel

Der Kampf um Zero-Shot-Anpassung in generativer KI

mm
Timothy Chalomet replaces Jack Nicholson in The Shining (1980), thanks to the new HyperLoRA system. Source: https://arxiv.org/pdf/2503.16944

Wenn Sie sich in ein beliebtes Bild- oder Video-Generierungstool einfügen möchten, aber nicht bereits berühmt genug sind, um vom Grundmodell erkannt zu werden, müssen Sie ein Low-Rank-Adaptations (LoRA)-Modell mithilfe einer Sammlung Ihrer eigenen Fotos trainieren. Sobald dieses personalisierte LoRA-Modell erstellt wurde, ermöglicht es dem generativen Modell, Ihre Identität in zukünftigen Ausgaben einzubeziehen.

Dies wird im Bild- und Video-Synthese-Forschungsbereich häufig als Anpassung bezeichnet. Es entstand einige Monate nach dem Erscheinen von Stable Diffusion im Sommer 2022, als Google Research das DreamBooth-Projekt mit hochauflösenden Anpassungsmodellen in einem geschlossenen Schema vorstellte, das bald von Enthusiasten adaptiert und der Gemeinschaft zur Verfügung gestellt wurde.

LoRA-Modelle folgten schnell und boten einfacheres Training und viel leichtere Dateigrößen bei minimalem oder keinem Qualitätsverlust, was die Anpassungsszene für Stable Diffusion und seine Nachfolger, spätere Modelle wie Flux und jetzt neue generative Video-Modelle wie Hunyuan Video und Wan 2.1, dominierte.

Wiederholen und Neu ausrichten

Das Problem ist, wie wir bereits erwähnt haben, dass jedes Mal, wenn ein neues Modell erscheint, ein neues LoRA-Modell trainiert werden muss, was einen erheblichen Reibungspunkt für LoRA-Produzenten darstellt, die möglicherweise eine Reihe von benutzerdefinierten Modellen trainieren, nur um festzustellen, dass ein Modell-Update oder ein beliebteres neueres Modell bedeutet, dass sie von vorne beginnen müssen.

Daher sind Zero-Shot-Anpassungsansätze in der Literatur in letzter Zeit zu einem starken Strang geworden. In diesem Szenario müssen Sie anstelle von Datenkuratierung und Training Ihres eigenen Submodells einfach ein oder mehrere Fotos des zu injizierenden Subjekts bereitstellen, und das System interpretiert diese Eingabequellen in eine gemischte Ausgabe.

Unten sehen wir, dass neben Gesichtsüberlagerung ein System dieser Art (hier mit PuLID) auch ID-Werte in Stilübertragung einbeziehen kann:

Beispiele für Gesichts-ID-Übertragung mit dem PuLID-System. Quelle: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file

Beispiele für Gesichts-ID-Übertragung mit dem PuLID-System. Quelle: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file

Während das Ersetzen eines arbeitsintensiven und zerbrechlichen Systems wie LoRA durch einen generischen Adapter eine großartige (und beliebte) Idee ist, ist es auch herausfordernd; die extreme Aufmerksamkeit für Details und Abdeckung, die im LoRA-Trainingsprozess erzielt wird, ist sehr schwierig zu imitieren in einem Ein-Schuss-IP-Adapter-ähnlichen Modell, das LoRAs Level an Details und Flexibilität ohne den Vorteil der Analyse einer umfassenden Menge an Identitätsbildern erreichen muss.

HyperLoRA

Mit diesem Hintergrund gibt es einen interessanten neuen Artikel von ByteDance, der ein System vorschlägt, das tatsächliche LoRA-Code auf die Schnelle generiert, was derzeit einzigartig unter Zero-Shot-Lösungen ist:

Links, Eingabebilder. Rechts davon, eine flexible Reihe von Ausgaben basierend auf den Quellbildern, effektiv Deepfakes von Schauspielern Anthony Hopkins und Anne Hathaway erzeugend. Quelle: https://arxiv.org/pdf/2503.16944

Links, Eingabebilder. Rechts davon, eine flexible Reihe von Ausgaben basierend auf den Quellbildern, effektiv Deepfakes von Schauspielern Anthony Hopkins und Anne Hathaway erzeugend. Quelle: https://arxiv.org/pdf/2503.16944

Der Artikel besagt:

‘Adapter-basierte Techniken wie IP-Adapter frieren die Grundmodellparameter ein und verwenden eine Steckarchitektur, um Zero-Shot-Schätzung zu ermöglichen, aber sie zeigen oft einen Mangel an Natürlichkeit und Authentizität, der nicht zu vernachlässigen ist in Porträtsynthese-Aufgaben.

‘[Wir] stellen eine parameter-effiziente adaptive Generierungsmethode vor, nämlich HyperLoRA, die ein adaptives Stecknetzwerk verwendet, um LoRA-Gewichte zu generieren, die die überlegene Leistung von LoRA mit der Zero-Shot-Fähigkeit des Adapter-Schemas kombinieren.

‘Durch unsere sorgfältig konzipierte Netzwerkstruktur und Trainingsstrategie erreichen wir Zero-Shot-personalisierte Porträtsynthese (unterstützt sowohl einzelne als auch multiple Bild-Eingaben) mit hoher Photorealismus, Fidelität und Editierbarkeit.’

Am nützlichsten ist, dass das System, wie trainiert, mit bestehendem ControlNet verwendet werden kann, was eine hohe Spezifität in der Generierung ermöglicht:

Timothy Chalomet macht einen unerwartet fröhlichen Auftritt in 'The Shining' (1980), basierend auf drei Eingabebildern in HyperLoRA.

Timothy Chalomet macht einen unerwartet fröhlichen Auftritt in ‘The Shining’ (1980), basierend auf drei Eingabebildern in HyperLoRA, mit einer ControlNet-Maske, die die Ausgabe definiert (in Verbindung mit einem Text-Prompt).

Was die Frage angeht, ob das neue System jemals für Endbenutzer verfügbar gemacht wird, hat ByteDance eine vernünftige Bilanz in dieser Hinsicht, da es das sehr leistungsfähige LatentSync-Lip-Sync-Framework veröffentlicht hat und gerade das InfiniteYou-Framework veröffentlicht hat.

Negativ gibt der Artikel keinen Hinweis auf die Absicht, es zu veröffentlichen, und die für die Replikation erforderlichen Trainingsressourcen sind so exorbitant, dass es für die Enthusiastengemeinschaft herausfordernd wäre, es zu replizieren (wie sie es mit DreamBooth getan hat).

Der neue Artikel trägt den Titel HyperLoRA: Parameter-Effiziente Adaptive Generierung für Porträtsynthese und stammt von sieben Forschern von ByteDance und ByteDances speziellem Intelligent Creation-Department.

Methode

Die neue Methode nutzt das Stable Diffusion Latent Diffusion Model (LDM) SDXL als Grundmodell, obwohl die Prinzipien auf Diffusionsmodelle im Allgemeinen anwendbar scheinen (allerdings könnten die Trainingsanforderungen – siehe unten – es schwierig machen, es auf generative Video-Modelle anzuwenden).

Der Trainingsprozess für HyperLoRA ist in drei Stufen unterteilt, von denen jede darauf abzielt, bestimmte Informationen in den erlernten Gewichten zu isolieren und zu bewahren. Das Ziel dieses abgegrenzten Verfahrens ist es, zu verhindern, dass identitätsrelevante Merkmale durch irrelevante Elemente wie Kleidung oder Hintergrund verunreinigt werden, während gleichzeitig eine schnelle und stabile Konvergenz erreicht wird.

Konzeptuelles Schema für HyperLoRA. Das Modell ist in 'Hyper ID-LoRA' für Identitätsmerkmale und 'Hyper Base-LoRA' für Hintergrund und Kleidung unterteilt. Diese Trennung reduziert Merkmalssaft. Während des Trainings sind die SDXL-Basis und Encoder eingefroren, und nur HyperLoRA-Module werden aktualisiert. Bei der Inferenz ist nur ID-LoRA erforderlich, um personalisierte Bilder zu generieren.

Konzeptuelles Schema für HyperLoRA. Das Modell ist in ‘Hyper ID-LoRA’ für Identitätsmerkmale und ‘Hyper Base-LoRA’ für Hintergrund und Kleidung unterteilt. Diese Trennung reduziert Merkmalssaft. Während des Trainings sind die SDXL-Basis und Encoder eingefroren, und nur HyperLoRA-Module werden aktualisiert. Bei der Inferenz ist nur ID-LoRA erforderlich, um personalisierte Bilder zu generieren.

Die erste Stufe konzentriert sich ausschließlich auf das Lernen eines ‘Base-LoRA’ (unten links im Schema-Bild oben), das identitätsirrelevante Details erfasst.

Um diese Trennung zu erzwingen, haben die Forscher absichtlich das Gesicht in den Trainingsbildern verpixelt, um das Modell zu zwingen, sich auf Dinge wie Hintergrund, Beleuchtung und Pose zu konzentrieren – aber nicht auf Identität. Diese “Aufwärmsphase” dient als Filter, um niedrigstufige Ablenkungen zu entfernen, bevor die Identitäts-spezifische Lernphase beginnt.

In der zweiten Stufe wird ein ‘ID-LoRA’ (oben links im Schema-Bild oben) eingeführt. Hier wird die Gesichtsidentität mithilfe zweier paralleler Pfade kodiert: ein CLIP-Vision-Transformer (CLIP ViT) für strukturelle Merkmale und den InsightFace AntelopeV2-Encoder für abstraktere Identitätsrepräsentationen.

Übergangsansatz

CLIP-Merkmale helfen dem Modell, schnell zu konvergieren, aber riskieren Überanpassung, während Antelope-Einbettungen stabiler sind, aber langsamer zu trainieren sind. Daher beginnt das System damit, sich stärker auf CLIP zu verlassen, und integriert allmählich Antelope, um Instabilität zu vermeiden.

In der finalen Stufe werden die CLIP-gesteuerten Aufmerksamkeitsschichten vollständig eingefroren. Nur die AntelopeV2-verknüpften Aufmerksamkeitsmodule setzen das Training fort, was es dem Modell ermöglicht, die Identitätserhaltung zu verfeinern, ohne die Fidelität oder Allgemeingültigkeit der zuvor erlernten Komponenten zu beeinträchtigen.

Dieser phasenweise Aufbau ist im Wesentlichen ein Versuch der Entflechtung. Identitäts- und Nicht-Identitätsmerkmale werden zunächst getrennt und dann unabhängig verfeinert. Es ist eine methodische Reaktion auf die üblichen Fehlmodi der Personalisierung: Identitätsdrift, geringe Editierbarkeit und Überanpassung an irrelevante Merkmale.

Während Sie warten

Nachdem CLIP ViT und AntelopeV2 sowohl strukturelle als auch identitätsspezifische Merkmale aus einem gegebenen Porträt extrahiert haben, werden die erhaltenen Merkmale durch einen Perceiver-Resampler (abgeleitet vom oben genannten IP-Adapter-Projekt) – ein transformer-basiertes Modul, das die Merkmale auf eine kompakten Satz von Koeffizienten kartiert.

Zwei separate Resampler werden verwendet: einer für die Generierung von Base-LoRA-Gewichten (die Hintergrund und nicht-identitätsbezogene Elemente kodieren) und ein anderer für ID-LoRA-Gewichte (die sich auf Gesichtsidentität konzentrieren).

Schema für die HyperLoRA-Netzwerkstruktur.

Schema für die HyperLoRA-Netzwerkstruktur.

Die Ausgangskoeffizienten werden dann linear mit einer Menge von erlernten LoRA-Basis-Matrizen kombiniert, um vollständige LoRA-Gewichte zu produzieren, ohne dass das Grundmodell fein abgestimmt werden muss.

Dieser Ansatz ermöglicht es dem System, personalisierte Gewichte ganz auf die Schnelle zu generieren, indem es nur Bild-Encoder und leichte Projektion verwendet, während es gleichzeitig LoRAs Fähigkeit nutzt, das Verhalten des Grundmodells direkt zu modifizieren.

Daten und Tests

Um HyperLoRA zu trainieren, verwendeten die Forscher eine Teilmenge von 4,4 Millionen Gesichtsbildern aus dem LAION-2B-Datensatz (jetzt am besten bekannt als Datenquelle für die ursprünglichen 2022 Stable Diffusion-Modelle).

InsightFace wurde verwendet, um nicht-porträtierte Gesichter und multiple Bilder zu filtern. Die Bilder wurden dann mit dem BLIP-2-Beschreibungssystem annotiert.

In Bezug auf Datenvergrößerung wurden die Bilder zufällig um das Gesicht herum beschnitten, aber immer auf die Gesichtsregion fokussiert.

Die jeweiligen LoRA-Ränge mussten sich an das verfügbare Speicher in der Trainingsumgebung anpassen. Daher wurde der LoRA-Rang für ID-LoRA auf 8 und der Rang für Base-LoRA auf 4 festgelegt, während achtstufige Gradientenakkumulation verwendet wurde, um eine größere Batch-Größe zu simulieren, als tatsächlich auf der Hardware möglich war.

Die Forscher trainierten die Base-LoRA-, ID-LoRA- (CLIP-) und ID-LoRA- (Identitäts-Einbettung-) Module sequentiell für 20.000, 15.000 und 55.000 Iterationen. Während des ID-LoRA-Trainings wurden drei Bedingungsszenarien mit Wahrscheinlichkeiten von 0,9, 0,05 und 0,05 ausprobiert.

Das System wurde mit PyTorch und Diffusers implementiert, und der gesamte Trainingsprozess dauerte etwa zehn Tage auf 16 NVIDIA A100-GPUs*.

ComfyUI-Tests

Die Autoren bauten Workflows in der ComfyUI-Synthese-Plattform, um HyperLoRA mit drei konkurrierenden Methoden zu vergleichen: InstantID; der oben genannte IP-Adapter in Form des IP-Adapter-FaceID-Portrait-Frameworks; und das oben genannte PuLID. Konsistente Samen, Prompts und Stichprobenmethoden wurden über alle Frameworks hinweg verwendet.

Die Autoren bemerken, dass adapterbasierte (anstatt LoRA-basierte) Methoden im Allgemeinen niedrigere Classifier-Free Guidance (CFG)-Skalierungen erfordern, während LoRA (einschließlich HyperLoRA) in dieser Hinsicht toleranter ist.

Um also einen fairen Vergleich zu ermöglichen, verwendeten die Forscher die Open-Source-SDXL-Feinabstimmungs-Checkpoint-Variante LEOSAMs Hello World über alle Tests hinweg. Für quantitative Tests wurde das Unsplash-50-Bild-Datensatz verwendet.

Metriken

Für einen Fidelitäts-Benchmark maßen die Autoren die Gesichtsähnlichkeit mithilfe von Kosinus-Abständen zwischen CLIP-Bild-Einbettungen (CLIP-I) und separaten Identitäts-Einbettungen (ID Sim), die über CurricularFace extrahiert wurden, ein Modell, das während des Trainings nicht verwendet wurde.

Jede Methode generierte vier hochauflösende Kopfbilder pro Identität im Test-Set, und die Ergebnisse wurden dann gemittelt.

Die Editierbarkeit wurde in beiden Datenvergrößerung und CLIP-Bild-Text-Abgleich (CLIP-T) über zehn Prompt-Variationen hinweg bewertet, die Haarstile, Zubehör, Kleidung und Hintergründe abdeckten.

Die Autoren haben das Arc2Face-Grundmodell in die Vergleiche einbezogen – ein Basismodell, das auf festen Beschriftungen und beschnittenen Gesichtsregionen trainiert wurde.

Für HyperLoRA wurden zwei Varianten getestet: eine, die nur das ID-LoRA-Modul verwendet, und eine andere, die sowohl ID- als auch Base-LoRA verwendet, wobei letzteres mit 0,4 gewichtet wurde. Während Base-LoRA die Fidelität verbesserte, begrenzte es leicht die Editierbarkeit.

Ergebnisse für den anfänglichen quantitativen Vergleich.

Ergebnisse für den anfänglichen quantitativen Vergleich.

Von den quantitativen Tests bemerken die Autoren:

‘Base-LoRA hilft, die Fidelität zu verbessern, aber begrenzt die Editierbarkeit. Obwohl unser Design die Bildmerkmale in verschiedene LoRAs unterteilt, ist es schwierig, eine gegenseitige Beeinträchtigung zu vermeiden. Daher können wir das Gewicht von Base-LoRA anpassen, um es an verschiedene Anwendungsszenarien anzupassen.

‘Unser HyperLoRA (Voll und ID) erreichen die beste und zweitbeste Gesichtsfidelität, während InstantID eine Überlegenheit in Gesichts-ID-Ähnlichkeit zeigt, aber eine niedrigere Gesichtsfidelität.

‘Beide Metriken sollten zusammen berücksichtigt werden, um die Fidelität zu bewerten, da die Gesichts-ID-Ähnlichkeit abstrakter und die Gesichtsfidelität mehr Details widerspiegelt.’

In qualitativen Tests treten die verschiedenen Kompromisse, die in der wesentlichen Aussage enthalten sind, in den Vordergrund (bitte beachten Sie, dass wir nicht genug Platz haben, um alle Bilder für qualitative Ergebnisse zu reproduzieren, und verweisen den Leser auf den Quellenartikel für weitere Bilder in besserer Auflösung):

Qualitativer Vergleich. Von oben nach unten, die verwendeten Prompts waren: 'weißes Hemd' und 'Wolfsohren' (siehe Artikel für weitere Beispiele).

Qualitativer Vergleich. Von oben nach unten, die verwendeten Prompts waren: ‘weißes Hemd’ und ‘Wolfsohren’ (siehe Artikel für weitere Beispiele).

Hier bemerken die Autoren:

‘Die Haut von Porträts, die von IP-Adapter und InstantID generiert wurden, hat eine offensichtliche AI-erzeugte Textur, die ein bisschen übergesättigt und weit von Photorealismus entfernt ist.

‘Es ist ein häufiges Manko von Adapter-basierten Methoden. PuLID verbessert dieses Problem, indem es den Eingriff in das Grundmodell schwächt, und übertrifft IP-Adapter und InstantID, aber leidet immer noch unter Verpixelung und Mangel an Details.

‘Im Gegensatz dazu modifiziert LoRA die Grundmodell-Gewichte direkt, anstatt zusätzliche Aufmerksamkeitsmodule einzuführen, und generiert in der Regel hoch detaillierte und photorealistische Bilder.’

Die Autoren behaupten, dass HyperLoRA, da es die Grundmodell-Gewichte direkt modifiziert, anstatt auf externe Aufmerksamkeitsmodule zu vertrauen, die nichtlineare Kapazität traditioneller LoRA-basierter Methoden beibehält, was möglicherweise einen Vorteil in Fidelität bietet und eine verbesserte Erfassung von feinen Details wie Pupillenfarbe ermöglicht.

In qualitativen Vergleichen behauptet der Artikel, dass HyperLoRAs Layouts kohärenter und besser mit Prompts übereinstimmten und ähnlich waren wie die von PuLID erzeugten, während sie deutlich stärker waren als InstantID oder IP-Adapter (die gelegentlich Schwierigkeiten hatten, Prompts zu befolgen oder unnatürliche Kompositionen produzierten).

Weitere Beispiele für ControlNet-Generierungen mit HyperLoRA.

Weitere Beispiele für ControlNet-Generierungen mit HyperLoRA.

Schlussfolgerung

Der ständige Strom von verschiedenen Ein-Schuss-Anpassungssystemen in den letzten 18 Monaten hat inzwischen eine Qualität der Verzweiflung angenommen. Nur wenige der Angebote haben einen bemerkenswerten Fortschritt im Stand der Technik erzielt; und diejenigen, die ihn ein wenig vorangebracht haben, neigen dazu, exorbitante Trainingsanforderungen und/oder extrem komplexe oder ressourcenintensive Inferenzanforderungen zu haben.

Während HyperLoRAs eigene Trainingsregime genauso atemberaubend ist wie viele ähnliche Einträge in letzter Zeit, endet man zumindest mit einem Modell, das ad hoc-Anpassung aus der Box heraus handhaben kann.

Aus dem Zusatzmaterial des Artikels bemerken wir, dass die Inferenzgeschwindigkeit von HyperLoRA besser ist als die von IP-Adapter, aber schlechter als die der beiden anderen vorherigen Methoden – und dass diese Zahlen auf einer NVIDIA V100-GPU basieren, die keine typische Consumer-Hardware ist (obwohl neuere ‘domestische’ NVIDIA-GPUs dies übertreffen oder erreichen können).

Die Inferenzgeschwindigkeiten der konkurrierenden Methoden in Millisekunden.

Die Inferenzgeschwindigkeiten der konkurrierenden Methoden in Millisekunden.

Es ist fair zu sagen, dass Zero-Shot-Anpassung immer noch ein ungelöstes Problem aus praktischer Sicht darstellt, da HyperLoRAs erhebliche Hardware-Anforderungen möglicherweise im Widerspruch zu seiner Fähigkeit stehen, ein wirklich langfristiges Ein-Grundmodell zu produzieren.

 

* Vertreten entweder 640 GB oder 1280 GB VRAM, je nachdem, welches Modell verwendet wurde (dies wird nicht angegeben)

Erstveröffentlicht am Montag, den 24. März 2025

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.