Künstliche Intelligenz
Auf dem Weg zu LoRAs, die Modellversions-Upgrades überstehen können

Seit mein jüngste Berichterstattung des Wachstums bei Hobby-Hunyuan-Video-LoRAs (klein, trainierte Dateien die benutzerdefinierte Persönlichkeiten in Text-zu-Video- und Bild-zu-Video-Grundmodelle mit mehreren Milliarden Parametern einfügen können) ist die Anzahl der in der Civit-Community verfügbaren zugehörigen LoRAs um 185 % gestiegen.

Obwohl es keine besonders einfachen oder mühelosen Möglichkeiten gibt, ein Hunyuan-Video-LoRA zu erstellen, wächst der Katalog der Promi- und Themen-LoRAs bei Civit täglich. Quelle: https://civitai.com/
Dieselbe Community, die sich bemüht, zu lernen, wie man diese „Add-on-Persönlichkeiten“ für Hunyuan Video (HV) produziert, ist auch ulzerierend für die versprochene Veröffentlichung eines Bild-zu-Video (I2V)-Funktionalität in Hunyuan Video.
Im Hinblick auf die Open-Source-Bildsynthese von Menschen ist dies eine große Sache. In Kombination mit dem Wachstum von Hunyuan LoRAs könnte es Benutzern ermöglichen, Fotos von Personen in Videos umzuwandeln, ohne dass ihre Identität während der Entwicklung des Videos verloren geht – was derzeit bei allen hochmodernen Bild-zu-Video-Generatoren der Fall ist, darunter Kling, Kaiber und das vielgelobte RunwayML:
Anklicken um abzuspielen. Eine Bild-zu-Video-Generation aus RunwayMLs hochmodernem Gen 3 Turbo-Modell. Wie bei allen ähnlichen und schwächeren Konkurrenzmodellen kann jedoch keine konsistente Identität aufrechterhalten werden, wenn sich das Motiv von der Kamera abwendet, und die markanten Merkmale des Ausgangsbildes werden zu einer „generischen Diffusionsfrau“.. Quelle: https://app.runwayml.com/
Durch die Entwicklung eines benutzerdefinierten LoRA für die betreffende Persönlichkeit könnte man in einem HV I2V-Workflow ein echtes Foto von ihnen als Ausgangspunkt verwenden. Dies ist ein weitaus besserer „Seed“, als eine Zufallszahl in den latenten Raum des Modells zu senden und sich mit dem daraus resultierenden semantischen Szenario zufrieden zu geben. Man könnte dann das LoRA oder mehrere LoRAs verwenden, um die Konsistenz von Identität, Frisuren, Kleidung und anderen zentralen Aspekten einer Generation aufrechtzuerhalten.
Die Verfügbarkeit einer solchen Kombination könnte möglicherweise einen der epochalsten Umbrüche in der generativen KI seit der Einführung von Stable Diffusion , wobei die enorme generative Kraft an Open-Source-Enthusiasten übergeben wird, ohne die Regulierung (oder „Gatekeeping“, wenn Sie so wollen) durch die Inhaltszensoren in der aktuellen Generation beliebter Gen-Vid-Systeme.
Während ich dies schreibe, ist Hunyuan Bild-zu-Video ein nicht angekreuzt „zu erledigen“ im Hunyuan Video GitHub Repo, wobei die Hobby-Community (anekdotisch) einen Discord-Kommentar eines Hunyuan-Entwicklers berichtete, der anscheinend erklärte, dass die Veröffentlichung dieser Funktionalität aufgrund des Modells auf einen späteren Zeitpunkt im ersten Quartal verschoben wurde zu unzensiert'.

Die offizielle Checkliste zur Funktionsveröffentlichung für Hunyuan Video. Quelle: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan
Ob richtig oder nicht, die Entwickler des Repo haben den Rest der Hunyuan-Checkliste im Wesentlichen erfüllt, und daher scheint Hunyuan I2V irgendwann erscheinen zu können, ob zensiert, unzensiert oder auf andere Weise 'freischaltbar'.
Aber wie wir der Liste oben entnehmen können, handelt es sich bei der I2V-Version offenbar um ein völlig separates Modell. Daher ist es ziemlich unwahrscheinlich, dass die derzeit stark wachsende Zahl von HV-LoRAs bei Civit und anderswo damit funktionieren wird.
In diesem (mittlerweile) vorhersehbaren Szenario werden LoRA-Trainingsframeworks wie Musubi-Tuner sowie OneTrainer wird in Bezug auf die Unterstützung des neuen Modells entweder zurückgesetzt oder zurückgesetzt. In der Zwischenzeit werden ein oder zwei der technisch versiertesten (und unternehmerischsten) YouTube-KI-Koryphäen ihre Lösungen über Patreon freikaufen, bis die Szene aufgeholt hat.
Upgrade-Müdigkeit
Fast niemand erlebt Upgrade-Müdigkeit so sehr wie ein LoRA oder Feintuning Enthusiast, weil das schnelle und wettbewerbsorientierte Tempo des Wandels im Bereich der generativen KI Modellgießereien wie Stability.ai, Tencent und Black Forest Labs dazu ermutigt, größere und (manchmal) bessere Modelle in der maximal möglichen Frequenz zu produzieren.
Da diese neuen und verbesserten Modelle zumindest andere Tendenzen aufweisen und Gewichte, und weisen häufiger einen anderen Maßstab und/oder eine andere Architektur auf. Dies bedeutet, dass die Feinabstimmungs-Community ihre Datensätze erneut hervorholen und den anstrengenden Trainingsprozess für die neue Version wiederholen muss.
Aus diesem Grund sind bei Civit eine Vielzahl von Stable Diffusion LoRA-Versionstypen verfügbar:

Der Upgrade-Pfad, visualisiert in den Suchfilteroptionen bei civit.ai
Da keines dieser leichten LoRA-Modelle mit höheren oder niedrigeren Modellversionen kompatibel ist und viele von ihnen von beliebten groß angelegten verschmilzt und Feinabstimmungen, die einem älteren Modell entsprechen, neigt ein erheblicher Teil der Community dazu, einer „Legacy“-Version treu zu bleiben, ähnlich wie die Kundentreue gegenüber Windows XP anhielt Jahre nach dem Ende der offiziellen Unterstützung.
Anpassung an Veränderungen
Dieses Thema kommt mir in den Sinn, weil neues Papier von Qualcomm AI Research, das behauptet, eine Methode entwickelt zu haben, mit der vorhandene LoRAs auf eine neu veröffentlichte Modellversion „aktualisiert“ werden können.

Beispielkonvertierung von LoRAs über Modellversionen hinweg. Quelle: https://arxiv.org/pdf/2501.16559
Das bedeutet nicht, dass der neue Ansatz mit dem Titel LoRA-X, kann frei zwischen allen Modellen desselben Typs übersetzen (d. h. Text-zu-Bild-Modelle oder Large Language Models [LLMs]); die Autoren haben jedoch eine effektive Transliteration eines LoRA von Stable Diffusion v1.5 > SDXL und eine Konvertierung eines LoRA für das textbasierte TinyLlama 3T-Modell in TinyLlama 2.5T demonstriert.
LoRA-X überträgt LoRA-Parameter zwischen verschiedenen Basismodellen unter Beibehaltung der Adapter innerhalb des Unterraums des Quellmodells, aber nur in Teilen des Modells, die zwischen den Modellversionen ausreichend ähnlich sind.

Links ein Schema, das zeigt, wie das LoRA-X-Quellmodell einen Adapter feinabstimmt, der dann an das Zielmodell angepasst wird. Rechts Bilder, die von den Zielmodellen SD Eff-v1.0 und SSD-1B generiert wurden, nachdem Adapter angewendet wurden, die ohne zusätzliches Training von SD-v1.5 und SDXL übertragen wurden.
Dies bietet zwar eine praktische Lösung für Szenarien, in denen ein erneutes Training unerwünscht oder unmöglich ist (z. B. bei einer Lizenzänderung der ursprünglichen Trainingsdaten), die Methode ist jedoch neben anderen Einschränkungen auf ähnliche Modellarchitekturen beschränkt.
Obwohl dies ein seltener Ausflug in ein wenig erforschtes Gebiet ist, werden wir dieses Papier nicht näher untersuchen, da LoRA-X zahlreiche Mängel aufweist, wie aus Kommentaren des Kritiker und Berater bei Open Review.
Die Methode beruht auf Subraumähnlichkeit beschränkt die Anwendung auf eng verwandte Modelle, und die Autoren haben räumte im Review-Forum, dass LoRA-X nicht einfach auf deutlich unterschiedliche Architekturen übertragen werden kann
Andere PEFT-Ansätze
Die Möglichkeit, LoRAs über verschiedene Versionen hinweg portabler zu machen, ist ein kleiner, aber interessanter Forschungszweig in der Literatur, und der wichtigste Beitrag von LoRA-X zu diesem Ziel ist die Behauptung, dass kein Training erforderlich ist. Das ist zwar nicht ganz richtig, wenn man das Papier liest, aber von allen bisherigen Methoden erfordert es am wenigsten Training.
LoRA-X ist ein weiterer Eintrag im Kanon der Parametereffiziente Feinabstimmung (PEFT)-Methoden, die sich der Herausforderung stellen, große vorab trainierte Modelle ohne umfangreiches erneutes Training an bestimmte Aufgaben anzupassen. Dieser konzeptionelle Ansatz zielt darauf ab, eine minimale Anzahl von Parametern bei gleichbleibender Leistung zu ändern.
Bemerkenswert unter diesen sind:
X-Adapter
Der X-Adapter Framework überträgt fein abgestimmte Adapter zwischen Modellen mit einem gewissen Maß an Umschulung. Das System zielt darauf ab, vorab trainierte Plug-and-Play-Module (wie ControlNet und LoRA) von einem Basis-Diffusionsmodell (d. h. Stable Diffusion v1.5) aus, um direkt mit einem aktualisierten Diffusionsmodell wie SDXL ohne erneutes Training zu arbeiten – und fungiert effektiv als „universeller Upgrader“ für Plugins.
Das System erreicht dies, indem es ein zusätzliches Netzwerk trainiert, das das aktualisierte Modell steuert. Dabei wird eine eingefrorene Kopie des Basismodells verwendet, um die Plug-In-Anschlüsse beizubehalten:

Schema für X-Adapter. Quelle: https://arxiv.org/pdf/2312.02238
X-Adapter wurde ursprünglich entwickelt und getestet, um Adapter von SD1.5 auf SDXL zu übertragen, während LoRA-X eine größere Vielfalt an Transliterationen bietet.
DoRA (Gewichtszerlegte Low-Rank-Anpassung)
DoRA ist eine erweiterte Feinabstimmungsmethode, die LoRA durch die Verwendung einer Gewichtszerlegungsstrategie verbessert, die einer vollständigen Feinabstimmung ähnlicher ist:

DORA versucht nicht einfach, einen Adapter in einer eingefrorenen Umgebung zu kopieren, wie es LoRA-X tut, sondern ändert stattdessen grundlegende Parameter der Gewichte, wie etwa Betrag und Richtung. Quelle: https://arxiv.org/pdf/2402.09353
DoRA konzentriert sich auf die Verbesserung des Feinabstimmungsprozesses selbst, indem die Gewichte des Modells in Größe und Richtung zerlegt werden (siehe Abbildung oben). LoRA-X hingegen konzentriert sich darauf, die Übertragung bestehender feinabgestimmter Parameter zwischen verschiedenen Basismodellen zu ermöglichen.
Der LoRA-X-Ansatz passt jedoch die Projektion Techniken, die für DORA entwickelt wurden, und in Tests mit diesem älteren System behauptet es eine verbesserte DINO Ergebnis.
FouRA (Fourier Low Rank Adaptation)
Veröffentlicht im Juni 2024, die FouRA-Methode stammt wie LoRA-X von Qualcomm AI Research und teilt sogar einige seiner Testaufforderungen und -themen.

Beispiele für einen Verteilungszusammenbruch in LoRA aus dem FouRA-Papier von 2024 unter Verwendung des mit LoRA und FouRA trainierten Modells Realistic Vision 3.0 für Adapter im Stil „Blue Fire“ und „Origami“ über vier Seeds hinweg. LoRA-Bilder weisen einen Verteilungszusammenbruch und eine verringerte Vielfalt auf, während FouRA vielfältigere Ausgaben erzeugt. Quelle: https://arxiv.org/pdf/2406.08798
FouRA konzentriert sich auf die Verbesserung der Vielfalt und Qualität der generierten Bilder durch die Anpassung von LoRA im Frequenzbereich unter Verwendung eines Fourier-Transformation Ansatz.
Auch hier konnte LoRA-X bessere Ergebnisse erzielen als der Fourier-basierte Ansatz von FouRA.
Obwohl beide Frameworks in die PEFT-Kategorie fallen, weisen sie sehr unterschiedliche Anwendungsfälle und Ansätze auf. In diesem Fall dient FouRA wohl dazu, die Zahlen für eine Testrunde mit begrenzten vergleichbaren Konkurrenten zu kompensieren, mit denen sich die Autoren des neuen Papiers auseinandersetzen.
SVDiff
SVDiff verfolgt auch andere Ziele als LoRA-X, wird aber in der neuen Arbeit stark genutzt. SVDiff wurde entwickelt, um die Effizienz der Feinabstimmung von Diffusionsmodellen zu verbessern, und ändert Werte innerhalb der Gewichtsmatrizen des Modells direkt, während die singulären Vektoren unverändert bleiben. SVDiff verwendet abgeschnittene SVD, wobei nur die größten Werte geändert werden, um die Gewichte des Modells anzupassen.
Dieser Ansatz verwendet eine Datenerweiterungstechnik namens Schneiden-Mischen-Entmischen:

Die Mehrfachsubjektgenerierung funktioniert in SVDiff als konzeptisolierendes System. Quelle: https://arxiv.org/pdf/2303.11305
Cut-Mix-Unmix soll dem Diffusionsmodell helfen, mehrere unterschiedliche Konzepte zu lernen, ohne sie zu vermischen. Die zentrale Idee besteht darin, Bilder von unterschiedlichen Motiven aufzunehmen und sie zu einem einzigen Bild zusammenzufügen. Anschließend wird das Modell mit Eingabeaufforderungen trainiert, die die einzelnen Elemente im Bild explizit beschreiben. Dadurch wird das Modell gezwungen, unterschiedliche Konzepte zu erkennen und beizubehalten, anstatt sie zu vermischen.
Während des Trainings wird zusätzlich Regulierung Der Begriff hilft, Interferenzen zwischen den Subjekten zu vermeiden. Die Theorie der Autoren geht davon aus, dass dies eine verbesserte Generierung mehrerer Subjekte ermöglicht, bei der jedes Element visuell unterscheidbar bleibt und nicht miteinander verschmolzen wird.
SVDiff, das von der LoRA-X-Testrunde ausgeschlossen wurde, zielt darauf ab, einen kompakten Parameterraum zu erstellen. LoRA-X konzentriert sich stattdessen auf die Übertragbarkeit von LoRA-Parametern zwischen verschiedenen Basismodellen, indem es innerhalb des Unterraums des ursprünglichen Modells operiert.
Fazit
Die hier diskutierten Methoden sind nicht die einzigen, die PEFT verwendet. Andere sind QLoRA und QA-LoRA; Präfix-Tuning; Prompt-Tuningeschriebenen Art und Weise; und Adapter-Tuning, Unter anderem.
Das „aktualisierbare LoRA“ ist vielleicht ein alchemistisches Unterfangen; sicherlich ist nichts in Sicht, was LoRA-Modellierer davon abhalten würde, ihre alten Datensätze für die neueste und beste Gewichtsversion erneut hervorzuholen. Wenn es einen möglichen Prototyp-Standard für die Gewichtsrevision gibt, der Änderungen in der Architektur und aufgeblähte Parameter zwischen Modellversionen überstehen kann, ist er in der Literatur noch nicht aufgetaucht und muss weiterhin für jedes Modell einzeln aus den Daten extrahiert werden.
Erstveröffentlichung Donnerstag, 30. Januar 2025