Künstliche Intelligenz
Richtung LoRAs, die Modellversionen-Upgrades überstehen können

Seit meiner jüngsten Berichterstattung über das Wachstum der Hobbyisten-Hunyuan-Video-LoRAs (kleine, trainierte Dateien, die benutzerdefinierte Persönlichkeiten in multibillionen-Parameter-Text-zu-Video- und Bild-zu-Video-Grundmodellen einprägen können), ist die Anzahl der verfügbaren LoRAs in der Civit-Community um 185% gestiegen.

Trotz der Tatsache, dass es keine besonders einfachen oder wenig aufwändigen Möglichkeiten gibt, ein Hunyuan-Video-LoRA zu erstellen, wächst der Katalog von Celebrity- und Themen-LoRAs bei Civit täglich. Quelle: https://civitai.com/
Die gleiche Community, die sich bemüht, zu lernen, wie man diese “Add-on-Persönlichkeiten” für Hunyuan-Video (HV) herstellt, ist auch ulzeriert wegen der versprochenen Veröffentlichung einer Bild-zu-Video (I2V)-Funktion in Hunyuan-Video.
In Bezug auf Open-Source-Human-Image-Synthese ist dies ein großes Ding; in Kombination mit dem Wachstum von Hunyuan-LoRAs könnte es Benutzern ermöglichen, Fotos von Menschen in Videos umzuwandeln, ohne dass ihre Identität während der Entwicklung des Videos verloren geht – was derzeit in allen State-of-the-Art-Bild-zu-Video-Generatoren, einschließlich Kling, Kaiber und dem viel gefeierten RunwayML, der Fall ist:
Klicken Sie, um abzuspielen. Eine Bild-zu-Video-Generierung von RunwayMLs State-of-the-Art-Gen-3-Turbo-Modell. Allerdings kann es, wie bei allen ähnlichen und weniger rivalisierenden Modellen, die Identität nicht beibehalten, wenn das Subjekt sich von der Kamera abwendet, und die deutlichen Merkmale des Startbildes werden zu einer “generischen Diffusionsfrau”. Quelle: https://app.runwayml.com/
Durch die Entwicklung eines benutzerdefinierten LoRAs für die betreffende Persönlichkeit könnte man in einem HV-I2V-Workflow ein reales Foto von ihr als Startpunkt verwenden. Dies ist ein viel besserer “Samen” als das Senden einer zufälligen Zahl in den latenten Raum des Modells und das Akzeptieren dessen, was semantisch resultiert. Man könnte dann das LoRA oder mehrere LoRAs verwenden, um die Konsistenz der Identität, Haarstile, Kleidung und andere wichtige Aspekte der Generierung aufrechtzuerhalten.
Potenziell könnte die Verfügbarkeit einer solchen Kombination eine der epochalsten Verschiebungen in der generativen KI seit dem Launch von Stable Diffusion darstellen, wobei eine enorme generative Kraft an Open-Source-Enthusiasten übergeben wird, ohne die Regulierung (oder “Gatekeeping”, wenn man so will) durch die Inhaltszensor in den aktuellen beliebten Gen-Vid-Systemen.
Während ich schreibe, ist Hunyuan-Bild-zu-Video ein nicht abgehaktes “To-Do” im Hunyuan-Video-GitHub-Repo, wobei die Hobbyisten-Community (anekdotisch) einen Discord-Kommentar von einem Hunyuan-Entwickler meldet, der angeblich sagte, dass die Veröffentlichung dieser Funktion aufgrund des Modells “zu unzensiert” auf einen späteren Zeitpunkt im ersten Quartal verschoben wurde.

Die offizielle Feature-Veröffentlichungs-Checkliste für Hunyuan-Video. Quelle: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan
Genau oder nicht, die Repo-Entwickler haben im Wesentlichen die restliche Hunyuan-Checkliste erfüllt, und daher scheint es, dass Hunyuan I2V schließlich verfügbar sein wird, ob zensiert, unzensiert oder in irgendeiner Weise “entsperrbar”.
Aber wie wir in der Liste oben sehen können, ist die I2V-Veröffentlichung offensichtlich ein separates Modell – was es ziemlich unwahrscheinlich macht, dass eines der aktuellen LoRAs bei Civit und anderswo funktionieren wird.
In diesem (inzwischen) vorhersehbaren Szenario werden LoRA-Trainingsframeworks wie Musubi-Tuner und OneTrainer entweder zurückgesetzt oder auf den neuesten Stand gebracht, um das neue Modell zu unterstützen. Inzwischen werden ein oder zwei der technisch versiertesten (und unternehmerischsten) YouTube-KI-Luminari ihre Lösungen über Patreon “lösen”, bis die Szene aufholt.
Upgrade-Ermüdung
Fast niemand erlebt Upgrade-Ermüdung so sehr wie ein LoRA- oder Feinabstimmung-Enthusiast, weil das schnelle und wettbewerbsorientierte Tempo der Veränderung in der generativen KI Model-Foundries wie Stability.ai, Tencent und Black Forest Labs dazu ermutigt, größere und (manchmal) bessere Modelle mit der maximal möglichen Frequenz zu produzieren.
Da diese neuen und verbesserten Modelle mindestens andere Vorurteile und Gewichte haben und häufiger eine andere Skala und/oder Architektur haben, bedeutet dies, dass die Feinabstimmungsgemeinschaft ihre Datensätze wieder hervorholen und den anstrengenden Trainingsprozess für die neue Version wiederholen muss.
Aus diesem Grund gibt es eine Vielzahl von Stable-Diffusion-LoRA-Versionstypen bei Civit:

Der Upgrade-Pfad, visualisiert in Suchfilter-Optionen bei civit.ai
Da keines dieser leichten LoRA-Modelle mit höheren oder niedrigeren Modellversionen interoperabel ist und da viele von ihnen von beliebten großen Skalierungen und Feinabstimmungen abhängen, die an ein älteres Modell angepasst sind, neigt ein erheblicher Teil der Gemeinschaft dazu, bei einer “Legacy”-Veröffentlichung zu bleiben, ähnlich wie die Kundenloyalität zu Windows XP Jahre nach dem offiziellen Ende der Unterstützung anhielt.
Anpassung an die Veränderung
Dieses Thema kommt mir in den Sinn, weil eines neuen Papiers von Qualcomm AI Research, das behauptet, eine Methode entwickelt zu haben, um bestehende LoRAs auf ein neu veröffentlichtes Modell zu “upgraden”.

Beispiel für die Konvertierung von LoRAs über Modellversionen hinweg. Quelle: https://arxiv.org/pdf/2501.16559
Dies bedeutet nicht, dass der neue Ansatz, der LoRA-X genannt wird, frei zwischen allen Modellen desselben Typs (d. h. Text-zu-Bild-Modellen oder Large Language Models [LLMs]) übersetzen kann; aber die Autoren haben eine effektive Transliteration eines LoRAs von Stable Diffusion v1.5 > SDXL und eine Konvertierung eines LoRAs für das textbasierte TinyLlama 3T-Modell in TinyLlama 2,5T demonstriert.
LoRA-X überträgt LoRA-Parameter über verschiedene Basis-Modelle hinweg, indem es den Adapter innerhalb des Subraums des Quellmodells bewahrt; aber nur in Teilen des Modells, die über Modellversionen hinweg ausreichend ähnlich sind.

Links, ein Schema für die Art und Weise, wie das LoRA-X-Quellmodell einen Adapter feinabstimmt, der dann an das Zielmodell angepasst wird, indem er dessen interne Struktur verwendet. Rechts, Bilder, die von Zielmodellen SD Eff-v1.0 und SSD-1B erzeugt werden, nachdem Adapter von SD-v1.5 und SDXL ohne zusätzliches Training übertragen wurden.
Obwohl dies eine praktische Lösung für Szenarien bietet, in denen eine Neuschulung unerwünscht oder unmöglich ist (wie bei einer Änderung der Lizenz für die ursprünglichen Trainingsdaten), ist die Methode auf ähnliche Modellarchitekturen beschränkt, unter anderem.
Andere PEFT-Ansätze
Die Möglichkeit, LoRAs portabler über Versionen hinweg zu machen, ist ein kleiner, aber interessanter Strang der Studie in der Literatur, und der Hauptbeitrag, den LoRA-X zu diesem Streben leistet, ist seine Behauptung, dass es keine Schulung erfordert. Dies ist nicht streng genommen wahr, wenn man das Papier liest, aber es erfordert die geringste Schulung aller vorherigen Methoden.
LoRA-X ist ein weiterer Eintrag in den Kanon der Parameter-Efficient Fine-Tuning (PEFT)-Methoden, die die Herausforderung angehen, große vorgebildete Modelle an spezifische Aufgaben ohne umfangreiche Neuschulung anzupassen. Dieser konzeptionelle Ansatz zielt darauf ab, eine minimale Anzahl von Parametern zu modifizieren, während die Leistung erhalten bleibt.
Bemerkenswert sind:
X-Adapter
Das X-Adapter-Framework überträgt feinabgestimmte Adapter über Modelle hinweg, wobei ein gewisses Maß an Neuschulung erforderlich ist. Das System zielt darauf ab, vorgebildete Plug-and-Play-Module (wie ControlNet und LoRA) von einem Basis-Diffusionsmodell (d. h. Stable Diffusion v1.5) direkt mit einem aktualisierten Diffusionsmodell wie SDXL zu verwenden, ohne Neuschulung – effektiv als “Universal-Upgrader” für Plug-ins.
Das System erreicht dies, indem es ein zusätzliches Netzwerk trainiert, das das aktualisierte Modell steuert, wobei es eine gefrorene Kopie des Basis-Modells verwendet, um Plug-in-Stecker zu erhalten:

Schema für X-Adapter. Quelle: https://arxiv.org/pdf/2312.02238
X-Adapter wurde ursprünglich entwickelt und getestet, um Adapter von SD1.5 auf SDXL zu übertragen, während LoRA-X eine breitere Vielfalt von Transliterationen bietet.
DoRA (Weight-Decomposed Low-Rank Adaptation)
DoRA ist eine verbesserte Feinabstimmungsmethode, die LoRA durch eine Gewichtszerlegungsstrategie verbessert, die der vollständigen Feinabstimmung näher kommt:

DoRA versucht nicht nur, einen Adapter in einer gefrorenen Umgebung zu kopieren, wie LoRA-X, sondern ändert stattdessen grundlegende Parameter der Gewichte, wie Größe und Richtung. Quelle: https://arxiv.org/pdf/2402.09353
DoRA konzentriert sich auf die Verbesserung des Feinabstimmungsprozesses selbst, indem es die Gewichte des Modells in Größe und Richtung zerlegt (siehe Bild oben). Stattdessen konzentriert sich LoRA-X auf die Möglichkeit, bestehende feinabgestimmte Parameter zwischen verschiedenen Basis-Modellen zu übertragen
Jedoch verwendet der LoRA-X-Ansatz die “Projektion”-Techniken, die für DORA entwickelt wurden, und behauptet in Tests gegen dieses ältere System eine verbesserte DINO-Punktzahl.
FouRA (Fourier Low Rank Adaptation)
Veröffentlicht im Juni 2024, kommt die FouRA-Methode von Qualcomm AI Research und teilt einige der Testanregungen und -themen.

Beispiele für Verteilungskollaps in LoRA, aus dem FouRA-Papier von 2024, mit dem Realistic Vision 3.0-Modell, das mit LoRA und FouRA für ‘Blue Fire’- und ‘Origami’-Stil-Adapter trainiert wurde, über vier Samen hinweg. LoRA-Bilder zeigen Verteilungskollaps und verringerte Vielfalt, während FouRA vielfältigere Ausgaben generiert. Quelle: https://arxiv.org/pdf/2406.08798
FouRA konzentriert sich auf die Verbesserung der Vielfalt und Qualität der generierten Bilder, indem LoRA im Frequenzbereich mithilfe eines Fourier-Transformations-Ansatzes angepasst wird.
Hier wiederum konnte LoRA-X bessere Ergebnisse als der Fourier-basierte Ansatz von FouRA erzielen.
Obwohl beide Frameworks in die PEFT-Kategorie fallen, haben sie sehr unterschiedliche Anwendungsfälle und Ansätze; in diesem Fall ist FouRA arg “die Zahlen aufmachend” für eine Testrunde mit begrenzten like-for-like-Rivalen für die neuen Papierautoren, die sich mit ihnen auseinandersetzen.
SVDiff
SVDiff hat andere Ziele als LoRA-X, aber wird stark in dem neuen Papier genutzt. SVDiff ist dafür ausgelegt, die Effizienz der Feinabstimmung von Diffusionsmodellen zu verbessern und ändert direkt Werte in den Gewichtsmatrizen des Modells, während die singulären Vektoren unverändert bleiben. SVDiff verwendet abgeschnittene SVD, indem es nur die größten Werte ändert, um die Gewichte des Modells anzupassen.
Dieser Ansatz verwendet eine Datenverstärkungstechnik namens Cut-Mix-Unmix:

Mehrfach-Subjekt-Generierung operiert als Konzept-Isolierungssystem in SVDiff. Quelle: https://arxiv.org/pdf/2303.11305
Cut-Mix-Unmix ist darauf ausgelegt, dem Diffusionsmodell zu helfen, mehrere unterschiedliche Konzepte zu lernen, ohne sie zu vermischen. Die zentrale Idee besteht darin, Bilder von verschiedenen Subjekten zu einem einzigen Bild zu concatenieren. Dann wird das Modell mit Anregungen trainiert, die die separaten Elemente im Bild explizit beschreiben. Dies zwingt das Modell, zu erkennen und zu bewahren, was unterschiedliche Konzepte sind, anstatt sie zu vermischen.
Während des Trainings hilft ein zusätzlicher Regularisierungsterm dabei, eine Interferenz zwischen Subjekten zu verhindern. Die Theorie der Autoren besagt, dass dies eine verbesserte Mehrfach-Subjekt-Generierung ermöglicht, bei der jedes Element visuell unterschiedlich bleibt, anstatt miteinander zu verschmelzen.
SVDiff, aus dem LoRA-X-Test ausgeschlossen, zielt darauf ab, einen kompakten Parameterspace zu schaffen. LoRA-X konzentriert sich stattdessen auf die Übertragbarkeit von LoRA-Parametern über verschiedene Basis-Modelle hinweg, indem es innerhalb des Subraums des ursprünglichen Modells operiert.
Schlussfolgerung
Die hier diskutierten Methoden sind nicht die einzigen Bewohner von PEFT. Andere umfassen QLoRA und QA-LoRA; Prefix-Tuning; Prompt-Tuning; und Adapter-Tuning, um nur einige zu nennen.
Das “upgradefähige LoRA” ist vielleicht eine alchemistische Verfolgung; sicherlich gibt es nichts, was sofort auf dem Horizont erscheint, um LoRA-Modelleure davon abzuhalten, ihre alten Datensätze wieder hervorzuholen, um die neuesten und besten Gewichte zu erhalten. Wenn es ein mögliches Prototyp-Standard für Gewichtsrevisionen gibt, das in der Lage ist, Änderungen in der Architektur und die Aufblähung von Parametern zwischen Modellversionen zu überstehen, ist es noch nicht in der Literatur erschienen und muss weiterhin aus den Daten auf pro-Modell-Basis extrahiert werden.
Erstveröffentlicht am Donnerstag, 30. Januar 2025












