Connect with us

Der Aufstieg von Hunyuan Video Deepfakes

Künstliche Intelligenz

Der Aufstieg von Hunyuan Video Deepfakes

mm
An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

Aufgrund der Natur einiger der hier besprochenen Materialien wird dieser Artikel weniger Referenzlinks und Abbildungen als üblich enthalten.

Etwas Beachtenswertes geschieht derzeit in der AI-Synthese-Gemeinschaft, obwohl seine Bedeutung möglicherweise einige Zeit braucht, um klar zu werden. Hobbyisten trainieren generative AI-Video-Modelle, um die Ähnlichkeiten von Personen wiederzugeben, indem sie video-basierte LoRAs auf Tencents kürzlich veröffentlichtem Open-Source-Hunyuan-Video-Framework verwenden.*

Klicken Sie zum Abspielen. Vielfältige Ergebnisse aus Hunyuan-basierten LoRA-Anpassungen sind kostenlos bei der Civit-Community verfügbar. Durch das Trainieren von Low-Rank-Adaptationsmodellen (LoRAs) werden Probleme mit temporaler Stabilität, die die AI-Video-Generierung seit zwei Jahren geplagt haben, erheblich reduziert. Quellen: civit.ai

Im oben gezeigten Video wurden die Ähnlichkeiten der Schauspielerinnen Natalie Portman, Christina Hendricks und Scarlett Johansson sowie des Tech-Führers Elon Musk in relativ kleine Add-on-Dateien für das Hunyuan-Generative-Video-System trainiert, das ohne Inhaltsfilter (wie NSFW-Filter) auf einem Benutzercomputer installiert werden kann.

Der Ersteller des Christina Hendricks LoRA oben erklärt, dass nur 16 Bilder aus der Mad Men-Fernsehserie benötigt wurden, um das Modell zu entwickeln (das nur 307 MB zum Herunterladen ist); mehrere Beiträge aus der Stable-Diffusion-Community auf Reddit und Discord bestätigen, dass LoRAs dieser Art in den meisten Fällen keine großen Mengen an Trainingsdaten oder lange Trainingszeiten erfordern.

Klicken Sie zum Abspielen. Arnold Schwarzenegger wird in einem Hunyuan-Video-LoRA zum Leben erweckt, der bei Civit heruntergeladen werden kann. Siehe https://www.youtube.com/watch?v=1D7B9g9rY68 für weitere Arnie-Beispiele von AI-Enthusiasten Bob Doyle.

Hunyuan-LoRAs können auf statischen Bildern oder Videos trainiert werden, obwohl das Training auf Videos mehr Hardware-Ressourcen und eine erhöhte Trainingszeit erfordert.

Das Hunyuan-Video-Modell verfügt über 13 Milliarden Parameter, was die 12 Milliarden Parameter von Sora übertrifft und das weniger leistungsfähige Hunyuan-DiT-Modell, das im Sommer 2024 als Open Source veröffentlicht wurde, bei weitem übertrifft, das nur 1,5 Milliarden Parameter hat.

Wie vor zwei Jahren und einem halben Jahr mit Stable Diffusion und LoRA (siehe Beispiele für Stable Diffusion 1.5 ‘native’ Celebrities hier) versteht das Grundmodell in Frage eine weit begrenztere Vorstellung von Persönlichkeitsmerkmalen, im Vergleich zum Grad der Treue, der durch ‘ID-injizierte’ LoRA-Implementierungen erzielt werden kann.

Effektiv erhält ein personalisiertes, auf die Persönlichkeit fokussiertes LoRA eine ‘kostenlose Fahrt’ auf den erheblichen Synthese-Fähigkeiten des Grund-Hunyuan-Modells und bietet eine bemerkenswert effektivere menschliche Synthese als durch 2017-Autoencoder-Deepfakes oder durch das Hinzufügen von Bewegung zu statischen Bildern über Systeme wie das gefeierte LivePortrait.

Alle LoRAs, die hier dargestellt werden, können kostenlos von der sehr beliebten Civit-Community heruntergeladen werden, während die zahlreicheren älteren benutzerdefinierten ‘statischen Bild’-LoRAs auch potenziell ‘Seed’-Bilder für den Video-Erstellungsprozess erstellen können (d. h. Bild-zu-Video, eine bevorstehende Veröffentlichung für Hunyuan-Video, obwohl Workarounds möglich sind, für den Moment).

Klicken Sie zum Abspielen. Oben, Beispiele aus einem ‘statischen’ Flux-LoRA; unten, Beispiele aus einem Hunyuan-Video-LoRA mit der Musikerin Taylor Swift. Beide dieser LoRAs sind kostenlos bei der Civit-Community verfügbar.

Wenn ich schreibe, bietet die Civit-Website 128 Suchergebnisse für ‘Hunyuan’*. Fast alle davon sind in irgendeiner Weise NSFW-Modelle; 22 zeigen Celebrities; 18 sind dafür ausgelegt, die Erzeugung von Hardcore-Pornografie zu erleichtern; und nur sieben davon zeigen Männer anstelle von Frauen.

Was ist neu?

Aufgrund der entwickelten Natur des Begriffs Deepfake und des begrenzten öffentlichen Verständnisses der (sehr strengen) Einschränkungen von AI-Mensch-Video-Synthese-Frameworks bis heute, ist die Bedeutung des Hunyuan-LoRA nicht leicht zu verstehen für eine Person, die die generative AI-Szene beiläufig verfolgt. Lassen Sie uns einige der wichtigsten Unterschiede zwischen Hunyuan-LoRAs und vorherigen Ansätzen zur identitätsbasierten AI-Video-Generierung überprüfen.

1: Unbehinderte lokale Installation

Der wichtigste Aspekt von Hunyuan Video ist die Tatsache, dass es lokal heruntergeladen werden kann und dass es ein sehr leistungsfähiges und unzensiertes AI-Video-Generierungssystem in die Hände des Casual-Benutzers und der VFX-Community (soweit Lizenzen dies über geografische Regionen hinweg zulassen) legt.

Das letzte Mal, als dies passierte, war die Veröffentlichung des Stability.ai-Stable-Diffusion-Modells im Sommer 2022. Zu dieser Zeit hatte OpenAI’s DALL-E2 die öffentliche Vorstellungskraft erfasst, obwohl DALLE-2 ein kostenpflichtiger Dienst mit bemerkenswerten Einschränkungen (die im Laufe der Zeit zunahmen) war.

Als Stable Diffusion verfügbar wurde und Low-Rank-Adaptation es ermöglichte, Bilder der Identität von jeder Person (Celebrity oder nicht) zu generieren, half der enorme Schwerpunkt von Entwickler- und Verbraucherinteresse dabei, Stable Diffusion zu der Popularität von DALLE-2 zu übertrumpfen; obwohl letzteres ein leistungsfähigeres System aus der Box war, wurden seine Zensur-Routinen von vielen seiner Benutzer als drückend angesehen, und Anpassung war nicht möglich.

Man kann argumentieren, dass das gleiche Szenario jetzt zwischen Sora und Hunyuan – oder genauer gesagt zwischen Sora-grad proprietären generativen Video-Systemen und Open-Source-Rivalen, von denen Hunyuan der erste ist – aber wahrscheinlich nicht der letzte (hier muss man bedenken, dass Flux schließlich erheblichen Boden auf Stable Diffusion gewinnen würde) gilt.

Benutzer, die Hunyuan-LoRA-Ausgaben erstellen möchten, aber über keine leistungsstarken Geräte verfügen, können, wie immer, den GPU-Aspekt des Trainings auf Online-Compute-Dienste wie RunPod auslagern. Dies ist nicht dasselbe wie die Erstellung von AI-Videos auf Plattformen wie Kaiber oder Kling, da keine semantische oder bildbasierte Filterung (Zensur) im Rahmen eines lokalen Workflows erforderlich ist.

2: Kein Bedarf an ‘Host’-Videos und hohem Aufwand

Als Deepfakes Ende 2017 auf die Szene kamen, würde der anonym gepostete Code in die Mainstream-Forks DeepFaceLab und FaceSwap (sowie das DeepFaceLive Echtzeit-Deepfaking-System) mutieren.

Diese Methode erforderte die mühsame Kuratierung von Tausenden von Gesichtsbildern jeder Identität, die ausgetauscht werden sollte; je weniger Aufwand in dieser Phase betrieben wurde, desto weniger effektiv war das Modell. Zusätzlich variierten die Trainingszeiten zwischen 2-14 Tagen, je nach verfügbarer Hardware, und belasteten sogar leistungsfähige Systeme auf lange Sicht.

Wenn das Modell schließlich fertig war, konnte es nur Gesichter in bestehende Videos einfügen und benötigte in der Regel ein ‘Ziel’ (d. h. eine reale Identität), das dem überlagerten Identitätsmerkmal in der Erscheinung ähnelte.

Vor Kurzem haben ROOP, LivePortrait und zahlreiche ähnliche Frameworks eine ähnliche Funktionalität mit viel weniger Aufwand und oft mit überlegenen Ergebnissen bereitgestellt – aber mit keiner Möglichkeit, genaue Vollkörper-Deepfakes zu generieren – oder jedes andere Element als Gesichter.

Beispiele von ROOP Unleashed und LivePortrait (inset lower left), von Bob Doyles Content-Stream auf YouTube. Quellen: https://www.youtube.com/watch?v=i39xeYPBAAM und https://www.youtube.com/watch?v=QGatEItg2Ns

Beispiele von ROOP Unleashed und LivePortrait (inset lower left), von Bob Doyles Content-Stream auf YouTube. Quellen: https://www.youtube.com/watch?v=i39xeYPBAAM und https://www.youtube.com/watch?v=QGatEItg2Ns

Im Gegensatz dazu ermöglichen Hunyuan-LoRAs (und ähnliche Systeme, die unvermeidlich folgen werden) die unbehinderte Erstellung ganzer Welten, einschließlich vollständiger Körper- und Umgebungssimulationen der benutzertrainierten LoRA-Identität.

3: Massiv verbesserte zeitliche Konsistenz

Zeitliche Konsistenz war der Heilige Gral der Diffusions-Video-Generierung für mehrere Jahre jetzt. Die Verwendung eines LoRA, zusammen mit geeigneten Prompts, gibt der Hunyuan-Video-Generierung eine konstante Identitätsreferenz, der sie folgen kann. Theoretisch (dies sind frühe Tage) könnte man mehrere LoRAs einer bestimmten Identität trainieren, jedes mit spezifischer Kleidung.

Unter diesen Umständen ist es weniger wahrscheinlich, dass die Kleidung während der Video-Generierung ‘mutiert’ (da das generative System die nächste Frame auf einem sehr begrenzten Fenster vorheriger Frames basiert).

(Alternativ, wie bei image-basierten LoRA-Systemen, kann man einfach mehrere LoRAs, wie Identitäts- und Kostüm-LoRAs, auf eine einzelne Video-Generierung anwenden)

4: Zugang zum ‘Menschlichen Experiment’

Wie ich kürzlich beobachtet habe, erscheint der proprietäre und FAANG-grad generative AI-Sektor jetzt so vorsichtig gegenüber potenzieller Kritik in Bezug auf die menschliche Synthese-Fähigkeiten seiner Projekte, dass tatsächliche Menschen selten in Projektseiten für große Ankündigungen und Veröffentlichungen erscheinen. Stattdessen neigen sich die damit verbundenen Öffentlichkeitsliteraturen zunehmend dazu, ‘süße’ und andere ‘nicht bedrohliche’ Subjekte in synthetisierten Ergebnissen zu zeigen.

Mit dem Aufkommen von Hunyuan-LoRAs hat die Gemeinschaft zum ersten Mal die Gelegenheit, die Grenzen der LDM-basierten menschlichen Video-Synthese in einem hochleistungsfähigen (anstatt marginalen) System zu erforschen und das Thema, das die meisten von uns am meisten interessiert – Menschen – vollständig zu erforschen.

Auswirkungen

Da eine Suche nach ‘Hunyuan’ in der Civit-Community hauptsächlich Celebrity-LoRAs und ‘harte’ LoRAs zeigt, ist die zentrale Auswirkung des Aufkommens von Hunyuan-LoRAs, dass sie zur Erstellung von AI-Pornovideos (oder anderen diffamierenden Videos) von realen Personen – Celebrities und Unbekannten – verwendet werden.

Für Compliance-Zwecke sind die Hobbyisten, die Hunyuan-LoRAs erstellen und mit ihnen auf verschiedenen Discord-Servern und Subreddits experimentieren, vorsichtig, Beispiele von realen Personen von der Veröffentlichung auszuschließen. Die Realität ist, dass sogar Bild-basierte Deepfakes jetzt stark bewaffnet sind; und die Aussicht, wirklich realistische Videos in die Mischung zu bringen, kann schließlich die erhöhten Ängste rechtfertigen, die in den Medien während der letzten sieben Jahre wiederholt aufgetaucht sind und die zu neuen Regulierungen geführt haben.

Die treibende Kraft

Wie immer bleibt Porn die treibende Kraft für die Technologie. Was auch immer unsere Meinung über eine solche Verwendung ist, treibt diese unermüdliche Antriebskraft Fortschritte im Stand der Technik voran, die letztendlich der breiteren Akzeptanz zugute kommen können.

In diesem Fall ist es möglich, dass der Preis höher als üblich sein wird, da die Open-Sourcing von hyperrealistischer Video-Erstellung offensichtliche Auswirkungen auf kriminelle, politische und ethische Missbrauch hat.

Eine Reddit-Gruppe (die ich hier nicht nennen werde), die der AI-Generierung von NSFW-Video-Inhalten gewidmet ist, verfügt über einen offenen Discord-Server, auf dem Benutzer ComfyUI-Workflows für Hunyuan-basierte Video-Porn-Generierung verfeinern. Täglich veröffentlichen Benutzer Beispiele von NSFW-Clips – viele davon können vernünftigerweise als ‘extrem’ oder zumindest als an die Einschränkungen der Forenregeln grenzend bezeichnet werden.

Diese Gemeinschaft unterhält auch ein umfangreiches und gut entwickeltes GitHub-Repository mit Tools, die pornografische Videos herunterladen und verarbeiten können, um Trainingsdaten für neue Modelle bereitzustellen.

Da der beliebteste LoRA-Trainer, Kohya-ss, jetzt Hunyuan-LoRA-Training unterstützt, sinken die Einstiegshürden für ungebundene generative Video-Training täglich, zusammen mit den Hardware-Anforderungen für Hunyuan-Training und Video-Generierung.

Der entscheidende Aspekt von dedizierten Trainingsplänen für pornobasierte KI (anstatt Identitäts-Modelle wie Celebrities) ist, dass ein Standard-Grundmodell wie Hunyuan nicht speziell auf NSFW-Ausgaben trainiert wird und möglicherweise entweder schlecht abschneidet, wenn es aufgefordert wird, NSFW-Inhalte zu generieren, oder versagt, gelernte Konzepte und Assoziationen in einer performanten oder überzeugenden Weise zu entwirren.

Durch die Entwicklung fein abgestimmter NSFW-Grundmodelle und LoRAs wird es zunehmend möglich, trainierte Identitäten in ein dediziertes ‘Porn’-Video-Domain zu projizieren; schließlich ist dies nur die Video-Version von etwas, das bereits für Stillbilder in den letzten zweieinhalb Jahren passiert ist.

VFX

Der enorme Anstieg der zeitlichen Konsistenz, den Hunyuan-Video-LoRAs bieten, ist ein offensichtlicher Segen für die AI-Visuelleffekt-Industrie, die stark auf die Anpassung von Open-Source-Software angewiesen ist.

Obwohl ein Hunyuan-Video-LoRA-Ansatz ein ganzes Bild und eine Umgebung erzeugt, haben VFX-Unternehmen wahrscheinlich bereits begonnen, die zeitlich konsistenten menschlichen Gesichter zu isolieren, die durch diese Methode erhalten werden können, um Gesichter in Echtzeit-Quellvideos zu überlagern oder zu integrieren.

Wie die Hobbyistengemeinschaft müssen VFX-Unternehmen auf die Image-to-Video- und Video-to-Video-Funktionalität von Hunyuan Video warten, die potenziell die nützlichste Brücke zwischen LoRA-getriebenen, ID-basierten ‘Deepfake’-Inhalten ist; oder improvisieren und die Zeit nutzen, um die äußeren Fähigkeiten des Frameworks und möglicher Anpassungen und sogar proprietärer in-house-Forks von Hunyuan Video zu erkunden.

Obwohl die Lizenzbedingungen für Hunyuan Video technisch die Darstellung von realen Personen zulassen, solange die Erlaubnis erteilt wird, verbieten sie deren Verwendung in der EU, Großbritannien und Südkorea. Auf dem ‘stays in Vegas’-Prinzip bedeutet dies nicht unbedingt, dass Hunyuan Video nicht in diesen Regionen verwendet wird; jedoch könnte die Aussicht auf externe Daten-Audits, um wachsende Regulierungen rund um generative KI durchzusetzen, eine solche illegale Verwendung riskant machen.

Ein weiterer möglicherweise mehrdeutiger Bereich der Lizenzbedingungen besagt:

‘Wenn, am Veröffentlichungsdatum der Tencent Hunyuan-Version, die monatlichen aktiven Benutzer aller Produkte oder Dienste, die von oder für den Lizenznehmer verfügbar gemacht werden, mehr als 100 Millionen monatliche aktive Benutzer im vorherigen Kalendermonat sind, müssen Sie eine Lizenz von Tencent anfordern, die Tencent Ihnen nach eigenem Ermessen erteilen kann, und Sie sind nicht berechtigt, die Rechte gemäß dieser Vereinbarung auszuüben, es sei denn, Tencent erteilt Ihnen diese Rechte ausdrücklich.’

Diese Klausel ist offensichtlich auf die Vielzahl von Unternehmen abzielt, die Hunyuan Video für eine relativ technisch ungebildete Gruppe von Benutzern ‘zwischenlagern’ werden, und die verpflichtet werden, Tencent über eine bestimmte Nutzergrenze hinaus in die Aktion einzubeziehen.

Ob die breite Formulierung auch indirekte Verwendung (d. h. durch die Bereitstellung von Hunyuan-aktivierten visuellen Effekten in beliebten Filmen und Fernsehsendungen) umfassen könnte, muss möglicherweise geklärt werden.

Schlussfolgerung

Da Deepfake-Videos seit langem existieren, könnte es leicht sein, die Bedeutung von Hunyuan-Video-LoRA als Ansatz für Identitätssynthese und Deepfaking zu unterschätzen und anzunehmen, dass die derzeitigen Entwicklungen, die in der Civit-Community und in damit verbundenen Discords und Subreddits auftreten, nur einen kleinen Schritt in Richtung wirklich kontrollierbarer menschlicher Video-Synthese darstellen.

Wahrscheinlicher ist, dass die derzeitigen Bemühungen nur einen Bruchteil des Potenzials von Hunyuan Video darstellen, um völlig überzeugende Vollkörper- und Vollumgebungs-Deepfakes zu erstellen; sobald die Image-to-Video-Komponente veröffentlicht wird (gerüchteweise soll dies diesen Monat geschehen), wird ein viel granulareres Level generativer Leistung für die Hobbyist- und professionelle Gemeinschaft verfügbar sein.

Als Stability.ai Stable Diffusion 2022 veröffentlichte, konnten viele Beobachter nicht verstehen, warum das Unternehmen ein so wertvolles und leistungsfähiges generatives System einfach verschenken würde. Mit Hunyuan Video ist der Gewinnmotiv direkt in die Lizenz eingebaut – obwohl es sich möglicherweise als schwierig für Tencent erweisen könnte, zu bestimmen, wann ein Unternehmen das Gewinnbeteiligungs-Schema auslöst.

In jedem Fall ist das Ergebnis dasselbe wie 2022: dedizierte Entwickler-Communities haben sich sofort und mit intensiver Hingabe um die Veröffentlichung gebildet. Einige der Wege, die diese Bemühungen in den nächsten 12 Monaten einschlagen werden, sind sicherlich darauf ausgerichtet, neue Schlagzeilen zu produzieren.

 

* Bis zur Veröffentlichung 136.

Erstveröffentlichung am Dienstag, 7. Januar 2025

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.