Künstliche Intelligenz

Der Aufstieg der Hunyuan-Video-Deepfakes

Veröffentlicht 7. Januar 2025

Martin Anderson

Ein von Bob Doyle auf ComfyUI vorgeführtes Video von Arnie Hunyuan LoRA auf YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – und, rechts eingefügt, Ausschnitte aus verschiedenen Beispielvideos für dasselbe LoRA bei Civit.ai

Aufgrund der Art einiger der hier besprochenen Materialien enthält dieser Artikel weniger Referenzlinks und Abbildungen als üblich.

In der KI-Synthese-Community passiert derzeit etwas Bemerkenswertes, dessen Bedeutung jedoch erst nach einiger Zeit klar wird. Hobbyisten trainieren generative KI-Videomodelle, um das Abbild von Menschen zu reproduzieren, indem sie videobasierte LoRAs auf Tencents kürzlich veröffentlichter Open Source Hunyuan Video-Rahmenwerk.*

Anklicken um abzuspielen. Verschiedene Ergebnisse von Hunyuan-basierten LoRA-Anpassungen, die kostenlos in der Civit-Community verfügbar sind. Durch das Training von Low-Rank-Adaption-Modellen (LoRAs) werden Probleme mit der zeitlichen Stabilität, die die KI-Videogenerierung seit zwei Jahren plagen, erheblich reduziert. Quellen: civit.ai

Im oben gezeigten Video wurden die Ebenbilder der Schauspielerinnen Natalie Portman, Christina Hendricks und Scarlett Johansson zusammen mit dem Technologieführer Elon Musk in relativ kleine Zusatzdateien für das generative Videosystem von Hunyuan trainiert, die installiert werden können ohne Inhaltsfilter (wie etwa NSFW-Filter) auf dem Computer eines Benutzers.

Die Erfinderin des oben gezeigten Christina Hendricks LoRA gibt an, dass nur 16 Bilder aus dem Mad Men Zur Entwicklung des Modells waren Fernsehsendungen erforderlich (der Download ist lediglich 307 MB groß); mehrere Posts der Stable Diffusion-Community bei Reddit und Discord bestätigen, dass LoRAs dieser Art in den meisten Fällen weder große Mengen an Trainingsdaten noch lange Trainingszeiten erfordern.

CZum Spielen lecken. Arnold Schwarzenegger wird in einem Hunyuan-Video LoRA zum Leben erweckt, das bei Civit heruntergeladen werden kann. Weitere Arnie-Beispiele vom KI-Enthusiasten Bob Doyle finden Sie unter https://www.youtube.com/watch?v=1D7B9g9rY68.

Hunyuan LoRAs können entweder anhand von statischen Bildern oder Videos trainiert werden, wobei das Training anhand von Videos größere Hardwareressourcen und eine längere Trainingszeit erfordert.

Das Hunyuan Video-Modell verfügt über 13 Milliarden Parameter und übertrifft damit die 12 Milliarden Parameter von Sora und übertrifft die weniger leistungsfähigen Hunyuan-DiT Modell im Sommer 2024 als Open Source veröffentlicht, das hat nur 1.5 Milliarden Parameter.

Wie es der Fall war vor zweieinhalb Jahren mit Stable Diffusion und LoRA (siehe Beispiele der „nativen“ Berühmtheiten von Stable Diffusion 1.5 werden auf dieser Seite erläutert), verfügt das betreffende Basismodell über ein weitaus eingeschränkteres Verständnis der Persönlichkeiten von Prominenten im Vergleich zu der Genauigkeit, die durch „ID-injizierte“ LoRA-Implementierungen erreicht werden kann.

Tatsächlich profitiert ein maßgeschneidertes, persönlichkeitsorientiertes LoRA von den bedeutenden Synthesefähigkeiten des Hunyuan-Basismodells und bietet eine deutlich effektivere menschliche Synthese, als sie im Jahr 2017 erreicht werden kann. Autoencoder-Deepfakes oder indem man versucht, statischen Bildern Bewegung zu verleihen, durch Systeme wie das gefeierte LivePortrait.

Alle hier abgebildeten LoRAs können kostenlos von der sehr beliebten Civit-Community heruntergeladen werden, während die größere Anzahl älterer, maßgeschneiderter LoRAs mit statischen Bildern auch potenziell „Seed“-Bilder für den Videoerstellungsprozess erstellen können (d. h. Bild-zu-Video, eine bevorstehende Veröffentlichung für Hunyuan Video, obwohl Problemumgehungen sind möglich, für den Moment).

Anklicken um abzuspielen. Oben: Beispiele eines „statischen“ Flux LoRA; unten: Beispiele eines Hunyuan-Video-LoRA mit der Musikerin Taylor Swift. Beide LoRAs sind kostenlos in der Civit-Community verfügbar.

Während ich dies schreibe, liefert die Civit-Website 128 Suchergebnisse für „Hunyuan“*. Fast alle davon sind in irgendeiner Form nicht jugendfreie Models; 22 zeigen Prominente; 18 sind für die Produktion von Hardcore-Pornografie konzipiert; und nur sieben davon zeigen Männer statt Frauen.

Was gibt es Neues?

Aufgrund der sich entwickelnde Natur des Begriffs Deepfakeund ein begrenztes öffentliches Verständnis für die (ziemlich heftig) Einschränkungen der bisherigen KI-Frameworks zur menschlichen Videosynthese ist die Bedeutung des Hunyuan LoRA für jemanden, der die generative KI-Szene nur oberflächlich verfolgt, nicht leicht zu verstehen. Sehen wir uns einige der wichtigsten Unterschiede zwischen Hunyuan LoRAs und früheren Ansätzen zur identitätsbasierten KI-Videogenerierung an.

1: Uneingeschränkte lokale Installation

Der wichtigste Aspekt von Hunyuan Video ist die Tatsache, dass es lokal heruntergeladen werden kann und dass es eine sehr leistungsstarke und unzensiert KI-Videogenerierungssystem in den Händen des Gelegenheitsnutzers sowie der VFX-Community (soweit die Lizenzen dies über geografische Regionen hinweg zulassen).

Das letzte Mal geschah dies mit der Veröffentlichung des Stability.ai Stable Diffusion-Modells als Open Source. im Sommer von 2022. Zu dieser Zeit hatte OpenAIs DALL-E2 gefangen in der öffentlichen Vorstellungskraft, obwohl DALLE-2 ein kostenpflichtiger Dienst mit erheblichen Einschränkungen war (die mit der Zeit zunahmen).

Als die stabile Diffusion verfügbar wurde und die Low-Rank-Adaption es ermöglichte, Bilder der Identität von für Person (Promi oder nicht), das große Interesse von Entwicklern und Verbrauchern half Stable Diffusion, die Popularität von DALLE-2 in den Schatten zu stellen; obwohl letzteres von Haus aus ein leistungsfähigeres System war, waren seine Zensurroutinen als belastend angesehen von vielen seiner Benutzer und eine Anpassung war nicht möglich.

Man könnte argumentieren, dass dasselbe Szenario jetzt zwischen Sora und Hunyuan gilt – oder genauer gesagt zwischen Sora-Qualität proprietäre generative Videosysteme und Open-Source-Konkurrenten, von denen Hunyuan der erste ist – aber wahrscheinlich nicht der letzte (bedenken Sie hier, dass Fluss würde letztendlich im Hinblick auf die stabile Diffusion deutlich an Boden gewinnen).

Benutzer, die Hunyuan LoRA-Ausgaben erstellen möchten, aber nicht über die erforderliche leistungsstarke Ausrüstung verfügen, können den GPU-Aspekt des Trainings wie immer auf Online-Rechendienste auslagern. wie RunPodDies ist nicht dasselbe wie das Erstellen von KI-Videos auf Plattformen wie Kaiber oder Kling, da beim Mieten einer Online-GPU zur Unterstützung eines ansonsten lokalen Workflows keine semantische oder bildbasierte Filterung (Zensur) erfolgt.

2: Keine Notwendigkeit für „Host“-Videos und hohen Aufwand

Als Ende 2017 Deepfakes auf der Bildfläche erschienen, entwickelte sich der anonym gepostete Code zu den Mainstream-Forks DeepFaceLab und Gesicht tauschen (ebenso wie DeepFaceLive Echtzeit-Deepfaking-System).

Diese Methode erforderte die sorgfältige Auswahl Tausender Gesichtsbilder jeder auszutauschenden Identität. Je weniger Aufwand in diese Phase gesteckt wurde, desto weniger effektiv war das Modell. Darüber hinaus variierten die Trainingszeiten je nach verfügbarer Hardware zwischen 2 und 14 Tagen, was selbst leistungsfähige Systeme auf lange Sicht belastete.

Als das Modell schließlich fertig war, konnte es Gesichter nur in vorhandene Videos einfügen und benötigte normalerweise eine „Zielidentität“ (d. h. eine echte Identität), die der überlagerten Identität optisch sehr ähnlich war.

In jüngerer Zeit, ROOP, LivePortrait und zahlreiche ähnliche Frameworks haben ähnliche Funktionen mit weitaus weniger Aufwand und oft mit besseren Ergebnissen bereitgestellt – jedoch ohne die Fähigkeit, genaue Ganzkörper-Deepfakes – oder jedes andere Element außer Gesichtern.

Beispiele für ROOP Unleashed und LivePortrait (Einschub unten links) aus Bob Doyles Content-Stream auf YouTube. Quellen: https://www.youtube.com/watch?v=i39xeYPBAAM und https://www.youtube.com/watch?v=QGatEItg2Ns

Beispiele für ROOP Unleashed und LivePortrait (Einschub unten links) aus Bob Doyles Inhaltsstream auf YouTube. Quellen: https://www.youtube.com/watch?v=i39xeYPBAAM und https://www.youtube.com/watch?v=QGatEItg2Ns

Im Gegensatz dazu ermöglichen Hunyuan LoRAs (und ähnliche Systeme, die unweigerlich folgen werden) die uneingeschränkte Schaffung ganzer Welten, einschließlich der Ganzkörpersimulation der vom Benutzer trainierten LoRA-Identität.

3: Massiv verbesserte zeitliche Konsistenz

Die zeitliche Konsistenz wurde Der Heilige Gral von Diffusionsvideos seit mehreren Jahren. Die Verwendung eines LoRA zusammen mit passenden Eingabeaufforderungen gibt einer Hunyuan-Videogenerierung eine konstante Identitätsreferenz, an die sie sich halten kann. Theoretisch (das ist noch früh) könnte man mehrere LoRAs einer bestimmten Identität trainieren, die jeweils eine bestimmte Kleidung tragen.

Unter diesen Vorzeichen ist es auch weniger wahrscheinlich, dass sich die Kleidung im Verlauf einer Videogenerierung „verändert“ (da das generative System das nächste Bild auf einem sehr begrenzten Fenster vorheriger Bilder basiert).

(Alternativ kann man, wie bei bildbasierten LoRA-Systemen, einfach mehrere LoRAs, z. B. Identitäts- und Kostüm-LoRAs, auf eine einzige Videogenerierung anwenden.)

4: Zugang zum „Menschenexperiment“

Da ich kürzlich beobachtet, scheint der proprietäre und generative KI-Sektor auf FAANG-Ebene nun so besorgt über mögliche Kritik in Bezug auf die menschlichen Synthesefähigkeiten seiner Projekte zu sein, dass tatsächliche befähigen erscheinen selten auf Projektseiten für wichtige Ankündigungen und Veröffentlichungen. Stattdessen tendiert die entsprechende Werbeliteratur zunehmend dazu, „niedliche“ und ansonsten „unbedrohliche“ Themen in synthetisierten Ergebnissen zu zeigen.

Mit der Einführung von Hunyuan LoRAs hat die Community zum ersten Mal die Möglichkeit, die Grenzen der LDM-basierten menschlichen Videosynthese in einem äußerst leistungsfähigen (und nicht grenzwertigen) System zu erweitern und das Thema umfassend zu erforschen, das die meisten von uns am meisten interessiert – die Menschen.

Folgen

Da bei einer Suche nach „Hunyuan“ in der Civit-Community hauptsächlich Promi-LoRAs und „Hardcore“-LoRAs angezeigt werden, liegt die zentrale Implikation der Einführung von Hunyuan-LoRAs darin, dass diese zur Erstellung von KI-pornografischen (oder anderweitig diffamierenden) Videos von echten Menschen – Promis und Unbekannten gleichermaßen – verwendet werden.

Aus Compliance-Gründen achten die Hobbyisten, die Hunyuan LoRAs erstellen und mit ihnen auf verschiedenen Discord-Servern experimentieren, darauf, dass keine Beispiele von echten Menschen gepostet werden. Die Realität ist, dass selbst Image-basierte Deepfakes sind jetzt schwer bewaffnet; und die Aussicht, wirklich realistische Videos in den Mix aufzunehmen, könnte endlich die gestiegenen Ängste rechtfertigen, die in den letzten sieben Jahren immer wieder in den Medien aufkamen und zu neuen Vorschriften.

Die treibende Kraft

Wie immer, Porno bleibt bestehen die treibende Kraft für TechnologieWas auch immer wir von einer solchen Nutzung halten, dieser unermüdliche Impulsgeber treibt den Fortschritt der Technik voran, der letztlich einer breiteren Akzeptanz zugute kommen kann.

In diesem Fall ist es möglich, dass der Preis höher als üblich ausfällt, da die Open-Source-Veröffentlichung der Erstellung hyperrealistischer Videos offensichtliche Auswirkungen auf kriminellen, politischen und ethischen Missbrauch hat.

Eine Reddit-Gruppe (die ich hier nicht nenne), die sich der KI-Generierung von NSFW-Videoinhalten widmet, hat einen zugehörigen, offenen Discord-Server, auf dem Benutzer verfeinern ComfyUI Workflows für die Hunyuan-basierte Videoporno-Generierung. Täglich veröffentlichen Benutzer Beispiele für NSFW-Clips – viele davon können durchaus als „extrem“ bezeichnet werden oder überschreiten zumindest die in den Forenregeln festgelegten Beschränkungen.

Diese Community unterhält außerdem ein umfangreiches und gut entwickeltes GitHub-Repository mit Tools zum Herunterladen und Verarbeiten von pornografischen Videos, um Trainingsdaten für neue Modelle bereitzustellen.

Da der beliebteste LoRA-Trainer, Kohya-ss, unterstützt jetzt das Hunyuan LoRA-Training, die Eintrittsbarrieren für grenzenloses generatives Videotraining sinken täglich, zusammen mit den Hardwareanforderungen für Hunyuan-Training und Videoerstellung.

Der entscheidende Aspekt spezieller Trainingsprogramme für pornografische KI (anstatt Identität-basierte Modelle, wie Prominente) ist, dass ein Standard-Foundation-Modell wie Hunyuan nicht speziell auf NSFW-Ausgabe trainiert ist und daher entweder schlecht abschneidet, wenn es aufgefordert wird, NSFW-Inhalte zu generieren, oder es nicht schafft, entwirren erlernte Konzepte und Zusammenhänge performativ oder überzeugend zu vermitteln.

Durch die Entwicklung fein abgestimmter NSFW-Grundmodelle und LoRAs wird es zunehmend möglich sein, trainierte Identitäten in eine dedizierte „Porno“-Videodomäne zu projizieren; schließlich ist dies nur die Videoversion von etwas, das ist bereits vorgekommen für Standbilder der letzten zweieinhalb Jahre.

VFX

Die enorme Steigerung der zeitlichen Konsistenz, die Hunyuan Video LoRAs bieten, ist ein klarer Segen für die KI-Spezialeffektbranche, die sehr stark auf die Anpassung von Open-Source-Software angewiesen ist.

Obwohl ein Hunyuan Video LoRA-Ansatz ein komplettes Bild und eine Umgebung generiert, haben VFX-Unternehmen mit ziemlicher Sicherheit begonnen, mit der Isolierung der zeitlich konsistenten menschlichen Gesichter zu experimentieren, die mit dieser Methode erhalten werden können, um Gesichter in reales Quellmaterial einzufügen oder darin zu integrieren.

Wie die Hobby-Community müssen auch VFX-Unternehmen auf die Bild-zu-Video- und Video-zu-Video-Funktionalität von Hunyuan Video warten, die möglicherweise die nützlichste Brücke zwischen LoRA-gesteuerten, ID-basierten „Deepfake“-Inhalten darstellt. Oder sie müssen improvisieren und die Zwischenzeit nutzen, um die äußeren Fähigkeiten des Frameworks und potenzieller Anpassungen sowie sogar proprietärer interner Forks von Hunyuan Video zu testen.

Obwohl die Lizenzbestimmungen Obwohl Hunyuan Video die Abbildung realer Personen technisch erlaubt, solange die Erlaubnis erteilt wird, ist die Nutzung in der EU, Großbritannien und Südkorea verboten. Nach dem Prinzip „Stays in Vegas“ bedeutet dies nicht zwangsläufig, dass Hunyuan Video in diesen Regionen nicht genutzt wird. Die Aussicht auf externe Datenprüfungen zur Durchsetzung einer wachsende Regulierungen rund um generative KI, könnte eine solche illegale Nutzung riskant machen.

Ein weiterer möglicherweise mehrdeutiger Abschnitt der Lizenzbedingungen lautet:

„Wenn am Veröffentlichungsdatum der Tencent Hunyuan-Version die Anzahl der monatlich aktiven Benutzer aller vom oder für den Lizenznehmer bereitgestellten Produkte oder Dienste im vorangegangenen Kalendermonat 100 Millionen übersteigt, müssen Sie bei Tencent eine Lizenz anfordern, die Tencent Ihnen nach eigenem Ermessen gewähren kann. Sie sind nicht berechtigt, die Rechte aus dieser Vereinbarung auszuüben, es sei denn, Tencent gewährt Ihnen diese Rechte ausdrücklich.“

Diese Klausel zielt eindeutig auf die Vielzahl von Unternehmen ab, die Hunyuan Video wahrscheinlich als „Vermittler“ für eine technisch relativ unerfahrene Nutzergruppe betreiben und die ab einer bestimmten Nutzerzahl Tencent an der Aktion beteiligen müssen.

Ob die breite Formulierung auch abdecken könnte indirekte Die Verwendung (z. B. über die Bereitstellung von Hunyuan-fähigen visuellen Effekten in populären Filmen und im Fernsehen) muss möglicherweise geklärt werden.

Fazit

Da es Deepfake-Videos bereits seit langer Zeit gibt, könnte man die Bedeutung von Hunyuan Video LoRA als Ansatz zur Identitätssynthese und zum Deepfaking leicht unterschätzen und annehmen, dass die Entwicklungen, die sich derzeit in der Civit-Community und in verwandten Discords und Subreddits abzeichnen, lediglich einen kleinen Schritt in Richtung einer wirklich kontrollierbaren menschlichen Videosynthese darstellen.

Wahrscheinlicher ist, dass die aktuellen Bemühungen nur einen Bruchteil des Potenzials von Hunyuan Video darstellen, völlig überzeugende Ganzkörper- und Umgebungs-Deepfakes zu erstellen. Sobald die Bild-zu-Video-Komponente veröffentlicht wird (Gerüchten zufolge soll dies noch in diesem Monat geschehen), wird sowohl der Hobby- als auch der professionellen Community eine weitaus detailliertere generative Leistung zur Verfügung stehen.

Als Stability.ai 2022 Stable Diffusion veröffentlichte, konnten viele Beobachter nicht verstehen, warum das Unternehmen ein damals so wertvolles und leistungsstarkes generatives System einfach hergab. Bei Hunyuan Video ist das Gewinnmotiv direkt in die Lizenz eingebaut – obwohl es sich für Tencent als schwierig erweisen könnte, festzustellen, wann ein Unternehmen das Gewinnbeteiligungsprogramm auslöst.

Das Ergebnis ist jedenfalls das gleiche wie 2022: Es haben sich sofort und mit großer Begeisterung engagierte Entwickler-Communitys rund um die Veröffentlichung gebildet. Einige der Wege, die diese Bemühungen in den nächsten 12 Monaten einschlagen werden, werden sicherlich für neue Schlagzeilen sorgen.

* Zum Zeitpunkt der Veröffentlichung bis zu 136.

Erstveröffentlichung: Dienstag, 7. Januar 2025

Verwandte Themen:AI-Video KI-Videoerstellung Deepfake DeepFakes Video

Martin Anderson

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai