Connect with us

Kunstmatige intelligentie

De opkomst van Hunyuan Video Deepfakes

mm
An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

Vanwege de aard van sommige van de hier besproken materialen, zal dit artikel minder referentielinks en illustraties bevatten dan gebruikelijk.

Er gebeurt iets opmerkelijks in de AI-synthesegemeenschap, hoewel de betekenis hiervan mogelijk enige tijd nodig heeft om duidelijk te worden. Hobbyisten trainen generatieve AI-videomodellen om de gelijkenis van personen te reproduceren, met behulp van video-gebaseerde LoRAs op Tencent’s onlangs uitgebrachte open-source Hunyuan Video-framework.*

Klik om af te spelen. Uiteenlopende resultaten van Hunyuan-gebaseerde LoRA-aanpassingen zijn vrij beschikbaar op de Civit-gemeenschap. Door laag-rangadaptatiemodellen (LoRAs) te trainen, worden problemen met temporele stabiliteit, die AI-videogeneratie twee jaar hebben geplaagd, aanzienlijk verminderd. Bronnen: civit.ai

In de hierboven getoonde video zijn de gelijkenissen van actrices Natalie Portman, Christina Hendricks en Scarlett Johansson, samen met tech-leider Elon Musk, getraind in relatief kleine add-on-bestanden voor het Hunyuan-generatieve videosysteem, dat zonder contentfilters (zoals NSFW-filters) op een gebruikerscomputer kan worden geïnstalleerd.

De maker van de Christina Hendricks LoRA hierboven verklaart dat slechts 16 afbeeldingen uit de Mad Men-televisieserie nodig waren om het model te ontwikkelen (dat een download van slechts 307 MB is); meerdere berichten van de Stable Diffusion-gemeenschap op Reddit en Discord bevestigen dat LoRAs van dit type geen grote hoeveelheden trainingsgegevens of lange trainingsuren vereisen in de meeste gevallen.

Klik om af te spelen. Arnold Schwarzenegger wordt tot leven gewekt in een Hunyuan-video LoRA die kan worden gedownload op Civit. Zie https://www.youtube.com/watch?v=1D7B9g9rY68 voor verdere Arnie-voorbeelden, van AI-enthousiast Bob Doyle.

Hunyuan LoRAs kunnen worden getraind op zowel statische afbeeldingen als video’s, hoewel trainen op video’s meer hardwarebronnen en verhoogde trainings tijd vereist.

Het Hunyuan Video-model heeft 13 miljard parameters, meer dan de 12 miljard parameters van Sora, en ver overtreft het minder capabele Hunyuan-DiT-model dat in de zomer van 2024 als open source is uitgebracht, dat slechts 1,5 miljard parameters heeft.

Net zoals twee en een half jaar geleden met Stable Diffusion en LoRA (zie voorbeelden van Stable Diffusion 1.5 ‘native’ beroemdheden hier), heeft het basismodel in kwestie een veel beperkter begrip van beroemdhedenpersoonlijkheden in vergelijking met het niveau van geloofwaardigheid dat kan worden behaald met ‘ID-geïnjecteerde’ LoRA-implementaties.

In feite krijgt een aangepaste, op persoonlijkheid gerichte LoRA een ‘gratis rit’ op de aanzienlijke synthesecapaciteiten van het basis-Hunyuan-model, waardoor een opvallend effectievere mensensynthese wordt geboden dan kan worden behaald met 2017-era autoencoder deepfakes of door beweging toe te voegen aan statische afbeeldingen via systemen zoals de geroemde LivePortrait.

Alle LoRAs die hier worden weergegeven, kunnen gratis worden gedownload van de zeer populaire Civit-gemeenschap, terwijl de meer overvloedige oude aangepaste ‘statische afbeelding’ LoRAs ook potentieel ‘zaad’ afbeeldingen kunnen creëren voor het videocreatieproces (d.w.z. afbeelding-naar-video, een aanstaande release voor Hunyuan Video, hoewel workarounds mogelijk zijn, voorlopig).

Klik om af te spelen. Boven, voorbeelden van een ‘statische’ Flux LoRA; onder, voorbeelden van een Hunyuan-video LoRA met muzikant Taylor Swift. Beide LoRAs zijn gratis beschikbaar op de Civit-gemeenschap.

Terwijl ik schrijf, biedt de Civit-website 128 zoekresultaten voor ‘Hunyuan’*. Bijna allemaal zijn op de een of andere manier NSFW-modellen; 22 tonen beroemdheden; 18 zijn ontworpen om de generatie van hardcore-pornografie te faciliteren; en slechts zeven daarvan tonen mannen in plaats van vrouwen.

Wat is er nieuw?

Vanwege de evoluerende aard van de term deepfake en het beperkte publieke begrip van de ( zeer ernstige ) beperkingen van AI-mensensyntheseframeworks tot nu toe, is de betekenis van de Hunyuan LoRA niet eenvoudig te begrijpen voor iemand die de generatieve AI-scène oppervlakkig volgt. Laten we enkele van de belangrijkste verschillen tussen Hunyuan LoRAs en eerdere benaderingen van identiteit-gebaseerde AI-videogeneratie bekijken.

1: Onbeperkte lokale installatie

Het belangrijkste aspect van Hunyuan Video is het feit dat het lokaal kan worden gedownload en dat het een zeer krachtig en ongecensureerd AI-videogeneratiesysteem in handen van de gebruiker legt, evenals de VFX-gemeenschap (voor zover licenties dit toelaten over geografische regio’s).

De laatste keer dat dit gebeurde was de open-source-release van het Stability.ai Stable Diffusion-model in de zomer van 2022. Op dat moment had OpenAI’s DALL-E2 de publieke verbeelding gevangen, hoewel DALLE-2 een betaalde service was met opvallende beperkingen (die in de loop van de tijd zijn toegenomen).

Toen Stable Diffusion beschikbaar kwam en Low-Rank Adaptation het mogelijk maakte om afbeeldingen van de identiteit van elke persoon (beroemdheid of niet) te genereren, hielp de enorme locus van ontwikkelaars- en consumentenbelang Stable Diffusion om de populariteit van DALLE-2 te overtreffen; hoewel laatstgenoemde een krachtiger systeem was uit de doos, werden de censuur-routines als zwaar door veel van zijn gebruikers gezien, en was aanpassing niet mogelijk.

Men kan betogen dat hetzelfde scenario nu van toepassing is tussen Sora en Hunyuan – of, meer accurate, tussen Sora-grade propriëtaire generatieve videosystemen en open-source-rivalen, waarvan Hunyuan de eerste is – maar waarschijnlijk niet de laatste (hier, overweeg dat Flux uiteindelijk aanzienlijk terrein zou winnen op Stable Diffusion).

Gebruikers die Hunyuan LoRA-uitvoer willen maken, maar die geen effectief krachtige apparatuur hebben, kunnen, zoals altijd, het GPU-aspect van de training uitbesteden aan online compute-diensten zoals RunPod. Dit is niet hetzelfde als het maken van AI-videos op platforms zoals Kaiber of Kling, aangezien er geen semantische of image-gebaseerde filtering (censuur) is betrokken bij het huren van een online GPU om een lokaal workflow te ondersteunen.

2: Geen noodzaak voor ‘host’-video’s en hoge inspanning

Toen deepfakes eind 2017 op het toneel verschenen, zou de anoniem geposte code evolueren in de mainstream-forks DeepFaceLab en FaceSwap (evenals het DeepFaceLive real-time deepfaking-systeem).

Deze methode vereiste de zorgvuldige curatie van duizenden gezichtsafbeeldingen van elke identiteit die zou worden uitgewisseld; hoe minder inspanning werd besteed aan deze fase, hoe minder effectief het model zou zijn. Bovendien varieerden de trainingsuren tussen 2-14 dagen, afhankelijk van de beschikbare hardware, waardoor zelfs capabele systemen op lange termijn werden belast.

Toen het model eindelijk klaar was, kon het alleen gezichten in bestaande video’s implanteren en had het meestal een ‘doelwit’ (d.w.z. echte) identiteit nodig die qua uiterlijk dicht bij de geïmplanteerde identiteit lag.

Onlangs hebben ROOP, LivePortrait en talloze soortgelijke frameworks soortgelijke functionaliteit geboden met veel minder inspanning en vaak met superieure resultaten – maar met geen capaciteit om nauwkeurige full-body deepfakes te genereren – of enig ander element dan gezichten.

Voorbeelden van ROOP Unleashed en LivePortrait (inset onder links), van Bob Doyle's content-stream op YouTube. Bronnen: https://www.youtube.com/watch?v=i39xeYPBAAM en https://www.youtube.com/watch?v=QGatEItg2Ns

Voorbeelden van ROOP Unleashed en LivePortrait (inset onder links), van Bob Doyle’s content-stream op YouTube. Bronnen: https://www.youtube.com/watch?v=i39xeYPBAAM en https://www.youtube.com/watch?v=QGatEItg2Ns

In tegenstelling tot Hunyuan LoRAs (en soortgelijke systemen die onvermijdelijk zullen volgen) staat het mogelijk om onbeperkte creatie van hele werelden toe, inclusief full-body-simulatie van de door de gebruiker getrainde LoRA-identiteit.

3: Massaal verbeterde temporele consistentie

Temporele consistentie is de Heilige Graal van diffusievideo geweest voor verschillende jaren nu. Het gebruik van een LoRA, samen met passende prompts, geeft een Hunyuan-videogeneratie een constante identiteitsreferentie om zich aan te houden. In theorie (dit zijn vroege dagen) zou men meerdere LoRAs van een bepaalde identiteit kunnen trainen, elk met specifieke kleding.

Onder die auspiciën is de kleding ook minder waarschijnlijk om ‘te muteren’ gedurende de loop van een videogeneratie (aangezien het generatieve systeem de volgende frame baseert op een zeer beperkt venster van eerdere frames).

(Alternatief, zoals bij image-gebaseerde LoRA-systemen, kan men eenvoudig meerdere LoRAs toepassen, zoals identiteit + kostuum LoRAs, op een enkele videogeneratie)

4: Toegang tot het ‘menselijk experiment’

Zoals ik onlangs opmerkte, lijkt de propriëtaire en FAANG-niveau generatieve AI-sector nu zo bang te zijn voor potentiële kritiek met betrekking tot de mensensynthesecapaciteiten van hun projecten, dat werkelijke mensen zelden verschijnen in projectpagina’s voor grote aankondigingen en releases. In plaats daarvan neigen gerelateerde publiciteitsliteratuur steeds meer naar het tonen van ‘schattige’ en anderszins ‘niet-bedreigende’ onderwerpen in gesynthesiseerde resultaten.

Met de komst van Hunyuan LoRAs heeft de gemeenschap voor het eerst de kans om de grenzen van LDM-gebaseerde mensensynthese in een zeer capabel (in plaats van marginaal) systeem te verleggen en om het onderwerp dat de meeste mensen het meest interesseert – mensen – volledig te onderzoeken.

Implicaties

Aangezien een zoekopdracht naar ‘Hunyuan’ op de Civit-gemeenschap meestal beroemdheden LoRAs en ‘hardcore’ LoRAs laat zien, is de centrale implicatie van de komst van Hunyuan LoRAs dat ze zullen worden gebruikt om AI-pornografische (of anderszins smaadachtige) video’s van echte mensen te maken – zowel beroemdheden als onbekenden.

Voor compliance-doeleinden zijn de hobbyisten die Hunyuan LoRAs creëren en die experimenteren met hen op diverse Discord-servers zorgvuldig om voorbeelden van echte mensen te weren die op het internet worden gepost. De realiteit is dat zelfs afbeelding-gebaseerde deepfakes nu zeer sterk zijn bewapend; en het vooruitzicht om echt realistische video’s toe te voegen aan de mix, kan uiteindelijk de verhoogde angsten rechtvaardigen die de afgelopen zeven jaar in de media zijn geuit en die hebben geleid tot nieuwe regelgeving.

De drijvende kracht

Zoals altijd blijft porn de drijvende kracht voor technologie. Wat onze mening over een dergelijk gebruik ook is, deze onstuitbare motor van impuls drijft vooruitgang in de stand van de techniek die uiteindelijk kan leiden tot meer mainstream-adoptie.

In dit geval is het mogelijk dat de prijs hoger zal zijn dan gebruikelijk, aangezien het open-source maken van hyperrealistische videocreatie duidelijke implicaties heeft voor criminele, politieke en ethische misbruik.

Een Reddit-groep (die ik hier niet zal noemen) gewijd aan AI-generatie van NSFW-video-inhoud heeft een geassocieerde, open Discord-server waar gebruikers ComfyUI-workflows voor Hunyuan-gebaseerde video-pornogeneratie verfijnen. Dagelijks posten gebruikers voorbeelden van NSFW-clips – veel waarvan redelijkerwijs als ‘extreem’ kunnen worden aangemerkt, of ten minste de beperkingen in de forumregels belasten.

Deze gemeenschap onderhoudt ook een aanzienlijke en goed ontwikkelde GitHub-repository met hulpmiddelen die pornografische video’s kunnen downloaden en verwerken om trainingsgegevens voor nieuwe modellen te bieden.

Aangezien de meest populaire LoRA-trainer, Kohya-ss, nu Hunyuan LoRA-training ondersteunt, dalen de drempels voor onbeperkte generatieve videotraining dagelijks, samen met de hardwarevereisten voor Hunyuan-training en videogeneratie.

Het cruciale aspect van toegewijde trainingsregimes voor porn-gebaseerde AI (in plaats van identiteit-gebaseerde modellen, zoals beroemdheden) is dat een standaardbasismodel zoals Hunyuan niet specifiek is getraind op NSFW-uitvoer en mogelijk slecht presteert wanneer het wordt gevraagd om NSFW-inhoud te genereren, of faalt om geleerde concepten en associaties te ontwarren op een performante of overtuigende manier.

Door fijngestemde NSFW-basismodellen en LoRAs te ontwikkelen, zal het steeds mogelijk worden om getrainde identiteiten te projecteren in een toegewijd ‘porn’-videodomein; tenslotte is dit alleen de video-versie van iets dat al is gebeurd voor stills de afgelopen twee en een half jaar.

VFX

De enorme toename in temporele consistentie die Hunyuan Video LoRAs biedt, is een voor de hand liggende zegen voor de AI-visual effects-industrie, die zwaar leunt op het aanpassen van open-source software.

Hoewel een Hunyuan Video LoRA-aanpak een hele frame en omgeving genereert, hebben VFX-bedrijven waarschijnlijk al experimenteren met het isoleren van de temporeel consistente mensengezichten die met deze methode kunnen worden verkregen, om ze in echte bronvideo’s te implanteren of te integreren.

Net als de hobbyistengemeenschap moeten VFX-bedrijven wachten op de image-to-video- en video-to-video-functionaliteit van Hunyuan Video, die potentieel de meest bruikbare brug is tussen LoRA-gedreven, ID-gebaseerde ‘deepfake’-inhoud; of improviseren en de tijd gebruiken om de buitenste capaciteiten van het framework en van potentiële aanpassingen, en zelfs propriëtaire in-house forks van Hunyuan Video, te onderzoeken.

Hoewel de licentievoorwaarden voor Hunyuan Video technisch gezien de weergave van echte personen toestaan, mits toestemming is gegeven, verbieden ze het gebruik in de EU, het Verenigd Koninkrijk en in Zuid-Korea. Op het ‘stays in Vegas’-principe hoeft dit niet noodzakelijkerwijs te betekenen dat Hunyuan Video niet in deze regio’s zal worden gebruikt; echter kan het vooruitzicht van externe gegevensaudits om een groeiende regelgeving rond generatieve AI te handhaven, een dergelijk ongeoorloofd gebruik riskant maken.

Een ander potentieel dubieus gebied van de licentievoorwaarden vermeldt:

‘Als, op de release-datum van de Tencent Hunyuan-versie, de maandelijkse actieve gebruikers van alle producten of diensten die beschikbaar zijn gesteld door of voor de licentiehouder meer dan 100 miljoen maandelijkse actieve gebruikers in de voorgaande kalendermaand zijn, moet u een licentie aanvragen bij Tencent, die Tencent naar eigen goeddunken kan verlenen, en u bent niet gemachtigd om enige rechten uit te oefenen op grond van deze Overeenkomst, tenzij of totdat Tencent u anderszins uitdrukkelijk deze rechten verleent.’

Deze clausule is duidelijk gericht op de menigte bedrijven die waarschijnlijk Hunyuan Video zullen ‘middleman’ voor een relatief technisch ongeletterde groep gebruikers en die verplicht zullen zijn om Tencent in de actie te betrekken, boven een bepaalde drempel van gebruikers.

Of de brede formulering ook indirect gebruik (d.w.z. via de levering van Hunyuan-geactiveerde visuele effectenuitvoer in populaire films en TV) kan omvatten, kan verduidelijking behoeven.

Conclusie

Aangezien deepfake-video al lange tijd bestaat, zou het gemakkelijk zijn om de betekenis van Hunyuan Video LoRA als een benadering van identiteitssynthese en deepfaking te onderschatten; en om aan te nemen dat de ontwikkelingen die momenteel zichtbaar zijn op de Civit-gemeenschap en op verwante Discords en subreddits, slechts een kleine stap voorwaarts vertegenwoordigen naar echt controleerbare mensensynthese.

Waarschijnlijker is dat de huidige inspanningen slechts een fractie vertegenwoordigen van het potentieel van Hunyuan Video om volledig overtuigende full-body- en full-omgevingsdeepfakes te creëren; zodra de image-to-video-component wordt uitgebracht (wat naar verluidt deze maand zal gebeuren), zal een veel fijnere niveau van generatieve kracht beschikbaar komen voor zowel de hobbyist- als professionele gemeenschappen.

Toen Stability.ai Stable Diffusion in 2022 uitbracht, konden veel waarnemers niet begrijpen waarom het bedrijf zo’n waardevol en krachtig generatief systeem zou weggeven. Met Hunyuan Video is de winstmotief rechtstreeks in de licentie ingebouwd – hoewel het voor Tencent mogelijk moeilijk kan zijn om te bepalen wanneer een bedrijf het winstdelingsregime activeert.

In elk geval is het resultaat hetzelfde als in 2022: toegewijde ontwikkelingsgemeenschappen hebben zich onmiddellijk en met intense vurigheid gevormd rond de release. Sommige van de wegen die deze inspanningen in de komende 12 maanden zullen nemen, zijn zeker om nieuwe headlines te doen verschijnen.

 

* Tot 136 op het moment van publicatie.

Eerst gepubliceerd op dinsdag 7 januari 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.