Verbind je met ons

Artificial Intelligence

De opkomst van Hunyuan-video-deepfakes

mm
Een Arnie Hunyuan Video LoRA gedemonstreerd door Bob Doyle, op ComfyUI, op YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – en, rechts ingevoegd, fragmenten uit verschillende voorbeeldvideo's voor dezelfde LoRA op Civit.ai

Vanwege de aard van een deel van het hier besproken materiaal, bevat dit artikel minder referentielinks en illustraties dan normaal.

Er gebeurt momenteel iets opmerkelijks in de AI-synthesegemeenschap, hoewel het nog wel even kan duren voordat de betekenis ervan duidelijk wordt. Hobbyisten trainen generatieve AI-videomodellen om de gelijkenissen van mensen te reproduceren, met behulp van videogebaseerde LoRA's over de onlangs vrijgegeven open source van Tencent Hunyuan Video-framework.*

Klik om te spelen. Diverse resultaten van op Hunyuan gebaseerde LoRA-aanpassingen die gratis beschikbaar zijn in de Civit-community. Door low-rank adaptation models (LoRA's) te trainen, worden problemen met temporele stabiliteit, die AI-videogeneratie al twee jaar teisteren, aanzienlijk verminderd. Bronnen: civit.ai

In de hierboven getoonde video zijn de gelijkenissen van de actrices Natalie Portman, Christina Hendricks en Scarlett Johansson, samen met tech-leider Elon Musk, getraind in relatief kleine add-on-bestanden voor het generatieve videosysteem van Hunyuan, die kunnen worden geïnstalleerd zonder inhoudsfilters (zoals NSFW-filters) op de computer van een gebruiker.

De maker van de hierboven afgebeelde Christina Hendricks LoRA stelt dat er slechts 16 afbeeldingen van de Mad Men Er was een tv-programma nodig om het model te ontwikkelen (dat slechts 307 MB downloadt); meerdere berichten van de Stable Diffusion-community op Reddit en Discord bevestigen dat dit soort LoRA's in de meeste gevallen geen grote hoeveelheden trainingsgegevens of lange trainingstijden vereisen.

Clikken om te spelen. Arnold Schwarzenegger wordt tot leven gebracht in een Hunyuan-video LoRA die kan worden gedownload op Civit. Zie https://www.youtube.com/watch?v=1D7B9g9rY68 voor meer Arnie-voorbeelden, van AI-enthousiasteling Bob Doyle.

Hunyuan LoRA's kunnen worden getraind met statische afbeeldingen of video's. Voor training met video's zijn echter meer hardwarebronnen en een langere trainingstijd nodig.

Het Hunyuan Video-model beschikt over 13 miljard parameters, wat de 12 miljard parameters van Sora overtreft en de minder capabele parameters ver overtreft. Hunyuan-DiT model dat in de zomer van 2024 als open source is vrijgegeven, heeft slechts 1.5 miljard parameters.

Zoals het geval was twee en een half jaar geleden met Stable Diffusion en LoRA (zie voorbeelden van 'native' beroemdheden van Stable Diffusion 1.5) hier), heeft het betreffende basismodel een veel beperkter inzicht in beroemdheden, vergeleken met de mate van betrouwbaarheid die kan worden verkregen via 'ID-geïnjecteerde' LoRA-implementaties.

In feite krijgt een op maat gemaakte, op persoonlijkheid gerichte LoRA een 'gratis ritje' op de belangrijke synthesemogelijkheden van het basismodel Hunyuan, en biedt een aanzienlijk effectievere menselijke synthese dan wat er in het tijdperk van 2017 mogelijk is. autoencoder deepfakes of door te proberen beweging toe te voegen aan statische beelden via systemen zoals de gevierde Liveportret.

Alle hier afgebeelde LoRA's kunnen gratis worden gedownload van de zeer populaire Civit-community, terwijl het grotere aantal oudere, op maat gemaakte 'statische-afbeelding'-LoRA's mogelijk ook 'seed'-afbeeldingen kunnen maken voor het videocreatieproces (d.w.z. afbeelding-naar-video, een aanstaande release voor Hunyuan Video, hoewel Er zijn oplossingen mogelijk, voor het moment).

Klik om te spelen. Boven: voorbeelden van een 'statische' Flux LoRA; onder: voorbeelden van een Hunyuan-video-LoRA met muzikant Taylor Swift. Beide LoRA's zijn gratis beschikbaar in de Civit-community.

Terwijl ik dit schrijf, biedt de Civit-website 128 zoekresultaten voor 'Hunyuan'*. Bijna al deze resultaten zijn op de een of andere manier NSFW-modellen; 22 beelden beroemdheden uit; 18 zijn ontworpen om de productie van hardcore pornografie te bevorderen; en slechts zeven ervan beelden mannen af ​​in plaats van vrouwen.

Dus, wat is er nieuw?

Door de evoluerende natuur van de term deepfake, en beperkt publiek begrip van de (vrij ernstig) beperkingen van AI-frameworks voor menselijke videosynthese tot nu toe, is de betekenis van Hunyuan LoRA niet gemakkelijk te begrijpen voor iemand die de generatieve AI-scene terloops volgt. Laten we enkele van de belangrijkste verschillen tussen Hunyuan LoRA's en eerdere benaderingen voor identiteitsgebaseerde AI-videogeneratie bekijken.

1: Onbeperkte lokale installatie

Het belangrijkste aspect van Hunyuan Video is het feit dat het lokaal kan worden gedownload en dat het een zeer krachtige en ongecensureerde Een AI-videogeneratiesysteem in handen van de doorsnee gebruiker, maar ook van de VFX-community (voor zover licenties dit toestaan ​​in verschillende geografische regio's).

De laatste keer dat dit gebeurde was bij de release van het Stability.ai Stable Diffusion-model naar open source in de zomer van 2022. In die tijd had OpenAI's DALL-E2 gevangen de publieke verbeelding, hoewel DALLE-2 een betaalde dienst was met aanzienlijke beperkingen (die in de loop van de tijd toenamen).

Toen Stable Diffusion beschikbaar werd, maakte Low-Rank Adaptation het mogelijk om beelden te genereren van de identiteit van elke persoon (beroemdheid of niet), de enorme interesse van ontwikkelaars en consumenten hielp Stable Diffusion om de populariteit van DALLE-2 te overtreffen; hoewel dit laatste een capabeler systeem was, waren de censuurroutines gezien als belastend door veel gebruikers, en maatwerk was niet mogelijk.

Je zou kunnen stellen dat hetzelfde scenario nu van toepassing is tussen Sora en Hunyuan – of, nauwkeuriger, tussen Sora-graad gepatenteerde generatieve videosystemen en open source-rivalen, waarvan Hunyuan de eerste is – maar waarschijnlijk niet de laatste (beschouw hier dat Stroom zou uiteindelijk aanzienlijk terrein winnen op Stable Diffusion).

Gebruikers die Hunyuan LoRA-output willen creëren, maar niet over de juiste, krachtige apparatuur beschikken, kunnen zoals altijd het GPU-aspect van de training uitbesteden aan online computerdiensten zoals RunPodDit is niet hetzelfde als het maken van AI-video's op platforms zoals Kaiber of Kling, aangezien er geen semantische of op afbeeldingen gebaseerde filtering (censuur) is betrokken bij het huren van een online GPU ter ondersteuning van een anderszins lokale workflow.

2: Geen behoefte aan 'host'-video's en veel moeite

Toen deepfakes eind 2017 op het toneel verschenen, zou de anoniem geplaatste code evolueren naar de mainstream forks DeepFaceLab en gezicht wisselen (net als de DeepFaceLive real-time deepfaking-systeem).

Deze methode vereiste de nauwgezette curatie van duizenden gezichtsafbeeldingen van elke identiteit die verwisseld moest worden; hoe minder moeite er in deze fase werd gestoken, hoe minder effectief het model zou zijn. Bovendien varieerden de trainingstijden tussen 2-14 dagen, afhankelijk van de beschikbare hardware, wat zelfs capabele systemen op de lange termijn onder druk zette.

Toen het model eindelijk klaar was, kon het alleen nog maar gezichten in bestaande video's opnemen. Meestal was er een 'doel'-identiteit (d.w.z. een echte identiteit) nodig die qua uiterlijk dicht bij de overlappende identiteit lag.

Recenter, ROEP, LivePortrait en talloze soortgelijke frameworks hebben vergelijkbare functionaliteit geboden met veel minder moeite, en vaak met superieure resultaten – maar zonder de mogelijkheid om nauwkeurige deepfakes van het hele lichaam – of enig ander element dan gezichten.

Voorbeelden van ROOP Unleashed en LivePortrait (inset linksonder), uit Bob Doyle's contentstream op YouTube. Bronnen: https://www.youtube.com/watch?v=i39xeYPBAAM en https://www.youtube.com/watch?v=QGatEItg2Ns

Voorbeelden van ROOP Unleashed en LivePortrait (inzet linksonder), uit de contentstream van Bob Doyle op YouTube. Bronnen: https://www.youtube.com/watch?v=i39xeYPBAAM en https://www.youtube.com/watch?v=QGatEItg2Ns

Daarentegen maken Hunyuan LoRA's (en de vergelijkbare systemen die onvermijdelijk zullen volgen) het mogelijk om ongehinderd hele werelden te creëren, inclusief volledige simulatie van de door de gebruiker getrainde LoRA-identiteit.

3: Enorm verbeterde tijdelijke consistentie

Er is sprake van tijdelijke consistentie de Heilige Graal van diffusievideo al enkele jaren. Het gebruik van een LoRA, samen met passende prompts, geeft een Hunyuan-videogeneratie een constante identiteitsreferentie om zich aan te houden. In theorie (dit zijn nog vroege dagen) zou men meerdere LoRA's van een bepaalde identiteit kunnen trainen, elk met specifieke kleding.

Onder deze auspiciën is de kans kleiner dat de kleding 'muteert' in de loop van een videogeneratie (omdat het generatieve systeem het volgende frame baseert op een zeer beperkt venster van eerdere frames).

(Als alternatief, net als bij op afbeeldingen gebaseerde LoRA-systemen, kan men eenvoudigweg meerdere LoRA's, zoals identiteits- en kostuum-LoRA's, op één videogeneratie toepassen)

4: Toegang tot het 'Menselijk Experiment'

Zoals ik onlangs waargenomenDe gepatenteerde en op FAANG-niveau generatieve AI-sector lijkt nu zo op zijn hoede te zijn voor mogelijke kritiek met betrekking tot de menselijke synthesemogelijkheden van zijn projecten, dat de werkelijke personen verschijnen zelden op projectpagina's voor belangrijke aankondigingen en releases. In plaats daarvan toont gerelateerde publiciteitsliteratuur steeds vaker 'schattige' en anderszins 'niet-bedreigende' onderwerpen in gesynthetiseerde resultaten.

Met de komst van Hunyuan LoRAs heeft de gemeenschap voor het eerst de kans om de grenzen van LDM-gebaseerde menselijke videosynthese te verleggen in een zeer capabel (in plaats van marginaal) systeem, en om het onderwerp dat de meesten van ons het meest interesseert – mensen – volledig te verkennen.

Gevolgen

Omdat een zoekopdracht naar 'Hunyuan' in de Civit-community vooral celebrity-LoRA's en 'hardcore'-LoRA's oplevert, is de belangrijkste implicatie van de komst van Hunyuan-LoRA's dat deze gebruikt zullen worden om met kunstmatige intelligentie pornografische (of anderszins lasterlijke) video's van echte mensen te maken – zowel beroemdheden als onbekenden.

Om te voldoen aan de nalevingsvereisten, zijn de hobbyisten die Hunyuan LoRA's maken en ermee experimenteren op diverse Discord-servers voorzichtig om te voorkomen dat er voorbeelden van echte mensen worden gepost. De realiteit is dat zelfs beeld-gebaseerde deepfakes zijn nu zwaar bewapend; en het vooruitzicht om echt realistische video's aan de mix toe te voegen, kan eindelijk de toegenomen angsten rechtvaardigen die de afgelopen zeven jaar steeds weer in de media zijn verschenen en die hebben geleid tot nieuwe reglement.

De drijvende kracht

Zoals altijd, porno stoffelijk overschot de drijvende kracht achter technologieWat onze mening over dit gebruik ook is, deze meedogenloze motor van impulsen drijft vooruitgang in de stand van de techniek aan, wat uiteindelijk kan leiden tot een bredere acceptatie.

In dit geval is het mogelijk dat de prijs hoger zal zijn dan normaal, aangezien het open sourcen van hyperrealistische videocreaties duidelijke implicaties heeft voor crimineel, politiek en ethisch misbruik.

Eén Reddit-groep (die ik hier niet bij naam zal noemen) die zich toelegt op het genereren van NSFW-videocontent met behulp van AI, heeft een bijbehorende, open Discord-server waar gebruikers hun kennis verfijnen. Comfortabele gebruikersinterface Workflows voor het genereren van videoporno in Hunyuan. Gebruikers plaatsen dagelijks voorbeelden van NSFW-clips – waarvan er veel redelijkerwijs als 'extreem' kunnen worden omschreven, of op zijn minst de beperkingen in de forumregels overschrijden.

Deze community onderhoudt ook een omvangrijke en goed ontwikkelde GitHub-repository met tools waarmee u pornografische video's kunt downloaden en verwerken, om trainingsgegevens voor nieuwe modellen te leveren.

Sinds de populairste LoRA-trainer, Kohya-ss, Ondersteunt nu Hunyuan LoRA-trainingde toetredingsdrempels voor onbeperkte generatieve videotraining worden dagelijks lager, samen met de hardwarevereisten voor Hunyuan-training en videogeneratie.

Het cruciale aspect van speciale trainingsprogramma's voor op porno gebaseerde AI (in plaats van identiteit-gebaseerde modellen, zoals beroemdheden) is dat een standaardfundamentmodel zoals Hunyuan niet specifiek is getraind op NSFW-output, en daarom slecht kan presteren wanneer er wordt gevraagd om NSFW-inhoud te genereren, of er niet in slaagt ontwarren geleerde concepten en associaties op een performatieve of overtuigende manier overbrengen.

Door het ontwikkelen van nauwkeurig afgestemde NSFW-fundamentmodellen en LoRA's zal het steeds mogelijker worden om getrainde identiteiten te projecteren in een speciaal 'porno'-videodomein; dit is immers slechts de videoversie van iets dat is al gebeurd voor stilstaande beelden van de laatste twee en een half jaar.

VFX

De enorme toename in tijdsconsistentie die Hunyuan Video LoRA's bieden, is een duidelijke zegen voor de AI-visuele-effectenindustrie, die sterk leunt op het aanpassen van opensourcesoftware.

Hoewel een Hunyuan Video LoRA-aanpak een volledig frame en een volledige omgeving genereert, zijn VFX-bedrijven vrijwel zeker begonnen te experimenteren met het isoleren van de tijdsconsistente menselijke gezichten die met deze methode kunnen worden verkregen, om gezichten te kunnen overlappen of integreren in echte bronbeelden.

Net als de hobbyistengemeenschap moeten VFX-bedrijven wachten op de image-to-video- en video-to-video-functionaliteit van Hunyuan Video, wat mogelijk de meest bruikbare brug vormt tussen LoRA-gestuurde, ID-gebaseerde 'deepfake'-content. Anders moeten ze improviseren en het interval gebruiken om de externe mogelijkheden van het framework en mogelijke aanpassingen en zelfs eigen interne forks van Hunyuan Video te onderzoeken.

Hoewel de licentievoorwaarden Hunyuan Video staat technisch gezien de weergave van echte personen toe, zolang er toestemming wordt gegeven, maar verbiedt het gebruik ervan in de EU, het Verenigd Koninkrijk en Zuid-Korea. Gezien het 'blijft in Vegas'-principe betekent dit niet noodzakelijkerwijs dat Hunyuan Video niet in deze regio's zal worden gebruikt; het vooruitzicht van externe data-audits om een toenemende regelgeving rondom generatieve AI, kan dergelijk illegaal gebruik riskant maken.

Een ander mogelijk dubbelzinnig gedeelte van de licentievoorwaarden luidt:

'Als op de releasedatum van de Tencent Hunyuan-versie het aantal maandelijks actieve gebruikers van alle producten of services die door of voor Licentiehouder beschikbaar zijn gesteld, groter is dan 100 miljoen maandelijks actieve gebruikers in de voorafgaande kalendermaand, moet U een licentie aanvragen bij Tencent. Tencent kan deze licentie naar eigen goeddunken aan U verlenen. U bent niet bevoegd om de rechten onder deze Overeenkomst uit te oefenen, tenzij of totdat Tencent U dergelijke rechten uitdrukkelijk anderszins verleent.'

Deze clausule is duidelijk gericht op de vele bedrijven die waarschijnlijk als 'bemiddelaar' voor Hunyuan Video zullen optreden voor een relatief technisch ongeletterde groep gebruikers, en die verplicht zullen zijn om Tencent bij de actie te betrekken als ze een bepaald gebruikersplafond overschrijden.

Of de brede formulering ook betrekking zou kunnen hebben op indirect Het gebruik ervan (bijvoorbeeld via de levering van Hunyuan-compatibele visuele effecten in populaire films en tv) behoeft mogelijk verduidelijking.

Conclusie

Omdat deepfake-video's al lang bestaan, is het makkelijk om het belang van Hunyuan Video LoRA als benadering voor identiteitssynthese en deepfaking te onderschatten. We kunnen er dan ook vanuit gaan dat de ontwikkelingen die zich momenteel voordoen in de Civit-community en op gerelateerde Discords en subreddits, slechts een kleine stap zijn in de richting van echt controleerbare menselijke videosynthese.

Het is waarschijnlijker dat de huidige inspanningen slechts een fractie vormen van de potentie van Hunyuan Video om volledig overtuigende deepfakes van het hele lichaam en de hele omgeving te creëren. Zodra de afbeelding-naar-video-component wordt uitgebracht (geruchten gaan dat dit deze maand gebeurt), wordt een veel gedetailleerder niveau van generatieve kracht beschikbaar voor zowel hobbyisten als professionals.

Toen Stability.ai in 2022 Stable Diffusion uitbracht, konden veel waarnemers niet bepalen waarom het bedrijf zomaar een, destijds, zo waardevol en krachtig generatief systeem weggaf. Bij Hunyuan Video is het winstmotief direct in de licentie ingebouwd, hoewel het voor Tencent lastig kan zijn om te bepalen wanneer een bedrijf het winstdelingsschema activeert.

Hoe dan ook, het resultaat is hetzelfde als in 2022: toegewijde ontwikkelingsgemeenschappen hebben zich onmiddellijk en met intense ijver gevormd rond de release. Sommige van de wegen die deze inspanningen de komende 12 maanden zullen bewandelen, zullen ongetwijfeld nieuwe krantenkoppen opleveren.

 

* Op het moment van publicatie waren dat er 136.

Eerste publicatie dinsdag 7 januari 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd van onderzoeksinhoud bij Metaphysic.ai.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai