Connect with us

Kunstig intelligens

Opkomsten af Hunyuan Video Deepfakes

mm
An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

På grund af naturen af nogle af det materiale, der diskuteres her, vil denne artikel indeholde færre reference-links og illustrationer end normalt.

Noget bemærkelsesværdigt sker for tiden i AI-syntese-fællesskabet, selvom betydningen måske tager lidt tid at blive tydelig. Hobbyister træner generative AI-video-modeller til at genskabe lighederne af mennesker ved hjælp af video-baserede LoRAs på Tencents nyligt udgivne open source Hunyuan Video-ramme.*

Klik for at afspille. Diversen resultater fra Hunyuan-baserede LoRA-tilpasninger frit tilgængelige på Civit-fællesskabet. Ved at træne lav-rang-tilpasningsmodeller (LoRAs) reduceres problemerne med temporal stabilitet, som har plaget AI-video-generering i to år, betydeligt. Kilder: civit.ai

I den ovenstående video er lighederne af skuespillerinderne Natalie Portman, Christina Hendricks og Scarlett Johansson, sammen med tech-leder Elon Musk, blevet trænet ind i relativt små tilføjelsesfiler til Hunyuan-generative video-system, som kan installeres uden indholdsfiltre (såsom NSFW-filtre) på en brugers computer.

Oprettoren af Christina Hendricks LoRA ovenfor oplyser, at kun 16 billeder fra Mad Men-tv-serien var nødvendige for at udvikle modellen (som er en mere 307mb-download); multiple indlæg fra Stable Diffusion-fællesskabet på Reddit og Discord bekræfter, at LoRAs af denne type ikke kræver store mængder træningsdata eller lange træningstider i de fleste tilfælde.

Klik for at afspille. Arnold Schwarzenegger bliver bragt til live i en Hunyuan video LoRA, der kan downloades på Civit. Se https://www.youtube.com/watch?v=1D7B9g9rY68 for yderligere Arnie-eksempler fra AI-entusiast Bob Doyle.

Hunyuan LoRAs kan trænes på enten statiske billeder eller videoer, selvom træning på videoer kræver større hardware-resourcer og øget træningstid.

Hunyuan Video-modellen har 13 milliarder parametre, hvilket overgår Soras 12 milliarder parametre, og langt overgår den mindre kapable Hunyuan-DiT-model, der blev udgivet til open source i sommeren 2024, som kun har 1,5 milliarder parametre.

Som var tilfældet for to og en halv år siden med Stable Diffusion og LoRA (se eksempler på Stable Diffusion 1.5’s ‘native’ celebriteter her), har grundmodellen i spørgsmålet en langt mere begrænset forståelse af celebritets-personligheder, sammenlignet med det niveau af troværdighed, der kan opnås gennem ‘ID-injected’ LoRA-implementationer.

Effektivt set får en tilpasset, personligheds-fokuseret LoRA en ‘gratis tur’ på den betydelige syntese-kapacitet af grund-Hunyuan-modellen, og tilbyder en bemærkelsesværdigt mere effektiv menneske-syntese end kan opnås enten ved 2017-års autoencoder deepfakes eller ved at tilføje bevægelse til statiske billeder via systemer som det berømte LivePortrait.

Alle LoRAs afbildet her kan downloades frit fra det meget populære Civit-fællesskab, mens den mere talrige mængde ældre, tilpassede ‘statiske-billede’ LoRAs også potentielt kan skabe ‘frø’-billeder til video-opsætningen (dvs. billed-til-video, en pendende udgivelse for Hunyuan Video, selvom arbejdsgange er mulige for øjeblikket).

Klik for at afspille. Ovenfor, eksempler fra en ‘statiske’ Flux LoRA; nedenfor, eksempler fra en Hunyuan video LoRA med musikeren Taylor Swift. Begge disse LoRAs er frit tilgængelige på Civit-fællesskabet.

Som jeg skriver, tilbyder Civit-website 128 søgeresultater for ‘Hunyuan’* . Næsten alle disse er på en eller anden måde NSFW-modeller; 22 afbilder celebriteter; 18 er designet til at facilitere generering af hardcore-pornografi; og kun syv af dem afbilder mænd snarere end kvinder.

Hvad er nyt?

På grund af den udviklende natur af begrebet deepfake, og begrænset offentlig forståelse af (de ret severe) begrænsninger af AI-menneske-video-syntese-rammer indtil nu, er betydningen af Hunyuan LoRA ikke let at forstå for en person, der følger med i generative AI-scenen. Lad os gennemgå nogle af de vigtigste forskelle mellem Hunyuan LoRAs og tidligere tilgange til identitets-baseret AI-video-generering.

1: Ubegrænset lokal installation

Det vigtigste aspekt af Hunyuan Video er, at det kan downloades lokalt, og at det placerer en meget kraftfuld og ucensureret AI-video-genererings-system i hænderne på den almindelige bruger, samt VFX-fællesskabet (i den udstrækning, licenser må tillade det på tværs af geografiske regioner).

Sidst dette skete var ved udgivelsen af Stability.ai Stable Diffusion-model i sommeren 2022. På det tidspunkt havde OpenAI’s DALL-E2 fanget den offentlige imagination, selvom DALLE-2 var en betalt service med bemærkelsesværdige begrænsninger (som voksede over tid).

Når Stable Diffusion blev tilgængelig, og Low-Rank Adaptation derefter gjorde det muligt at generere billeder af identiteten af enhver person (celebritet eller ej), hjalp den enorme locus af udvikler- og forbruger-interesse med at få Stable Diffusion til at overgå populariteten af DALLE-2; selvom sidstnævnte var et mere kapabelt system ud af billedets ramme, var dets censur-rutiner set som betungende af mange af dets brugere, og tilpasning var ikke mulig.

Argumenterbart er det samme scenario nu gælder mellem Sora og Hunyuan – eller mere præcist, mellem Sora-grad proprietære generative video-systemer og open source-rivaler, hvoraf Hunyuan er den første – men sandsynligvis ikke den sidste (her skal man overveje, at Flux ville til sidst få betydelig fremgang på Stable Diffusion).

Brugere, der ønsker at oprette Hunyuan LoRA-udsalg, men som mangler effektivt kødigt udstyr, kan, som altid, afholde GPU-aspektet af træning til online compute-tjenester såsom RunPod. Dette er ikke det samme som at oprette AI-videoer på platforme såsom Kaiber eller Kling, da der ikke er nogen semantisk eller billed-baseret filtrering (censur) involveret i at leje en online GPU til at understøtte en ellers lokal arbejdsproces.

2: Ingen behov for ‘vært’-videoer og høj indsats

Når deepfakes brød ind på scenen i slutningen af 2017, ville den anonymt-postede kode udvikle sig til de mainstream-fork DeepFaceLab og FaceSwap (såvel som DeepFaceLive real-time deepfaking-system).

Denne metode krævede den omhyggelige kuratering af tusinder af ansigtsbilleder af hver identitet, der skulle udskiftes; jo mindre indsats, der blev lagt i denne fase, jo mindre effektiv ville modellen være. Derudover varierede træningstider mellem 2-14 dage, afhængigt af tilgængeligt hardware, og belastede selv kapable systemer over tid.

Når modellen endelig var klar, kunne den kun påføre ansigter i eksisterende video, og havde normalt brug for en ‘mål’ (dvs. rigtig) identitet, der var tæt på den påførte identitet.

Mere nyligt har ROOP, LivePortrait og adskillige lignende rammer leveret lignende funktionalitet med langt mindre indsats, og ofte med overlegne resultater – men med ingen kapacitet til at generere præcise fuld-krop deepfakes – eller nogen anden element end ansigter.

Eksempler på ROOP Unleashed og LivePortrait (inset nederst til venstre), fra Bob Doyles indholdstrøm på YouTube. Kilder: https://www.youtube.com/watch?v=i39xeYPBAAM og https://www.youtube.com/watch?v=QGatEItg2Ns

Eksempler på ROOP Unleashed og LivePortrait (inset nederst til venstre), fra Bob Doyles indholdstrøm på YouTube. Kilder: https://www.youtube.com/watch?v=i39xeYPBAAM og https://www.youtube.com/watch?v=QGatEItg2Ns

I modsætning hertil tillader Hunyuan LoRAs (og de lignende systemer, der uundgåeligt vil følge) ufetteret oprettelse af hele verdener, herunder fuld-krop-simulation af den bruger-trænede LoRA-identitet.

3: Massivt forbedret temporal konsistens

Temporal konsistens har været den hellige gral for diffusion-video i adskillige år nu. Brugen af en LoRA, sammen med passende prompts, giver en Hunyuan video-generering en konstant identitets-reference at holde fast i. I teorien (disse er tidlige dage) kunne man træne multiple LoRAs af en bestemt identitet, hver med specifikke klædningsgenstande.

Under disse omstændigheder er det også mindre sandsynligt, at klædningsgenstandene ‘muterer’ gennem video-genereringsforløbet (siden genererings-systemet baserer den næste ramme på et meget begrænset vindue af tidligere rammer).

(Alternativt, som med billed-baserede LoRA-systemer, kan man blot anvende multiple LoRAs, såsom identitet + kostume LoRAs, til en enkelt video-generering)

4: Adgang til ‘menneske-eksperimentet’

Som jeg for nylig observerede, synes den proprietære og FAANG-niveau generative AI-sektor nu at være så forsigtig med potentiel kritik relateret til de menneske-syntese-kapaciteter af deres projekter, at rigtige mennesker sjældent optræder i projekt-sider for store bekendtgørelser og udgivelser. I stedet tenderer relateret publicity-litteratur til at vise ‘søde’ og ellers ‘ikke-truende’ emner i syntetiserede resultater.

Med indførelsen af Hunyuan LoRAs har fællesskabet for første gang en mulighed for at udvide grænserne for LDM-baseret menneske-video-syntese i et højt kapabelt (i stedet for marginalt) system, og fuldt ud at udforske det emne, der interesserer de fleste af os – mennesker.

Konsekvenser

Da en søgning efter ‘Hunyuan’ på Civit-fællesskabet mest viser celebritets LoRAs og ‘hardcore’ LoRAs, er den centrale konsekvens af indførelsen af Hunyuan LoRAs, at de vil blive brugt til at oprette AI-pornografiske (eller ellers ærekrænkende) videoer af rigtige mennesker – celebriteter og ukendte alike.

Til overholdelse af reglerne er hobbyisterne, der opretter Hunyuan LoRAs og eksperimenterer med dem på diverse Discord-servere, omhyggelige med at forbyde eksempler på rigtige mennesker fra at blive offentliggjort. Virkeligheden er, at selv billed-baserede deepfakes nu er alvorligt våbenlæssede; og udsigten til at tilføje virkelig realistiske videoer til blandingen kan endelig retfærdiggøre de forhøjede frygt, der har været tilbagevendende i medierne over de sidste syv år, og som har udløst nye reguleringer.

Den drivende kraft

Som altid er porn den drivende kraft for teknologi. Uanset vores mening om en sådan brug, driver denne uafbrudte kraft fremgang i tilstanden for kunsten, der kan til sidst komme til at gavne mere mainstream-accept.

I dette tilfælde er det muligt, at prisen vil være højere end normalt, da open-sourcing af hyper-realistisk video-oprettelse har åbenlyse implikationer for kriminel, politisk og etisk misbrug.

En Reddit-gruppe (som jeg ikke vil nævne her) dedikeret til AI-generering af NSFW-video-indhold har en tilhørende, åben Discord-server, hvor brugere forbedrer ComfyUI-arbejdsprocesser for Hunyuan-baseret video-porn-generering. Dagligt offentliggør brugere eksempler på NSFW-klip – mange af dem kan rimeligt betegnes som ‘ekstreme’ eller i hvert fald stræber efter at udvide begrænsningerne i forum-reglerne.

Denne fællesskab vedligeholder også en betydelig og veludviklet GitHub-repository med værktøjer, der kan downloade og behandle pornografiske videoer, for at give træningsdata til nye modeller.

Da den mest populære LoRA-træner, Kohya-ss, nu understøtter Hunyuan LoRA-træning, sænkes barriererne for ubegrænset generativ video-træning dagligt, sammen med hardware-kravene for Hunyuan-træning og video-generering.

Den afgørende aspekt af dedikeret træningsskemaer for porn-baseret AI (i stedet for identitets-baserede modeller, såsom celebriteter) er, at en standard grund-model som Hunyuan ikke er specifikt trænet på NSFW-udsalg, og kan derfor enten opføre sig dårligt, når den bedes om at generere NSFW-indhold, eller fejle i at disentangle lært koncepter og associationer på en performant eller overbevisende måde.

Ved at udvikle finjusterede NSFW-grundmodeller og LoRAs vil det være muligt at projicere trænede identiteter ind i en dedikeret ‘porn’-video-domæne; efter alt, dette er kun video-versionen af noget, der allerede er sket for statiske billeder over de sidste to og en halv år.

VFX

Den enorme forbedring af temporal konsistens, som Hunyuan Video LoRAs tilbyder, er en åbenbar fordel for AI-visuelle effekter-industrien, der læner sig tungt på tilpasning af open source-software.

Selvom en Hunyuan Video LoRA-tilgang genererer en hel ramme og miljø, har VFX-virksomheder sandsynligvis allerede begyndt at eksperimentere med at isolere de temporal-konsistente ansigter, der kan opnås ved denne metode, for at påføre eller integrere ansigter i virkelige kilde-optagelser.

Ligesom hobbyist-fællesskabet må VFX-virksomheder vente på Hunyuan Videos billed-til-video og video-til-video-funktionalitet, som potentielt er den mest nyttige bro mellem LoRA-drevet, ID-baseret ‘deepfake’-indhold; eller også improvisere og bruge intervallet til at udforske de ydre evner af rammen og af potentielle tilpasninger, og endda proprietære interne forks af Hunyuan Video.

Selvom licens-vilkårene for Hunyuan Video teknisk set tillader afbildning af rigtige personer, så længe tilladelse gives, forbuder de brug i EU, Storbritannien og i Sydkorea. Dette betyder ikke nødvendigvis, at Hunyuan Video ikke vil blive brugt i disse regioner; dog kan udsigten til eksterne data-audit, for at gennemtvinge en voksende reguleringer omkring generative AI, gøre en sådan ulovlig brug risikabel.

En anden potentielt tvetydig område i licens-vilkårene angiver:

‘Hvis, på Tencents Hunyuan-version-udgivelsesdato, de månedlige aktive brugere af alle produkter eller tjenester, der er tilgængelige for eller af licenshaveren, er større end 100 millioner månedlige aktive brugere i den foregående kalendermåned, skal du anmode om en licens fra Tencent, som Tencent kan give til dig efter eget skøn, og du er ikke berettiget til at udøve nogen af rettighederne under denne aftale, medmindre eller indtil Tencent udtrykkeligt giver dig disse rettigheder.’

Denne klausul er åbenbart rettet mod den mangfoldighed af virksomheder, der sandsynligvis vil ‘mellemlande’ Hunyuan Video for en relativt teknisk ukyndig gruppe af brugere, og som vil blive pålagt at give Tencent en del af aktionen, over en bestemt loft af brugere.

Hvorvidt den brede formulering også kan dække indirekte brug (dvs. via tilbud af Hunyuan-aktiveret visuel effekt-udsalg i populære film og tv-serier) kan kræve klarhed.

Konklusion

Da deepfake-video har eksisteret i lang tid, ville det være let at undervurdere betydningen af Hunyuan Video LoRA som en tilgang til identitetssyntese og deepfaking; og at antage, at de udviklinger, der for tiden manifestere sig på Civit-fællesskabet, og på relaterede Discords og subreddits, repræsenterer en blot marginel skubbe mod virkelig kontrollerbar menneske-video-syntese.

Mere sandsynligt er, at de nuværende bestræbelser kun repræsenterer en brøkdel af Hunyuan Videos potentiale til at skabe fuldstændigt overbevisende fuld-krop- og fuld-miljø deepfakes; når billed-til-video-komponenten udgives (rygtes at ske denne måned), vil et langt mere granuleret niveau af generativ kraft blive tilgængeligt for både hobbyist- og professionelle fællesskaber.

Når Stability.ai udgav Stable Diffusion i 2022, kunne mange iagttagere ikke bestemme, hvorfor virksomheden ville give væk noget, der på det tidspunkt var så værdifuldt og kraftfuldt et generativt system. Med Hunyuan Video er profitmotiven bygget direkte ind i licensen – selvom det kan vise sig svært for Tencent at bestemme, hvornår en virksomhed udløser profit-delings-skemaet.

I hvert fald er resultatet det samme, som det var i 2022: dedikeret udvikler-fællesskaber har dannet sig straks og med intens iværksætter-iver omkring udgivelsen. Nogle af de veje, disse bestræbelser vil tage i de næste 12 måneder, er sandsynligvis sat til at fremkalde nye overskrifter.

 

* Op til 136 på tidspunktet for offentliggørelse.

Først offentliggjort tirsdag, 7. januar 2025

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.