Artificiell intelligens
Hunyuan Video Deepfakes Uppgång

På grund av arten av viss del av materialet som diskuteras här, kommer denna artikel att innehålla färre referenslänkar och illustrationer än vanligt.
Något anmärkningsvärt händer just nu i AI-syntesgemenskapen, även om dess betydelse kan ta en stund att bli tydlig. Hobbyister tränar generativa AI-videomodeller för att reproducera likheter av människor, med hjälp av video-baserade LoRAs på Tencents nyligen släppta öppen källkods Hunyuan Video-ramverk.*
Klicka för att spela. Varierande resultat från Hunyuan-baserade LoRA-anpassningar fritt tillgängliga i Civit-gemenskapen. Genom att träna låg-rank-adaptationsmodeller (LoRAs), minskas problemen med tidsmässig stabilitet, som har plågat AI-videogenerering i två år, betydligt. Källor: civit.ai
I videon ovan har likheterna av skådespelerskorna Natalie Portman, Christina Hendricks och Scarlett Johansson, tillsammans med tech-ledaren Elon Musk, tränats in i relativt små tilläggsfiler för Hunyuan-generativa videosystemet, som kan installeras utan innehållsfilter (såsom NSFW-filter) på en användares dator.
Skaparen av Christina Hendricks LoRA ovan påstår att endast 16 bilder från Mad Men-TV-serien behövdes för att utveckla modellen (som är enbart 307mb nedladdning); flera inlägg från Stable Diffusion-gemenskapen på Reddit och Discord bekräftar att LoRAs av denna typ inte kräver stora mängder träningsdata eller långa träningstider i de flesta fall.
Clicka för att spela. Arnold Schwarzenegger kommer till liv i en Hunyuan-videoloRA som kan laddas ner på Civit. Se https://www.youtube.com/watch?v=1D7B9g9rY68 för ytterligare Arnie-exempel, från AI-entusiasten Bob Doyle.
Hunyuan LoRAs kan tränas på antingen statiska bilder eller videor, även om träningsprocessen på videor kräver större hårdvaruresurser och ökad träningstidsåtgång.
Hunyuan Video-modellen har 13 miljarder parametrar, vilket överstiger Soras 12 miljarder parametrar och vida överstiger den mindre kapabla Hunyuan-DiT-modellen som släpptes som öppen källkod sommaren 2024, som endast har 1,5 miljarder parametrar.
Liksom det var fallet för två och ett halvt år sedan med Stable Diffusion och LoRA (se exempel på Stable Diffusion 1.5:s ‘inbyggda’ kändisar här), har grundmodellen i fråga en långt mer begränsad förståelse för kändispersonligheter, jämfört med den nivå av trohet som kan erhållas genom ‘ID-injicerade’ LoRA-implementationer.
Effektivt sett får en anpassad, personlighetsfokuserad LoRA en ‘gratis resa’ på den betydande syntesförmågan hos grundmodellen Hunyuan, och erbjuder en påtagligt mer effektiv mänsklig syntes än vad som kan erhållas antingen genom 2017 års autoencoder-deepfakes eller genom att lägga till rörelse till statiska bilder via system som det berömda LivePortrait.
Alla LoRAs som visas här kan laddas ner fritt från den mycket populära Civit-gemenskapen, medan den mer omfattande mängden äldre anpassade ‘statiska-bild’-LoRAs också potentiellt kan skapa ‘frö’-bilder för videokreationsprocessen (dvs. bild-till-video, en planerad release för Hunyuan Video, även om lösningar är möjliga för tillfället).
Klicka för att spela. Ovan, prover från en ‘statisk’ Flux LoRA; nedan, exempel från en Hunyuan-videoloRA med musikern Taylor Swift. Båda dessa LoRAs är fritt tillgängliga i Civit-gemenskapen.
När jag skriver, erbjuder Civit-webbplatsen 128 sökresultat för ‘Hunyuan’*. Nästan alla av dessa är på något sätt NSFW-modeller; 22 avbildar kändisar; 18 är utformade för att underlätta generering av hårdporr; och endast sju av dem avbildar män snarare än kvinnor.
Vad är nytt?
På grund av den utvecklande naturen av termen deepfake, och den begränsade allmänna förståelsen av (de ganska allvarliga) begränsningarna av AI-mänsklig videosyntesramverk hittills, är betydelsen av Hunyuan LoRA inte lätt att förstå för en person som följer den generativa AI-scenen på ett ledigt sätt. Låt oss gå igenom några av de viktigaste skillnaderna mellan Hunyuan LoRAs och tidigare tillvägagångssätt för identitetsbaserad AI-videogenerering.
1: Obegränsad lokal installation
Det viktigaste aspekten av Hunyuan Video är det faktum att det kan laddas ner lokalt, och att det ger en mycket kraftfull och ocensurerad AI-videogenereringssystem i händerna på den ovanliga användaren, samt VFX-gemenskapen (i den utsträckning som licenser kan tillåta över geografiska regioner).
Den senaste gången detta hände var vid lanseringen av Stability.ai Stable Diffusion-modellen sommar 2022. Vid den tiden hade OpenAI:s DALL-E2 fångat den allmänna fantasin, även om DALLE-2 var en betald tjänst med anmärkningsvärda begränsningar (som växte över tiden).
När Stable Diffusion blev tillgänglig, och Low-Rank Adaptation sedan gjorde det möjligt att generera bilder av identiteten hos varje person (kändis eller inte), hjälpte den enorma locus av utvecklare och konsumentintresse Stable Diffusion att överträffa populariteten hos DALLE-2; även om den senare var ett mer kapabelt system ur lådan, sågs dess censurrutiner som betungande av många av dess användare, och anpassning var inte möjlig.
Man kan hävda att samma scenario nu gäller mellan Sora och Hunyuan – eller, mer exakt, mellan Sora-grad proprietära generativa videosystem, och öppen källkods-rivaler, av vilka Hunyuan är den första – men förmodligen inte den sista (här, överväg att Flux skulle så småningom vinna betydande mark på Stable Diffusion).
Användare som vill skapa Hunyuan LoRA-utdata, men som saknar effektivt kraftfull utrustning, kan, som alltid, avlasta GPU-aspekten av träningsprocessen till online-beräkningstjänster såsom RunPod. Detta är inte detsamma som att skapa AI-videor på plattformar som Kaiber eller Kling, eftersom det inte finns någon semantisk eller bildbaserad filtrering (censur) inblandad i att hyra en online-GPU för att stödja en annars lokal arbetsflöde.
2: Inget behov av ‘värd’-videor och hög ansträngning
När deepfakes bröt ut på scenen i slutet av 2017, skulle den anonymt publicerade koden utvecklas till de etablerade grenarna DeepFaceLab och FaceSwap (samt DeepFaceLive realtids-deepfaking-systemet).
Denna metod krävde den mödosamma kureringen av tusentals ansiktsbilder av varje identitet som skulle bytas ut; ju mindre ansträngning som lades ner på detta stadium, desto mindre effektivt skulle modellen vara. Dessutom varierade träningstider mellan 2-14 dagar, beroende på tillgänglig hårdvara, och stressade till och med kapabla system på lång sikt.
När modellen slutligen var klar, kunde den endast påtvinga ansikten i befintliga videor, och behövde vanligtvis en ‘mål’ (dvs. riktig) identitet som var nära i utseende till den påtvingade identiteten.
Mer nyligen har ROOP, LivePortrait och liknande ramverk tillhandahållit liknande funktionalitet med mycket mindre ansträngning, och ofta med överlägsna resultat – men med ingen kapacitet att generera exakta fullkroppsdeepfakes – eller någon annan komponent än ansikten.

Exempel på ROOP Unleashed och LivePortrait (insett nedre vänster), från Bob Doyles innehållsström på YouTube. Källor: https://www.youtube.com/watch?v=i39xeYPBAAM och https://www.youtube.com/watch?v=QGatEItg2Ns
I kontrast till detta tillåter Hunyuan LoRAs (och liknande system som oundvikligen kommer att följa) skapandet av hela världar, inklusive fullkroppssimulering av den användartränade LoRA-identiteten.
3: Massivt förbättrad tidsmässig konsekvens
Tidsmässig konsekvens har varit den heliga graal för diffusion video under flera år nu. Användningen av en LoRA, tillsammans med lämpliga prompter, ger en Hunyuan-videogenerering en konstant identitetsreferens att följa. I teorin (detta är tidiga dagar) kunde man träna flera LoRAs av en specifik identitet, var och en iklädd specifika kläder.
Under dessa auspices är kläder mindre benägna att ‘mutera’ under videogenereringsprocessen (eftersom det generativa systemet baserar nästa bildruta på ett mycket begränsat fönster av föregående bildrutor).
(Alternativt, som med bildbaserade LoRA-system, kan man enkelt tillämpa flera LoRAs, såsom identitet + kostym LoRAs, på en enda videogenerering)
4: Tillgång till ‘människoexperimentet’
Som jag nyligen observerade, verkar den proprietära och FAANG-nivå generativa AI-sektorn nu vara så rädd för potentiell kritik relaterad till de mänskliga syntesförmågorna hos dess projekt, att faktiska människor sällan visas i projektsidor för stora tillkännagivanden och utgåvor. Istället tenderar relaterad publicistlitteratur alltmer att visa ‘söta’ och andra ‘icke-hotande’ ämnen i syntetiserade resultat.
Med lanseringen av Hunyuan LoRAs, för första gången, har gemenskapen möjlighet att driva gränserna för LDM-baserad mänsklig videosyntes i ett mycket kapabelt (snarare än marginellt) system, och att fullständigt utforska det ämne som intresserar de flesta av oss – människor.
Konsekvenser
Eftersom en sökning efter ‘Hunyuan’ i Civit-gemenskapen mest visar kändis-LoRAs och ‘hårdporr’-LoRAs, är den centrala konsekvensen av lanseringen av Hunyuan LoRAs att de kommer att användas för att skapa AI-porografiska (eller på annat sätt förtalande) videor av riktiga människor – kändisar och okända lika.
För efterlevnadssyften är hobbyisterna som skapar Hunyuan LoRAs och som experimenterar med dem på diverse Discord-servrar och subreddits, försiktiga med att förbjuda exempel på riktiga människor från att publiceras. Verkligheten är att även bild-baserade deepfakes nu allvarligt vapenförts; och utsikten att lägga till verkligt realistiska videor i mixen kan slutligen motivera de förhöjda farhågor som har varit återkommande i media under de senaste sju åren, och som har utlöst nya regleringar.
Den drivande kraften
Som alltid förblir porr den drivande kraften för teknologi. Oavsett vår uppfattning om ett sådant användande, driver denna outtröttliga kraft för teknologisk framsteg som kan slutligen gynna mer mainstream-användning.
I det här fallet är det möjligt att priset kommer att vara högre än vanligt, eftersom öppen källkods-licensiering av hyperrealistisk videokreation har uppenbara konsekvenser för brottslig, politisk och etisk missbruk.
En Reddit-grupp (som jag inte kommer att nämna här) dedikerad till AI-generering av NSFW-videoinnehåll har en associerad, öppen Discord-server där användare förfinar ComfyUI-arbetsflöden för Hunyuan-baserad videoporrgenerering. Dagligen publicerar användare exempel på NSFW-klipp – många av vilka kan rimligtvis betecknas som ‘extrema’, eller åtminstone anstränga begränsningarna som anges i forumregler.
Denna gemenskap underhåller också ett betydande och välutvecklat GitHub-repo som innehåller verktyg som kan ladda ner och bearbeta pornografiska videor, för att tillhandahålla träningsdata för nya modeller.
Eftersom den mest populära LoRA-tränaren, Kohya-ss, nu stöder Hunyuan LoRA-träning, sänks barriärerna för obegränsad generativ videoträning dagligen, tillsammans med hårdvarukraven för Hunyuan-träning och videogenerering.
Den avgörande aspekten av dedikerade träningsscheman för porr-baserad AI (snarare än identitets-baserade modeller, såsom kändisar) är att en standard grundmodell som Hunyuan inte är specifikt tränad på NSFW-utdata, och kan därför antingen prestera dåligt när den begärs att generera NSFW-innehåll, eller misslyckas med att avskilja lärd koncept och associationer på ett presterande eller övertygande sätt.
Genom att utveckla finjusterade NSFW-grundmodeller och LoRAs, kommer det att bli alltmer möjligt att projicera tränade identiteter in i en dedikerad ‘porr’-videodomän; efter allt, detta är bara videoversionen av något som redan har inträffat för stillbilder under de senaste två och ett halvt åren.
VFX
Den enorma ökningen av tidsmässig konsekvens som Hunyuan Video LoRAs erbjuder är en uppenbar fördel för den AI-visuella effektindustrin, som lutar sig tungt på anpassning av öppen källkod.
Även om en Hunyuan Video LoRA-approach genererar en hel bildruta och miljö, har VFX-företag förmodligen redan börjat experimentera med att isolera de tidsmässigt konsekventa ansikten som kan erhållas med denna metod, för att påtvinga eller integrera ansikten i verkliga källvideor.
Liksom hobbyist-gemenskapen, måste VFX-företag vänta på Hunyuan Videos bild-till-video och video-till-video-funktionalitet, som potentiellt är den mest användbara bron mellan LoRA-driven, ID-baserad ‘deepfake’-innehåll; eller också improvisera, och använda intervallet för att undersöka de yttre förmågorna hos ramverket och eventuella anpassningar, och till och med proprietära in-house-grenar av Hunyuan Video.
Även om licensvillkoren för Hunyuan Video tekniskt sett tillåter avbildningen av riktiga individer så länge tillstånd ges, förbjuder de dess användning i EU, Storbritannien och i Sydkorea. På ‘stays in Vegas’-principen, betyder detta inte nödvändigtvis att Hunyuan Video inte kommer att användas i dessa regioner; dock kan utsikten till externa datarevisioner, för att verkställa en växande reglering kring generativ AI, göra ett sådant otillåtet användande riskabelt.
En annan potentiellt tvetydig område i licensvillkoren anger:
‘Om, på Tencent Hunyuan-versionens släppdatum, de månatliga aktiva användarna av alla produkter eller tjänster som görs tillgängliga av eller för licenstagaren är större än 100 miljoner månatliga aktiva användare i den föregående kalendermånaden, måste du begära en licens från Tencent, som Tencent kan bevilja dig efter eget gottfinnande, och du är inte behörig att utöva någon av rättigheterna enligt detta avtal såvida eller tills Tencent uttryckligen beviljar dig sådana rättigheter.’
Denna klausul är tydligt riktad mot den mångfald av företag som sannolikt kommer att ‘mellanhandla’ Hunyuan Video för en relativt tekniskt outvecklad grupp användare, och som kommer att krävas för att ge Tencent en andel i verksamheten, ovanför en viss tak för användare.
Om den breda formuleringen också kan omfatta indirekt användning (dvs. via tillhandahållande av Hunyuan-aktiverade visuella effekter i populära filmer och TV-serier) kan behöva förtydligas.
Slutsats
Eftersom deepfake-video har funnits under lång tid, vore det lätt att underskatta betydelsen av Hunyuan Video LoRA som ett tillvägagångssätt för identitetssyntes och deepfaking; och att anta att de utvecklingar som för närvarande manifesteras i Civit-gemenskapen, och på relaterade Discords och subreddits, representerar enbart en marginell knuff mot riktigt kontrollerbar mänsklig videosyntes.
Mer troligt är att de nuvarande ansträngningarna endast representerar en bråkdel av Hunyuan Videos potential att skapa helt övertygande fullkropps- och fullmiljö-deepfakes; när bild-till-video-komponenten släpps (ryktas att ske den här månaden), kommer en långt mer granulär nivå av generativ kraft att bli tillgänglig för både hobbyist- och proffsgemenskaperna.
När Stability.ai släppte Stable Diffusion 2022, kunde många observatörer inte bestämma varför företaget skulle ge bort vad som då var ett så värdefullt och kraftfullt generativt system. Med Hunyuan Video är vinstmotivet byggt direkt in i licensen – även om det kan visa sig svårt för Tencent att bestämma när ett företag utlöser vinstdelningsschemat.
I vilket fall som helst, är resultatet detsamma som det var 2022: dedikerade utvecklingsgemenskaper har bildats omedelbart och med intensiv iver kring släppet. Några av de vägar som dessa ansträngningar kommer att ta under de kommande 12 månaderna är säkerligen på väg att framkalla nya rubriker.
* Upp till 136 vid tidpunkten för publicering.
Publicerad första gången tisdag, 7 januari 2025










