Intelligenza artificiale
L’ascesa dei video deepfake Hunyuan

A causa della natura di alcuni dei materiali discussi qui, questo articolo conterrà meno collegamenti di riferimento e illustrazioni del solito.
Qualcosa di degno di nota sta attualmente accadendo nella comunità di sintesi AI, anche se la sua importanza potrebbe richiedere un po’ di tempo per diventare chiara. Gli appassionati stanno addestrando modelli di video generativi AI per riprodurre le somiglianze di persone, utilizzando video-based LoRAs su Tencent’s recentemente rilasciato open source Hunyuan Video framework.*
Click to play. Risultati diversi dalle personalizzazioni Hunyuan-based LoRA disponibili gratuitamente nella comunità Civit. Addestrando modelli di adattamento a basso rango (LoRAs), le problematiche relative alla stabilità temporale, che hanno afflitto la generazione di video AI per due anni, sono significativamente ridotte. Fonti: civit.ai
Nel video mostrato sopra, le somiglianze delle attrici Natalie Portman, Christina Hendricks e Scarlett Johansson, insieme al leader tecnologico Elon Musk, sono state addestrate in file di aggiornamento relativamente piccoli per il sistema di video generativo Hunyuan, che può essere installato senza filtri di contenuto (come ad esempio filtri NSFW) sul computer dell’utente.
Il creatore della LoRA di Christina Hendricks mostrata sopra afferma che sono state necessarie solo 16 immagini dalla serie TV Mad Men per sviluppare il modello (che è un download di soli 307mb); numerose pubblicazioni dalla comunità Stable Diffusion su Reddit e Discord confermano che le LoRAs di questo tipo non richiedono grandi quantità di dati di addestramento o tempi di addestramento lunghi, nella maggior parte dei casi.
Click to play. Arnold Schwarzenegger viene portato in vita in una LoRA di video Hunyuan che può essere scaricata su Civit. Vedi https://www.youtube.com/watch?v=1D7B9g9rY68 per ulteriori esempi di Arnie, da parte dell’entusiasta AI Bob Doyle.
Le LoRAs Hunyuan possono essere addestrate su immagini statiche o video, anche se l’addestramento su video richiede risorse hardware maggiori e un tempo di addestramento aumentato.
Il modello di video Hunyuan presenta 13 miliardi di parametri, superando i 12 miliardi di parametri di Sora e superando notevolmente il modello meno capace Hunyuan-DiT rilasciato come open source nell’estate del 2024, che ha solo 1,5 miliardi di parametri.
Come era il caso due anni e mezzo fa con Stable Diffusion e LoRA (vedi esempi di celebrità ‘native’ di Stable Diffusion 1.5 qui), il modello di base in questione ha una comprensione molto più limitata delle personalità delle celebrità, rispetto al livello di fedeltà che può essere ottenuto attraverso implementazioni di LoRA ‘iniettate di ID’.
In effetti, una LoRA personalizzata e focalizzata sulla personalità ottiene un ‘passaggio gratuito’ sulle significative capacità di sintesi del modello di base Hunyuan, offrendo una sintesi umana notevolmente più efficace di quanto possa essere ottenuto sia attraverso i autoencoder deepfake dell’era 2017, sia tentando di aggiungere movimento a immagini statiche attraverso sistemi come il famoso LivePortrait.
Tutte le LoRAs mostrate qui possono essere scaricate gratuitamente dalla comunità Civit, mentre il numero più abbondante di LoRAs ‘statiche’ personalizzate più vecchie può anche potenzialmente creare ‘semi’ di immagini per il processo di creazione di video (cioè immagine-per-video, una versione pendente per Hunyuan Video, anche se soluzioni alternative sono possibili, per il momento).
Click to play. Sopra, campioni da una ‘statica’ Flux LoRA; sotto, esempi da una LoRA di video Hunyuan con la musicista Taylor Swift. Entrambe queste LoRAs sono disponibili gratuitamente nella comunità Civit.
Mentre scrivo, il sito web Civit offre 128 risultati di ricerca per ‘Hunyuan’*; quasi tutti questi sono in qualche modo modelli NSFW; 22 ritraggono celebrità; 18 sono progettati per facilitare la generazione di pornografia hard; e solo sette di essi ritraggono uomini invece di donne.
Cosa c’è di nuovo?
A causa della natura in evoluzione del termine deepfake, e della limitata comprensione pubblica delle (molto severe) limitazioni dei framework di sintesi video umana AI fino ad oggi, il significato della LoRA Hunyuan non è facile da capire per una persona che segue casualmente la scena generativa AI. Vediamo alcune delle principali differenze tra le LoRAs Hunyuan e gli approcci precedenti alla generazione di video AI basata sull’identità.
1: Installazione locale senza vincoli
L’aspetto più importante di Hunyuan Video è il fatto che può essere scaricato localmente, e che mette un sistema di generazione di video AI molto potente e senza censura nelle mani dell’utente casuale, così come della comunità VFX (nella misura in cui le licenze possono essere concesse attraverso regioni geografiche).
L’ultima volta che questo è successo è stato con l’avvento del rilascio open source del modello Stable Diffusion di Stability.ai nell’estate del 2022. In quel momento, OpenAI’s DALL-E2 aveva catturato l’immaginazione pubblica, anche se DALLE-2 era un servizio a pagamento con notevoli restrizioni (che sono cresciute nel tempo).
Quando Stable Diffusion è diventata disponibile, e la Low-Rank Adaptation ha reso possibile generare immagini dell’identità di qualsiasi persona (celebrità o no), il grande locus di interesse degli sviluppatori e dei consumatori ha aiutato Stable Diffusion a eclissare la popolarità di DALLE-2; anche se quest’ultimo era un sistema più capace fuori dalla scatola, le sue routine di censura sono state viste come onerose da molti dei suoi utenti, e la personalizzazione non era possibile.
Arguably, la stessa scenariato si applica ora tra Sora e Hunyuan – o, più precisamente, tra sistemi generativi video proprietari di livello Sora e rivali open source, dei quali Hunyuan è il primo – ma probabilmente non l’ultimo (qui, considera che Flux alla fine guadagnerà terreno significativo su Stable Diffusion).
Gli utenti che desiderano creare output LoRA Hunyuan, ma che mancano di attrezzature efficaci, possono, come sempre, scaricare l’aspetto GPU dell’addestramento a servizi di calcolo online come RunPod. Ciò non è lo stesso che creare video AI su piattaforme come Kaiber o Kling, poiché non è coinvolta alcuna censura semantica o basata su immagini (censura) nell’affittare un GPU online per supportare un flusso di lavoro altrimenti locale.
2: Nessun bisogno di ‘video host’ e alto sforzo
Quando i deepfake sono emersi sulla scena alla fine del 2017, il codice pubblicato in forma anonima si sarebbe evoluto nei fork mainstream DeepFaceLab e FaceSwap (nonché nel sistema di deepfaking in tempo reale DeepFaceLive).
Questo metodo richiedeva la cura meticolosa di migliaia di immagini di viso di ciascuna identità da scambiare; meno sforzo veniva messo in questa fase, meno efficace sarebbe stato il modello. Inoltre, i tempi di addestramento variavano tra 2-14 giorni, a seconda dell’hardware disponibile, stressando anche sistemi capaci nel lungo termine.
Una volta che il modello era finalmente pronto, poteva solo imporre visi in video esistenti e di solito aveva bisogno di un ‘bersaglio’ (cioè un’identità reale) che fosse vicino in apparenza all’identità sovrapposta.
Più recentemente, ROOP, LivePortrait e numerosi framework simili hanno fornito funzionalità simili con molto meno sforzo e spesso con risultati superiori – ma senza alcuna capacità di generare deepfake full-body accurati – o qualsiasi elemento diverso dai visi.

Esempi di ROOP Unleashed e LivePortrait (inset in basso a sinistra), dal flusso di contenuti di Bob Doyle su YouTube. Fonti: https://www.youtube.com/watch?v=i39xeYPBAAM e https://www.youtube.com/watch?v=QGatEItg2Ns
Al contrario, le LoRAs Hunyuan (e i sistemi simili che inevitabilmente seguiranno) consentono la creazione senza vincoli di interi mondi, compresa la simulazione full-body dell’identità LoRA addestrata dall’utente.
3: Coerenza temporale notevolmente migliorata
La coerenza temporale è stata il Santo Graal della diffusione video per diversi anni ormai. L’uso di una LoRA, insieme a prompt appropriati, dà alla generazione di video Hunyuan un riferimento di identità costante a cui attenersi. In teoria (questi sono giorni precoci), si potrebbe addestrare più LoRAs di una particolare identità, ciascuna con abbigliamento specifico.
In tali circostanze, l’abbigliamento è anche meno probabile che ‘muti’ nel corso della generazione del video (poiché il sistema generativo si basa su una finestra di fotogrammi precedenti molto limitata).
(Alternativamente, come nei sistemi di LoRA basati su immagini, si può semplicemente applicare più LoRAs, come ad esempio identità + LoRAs di costume, a una singola generazione di video)
4: Accesso all’esperimento ‘umano’
Come ho recentemente osservato, il settore generativo AI proprietario e di livello FAANG sembra ora essere così guardinga nei confronti delle potenziali critiche relative alle capacità di sintesi umana dei suoi progetti, che le persone reali raramente appaiono nelle pagine dei progetti per importanti annunci e rilasci. Invece, la letteratura pubblicitaria correlata tende sempre più a mostrare soggetti ‘carini’ e ‘non minacciosi’ in risultati sintetizzati.
Con l’avvento delle LoRAs Hunyuan, per la prima volta, la comunità ha l’opportunità di spingere i limiti della sintesi video umana basata su LDM in un sistema molto capace (piuttosto che marginale), e di esplorare appieno l’argomento che più interessa la maggior parte di noi – le persone.
Implicazioni
Poiché una ricerca per ‘Hunyuan’ nella comunità Civit mostra principalmente LoRAs di celebrità e ‘hardcore’, la principale implicazione dell’avvento delle LoRAs Hunyuan è che verranno utilizzate per creare video pornografici AI (o altrimenti diffamatori) di persone reali – celebrità e sconosciuti.
Per scopi di conformità, gli appassionati che creano LoRAs Hunyuan e che sperimentano con esse su diverse server Discord sono attenti a vietare esempi di persone reali da essere pubblicati. La realtà è che anche i deepfake basati su immagini sono ora severamente armati; e la prospettiva di aggiungere video realistici veramente realistici al mix potrebbe finalmente giustificare le paure aumentate che sono state ricorrenti nei media negli ultimi sette anni, e che hanno promosso nuove regolamentazioni.
La forza trainante
Come sempre, la pornografia rimane la forza trainante per la tecnologia. Qualsiasi sia la nostra opinione su tale utilizzo, questo motore di impulso incessante guida gli avanzamenti nello stato dell’arte che possono beneficiare l’adozione più mainstream.
In questo caso, è possibile che il prezzo sarà più alto del solito, poiché l’open-sourcing della creazione di video iperrealistici ha implicazioni ovvie per l’abuso criminale, politico ed etico.
Un gruppo Reddit (che non nomino qui) dedicato alla generazione di video NSFW AI ha un server Discord aperto associato dove gli utenti stanno raffinando ComfyUI workflow per la generazione di video pornografici basati su Hunyuan. Quotidianamente, gli utenti pubblicano esempi di clip NSFW – molti dei quali possono ragionevolmente essere definiti ‘estremi’, o almeno tendenti a superare le restrizioni dichiarate nelle regole del forum.
Questa comunità mantiene anche un sostanziale e ben sviluppato repository GitHub che presenta strumenti che possono scaricare e elaborare video pornografici, per fornire dati di addestramento per nuovi modelli.
Poiché il trainer LoRA più popolare, Kohya-ss, supporta ora l’addestramento LoRA Hunyuan, le barriere all’ingresso per l’addestramento di video generativo senza limiti stanno calando quotidianamente, insieme ai requisiti hardware per l’addestramento e la generazione di video Hunyuan.
L’aspetto cruciale degli schemi di addestramento dedicati per l’AI pornografica (piuttosto che modelli basati sull’identità, come le celebrità) è che un modello di base standard come Hunyuan non è addestrato specificamente su output NSFW, e potrebbe quindi o eseguire male quando richiesto di generare contenuto NSFW, o fallire nel disentanglement dei concetti e delle associazioni apprese in modo convincente.
Sviluppando modelli di base NSFW e LoRAs fine-tuned, sarà sempre più possibile proiettare identità addestrate in un dominio di video ‘porn’ dedicato; dopotutto, questo è solo la versione video di qualcosa che è già accaduto per le immagini fisse negli ultimi due anni e mezzo.
VFX
Il grande aumento della coerenza temporale che le LoRAs di video Hunyuan offrono è un ovvio vantaggio per l’industria AI dei visual effects, che si appoggia molto all’adattamento di software open source.
Anche se un approccio LoRA Hunyuan Video genera un intero fotogramma e ambiente, le società VFX hanno quasi certamente iniziato a sperimentare l’isolamento dei visi umani temporale-coerenti che possono essere ottenuti con questo metodo, al fine di sovrapporre o integrare i visi in footage di fonti reali.
Come la comunità degli appassionati, le società VFX devono attendere la funzionalità di immagine-per-video e video-per-video di Hunyuan Video, che è potenzialmente il ponte più utile tra contenuto ‘deepfake’ basato su LoRA e ID; o improvvisare, e utilizzare l’intervallo per sondare le capacità esterne del framework e delle potenziali adattazioni, e persino fork proprietari di Hunyuan Video.
Anche se i termini della licenza per Hunyuan Video consentono tecnicamente la rappresentazione di individui reali, a condizione che venga data l’autorizzazione, vietano il suo utilizzo nell’UE, Regno Unito e in Corea del Sud. Su il principio ‘rimane a Las Vegas’, ciò non significa necessariamente che Hunyuan Video non verrà utilizzato in queste regioni; tuttavia, la prospettiva di audit di dati esterni, per far rispettare una regolamentazione in crescita intorno all’AI generativa, potrebbe rendere tale utilizzo illecito rischioso.
Un’altra area potenzialmente ambigua dei termini della licenza afferma:
‘Se, alla data di rilascio della versione Tencent Hunyuan, gli utenti attivi mensili di tutti i prodotti o servizi resi disponibili da o per il titolare della licenza sono più di 100 milioni di utenti attivi mensili nel mese di calendario precedente, è necessario richiedere una licenza a Tencent, che Tencent può concedere a sua esclusiva discrezione, e non si è autorizzati a esercitare alcuno dei diritti ai sensi di questo Accordo, a meno che e fino a quando Tencent non conceda tali diritti in modo espresso.’
Questa clausola è chiaramente rivolta alla moltitudine di società che probabilmente ‘intermedieranno’ Hunyuan Video per un corpo di utenti relativamente tecnologicamente analfabeti, e che saranno tenute a far partecipare Tencent all’azione, al di sopra di un certo tetto di utenti.
Se la formulazione ampia potrebbe anche coprire l’uso indiretto (ad esempio, tramite la fornitura di output di effetti visivi abilitati Hunyuan in film e programmi TV popolari) potrebbe aver bisogno di chiarimenti.
Conclusione
Poiché i video deepfake esistono da molto tempo, sarebbe facile sottovalutare l’importanza della LoRA Hunyuan Video come approccio alla sintesi dell’identità e al deepfaking; e supporre che gli sviluppi attualmente manifesti nella comunità Civit, e nei relativi Discord e subreddit, rappresentino un semplice incremento verso una sintesi video umana veramente controllabile.
È più probabile che gli sforzi attuali rappresentino solo una frazione del potenziale di Hunyuan Video per creare deepfake full-body e full-ambiente completamente convincenti; una volta che il componente immagine-per-video verrà rilasciato (si dice che ciò accadrà questo mese), un livello di generazione molto più granulare sarà disponibile per entrambe le comunità di appassionati e professionisti.
Quando Stability.ai ha rilasciato Stable Diffusion nel 2022, molti osservatori non potevano determinare perché la società stesse regalando un sistema generativo così potente e prezioso. Con Hunyuan Video, il motivo del profitto è costruito direttamente nella licenza – anche se potrebbe rivelarsi difficile per Tencent determinare quando una società attiva lo schema di condivisione dei profitti.
In ogni caso, il risultato è lo stesso di quanto accaduto nel 2022: le comunità di sviluppo dedicate si sono formate immediatamente e con fervore intenso intorno al rilascio. Alcuni dei percorsi che questi sforzi prenderanno nei prossimi 12 mesi sono sicuramente destinati a suscitare nuovi titoli.
* Fino a 136 al momento della pubblicazione.
Pubblicato per la prima volta martedì, 7 gennaio 2025










