Seguici sui social

Intelligenza Artificiale

L'ascesa dei video deepfake di Hunyuan

mm

Pubblicato il

 on

Un video LoRA di Arnie Hunyuan dimostrato da Bob Doyle, su ComfyUI, su YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) e, nell'inserto a destra, estratti da vari video di esempio per lo stesso LoRA su Civit.ai

Data la natura di alcuni degli argomenti trattati, questo articolo conterrà meno link di riferimento e illustrazioni del solito.

Qualcosa di degno di nota sta accadendo nella comunità di sintesi AI, anche se la sua importanza potrebbe richiedere del tempo per essere chiara. Gli hobbisti stanno addestrando modelli video AI generativi per riprodurre le sembianze delle persone, utilizzando modelli basati su video. LoRA sul codice sorgente aperto rilasciato di recente da Tencent Struttura video Hunyuan.*

Clicca per giocare. Diversi risultati dalle personalizzazioni LoRA basate su Hunyuan disponibili gratuitamente nella comunità Civit. Grazie all'addestramento di modelli di adattamento di basso livello (LoRA), i problemi di stabilità temporale, che hanno afflitto la generazione di video AI per due anni, sono stati notevolmente ridotti. Fonti: civit.ai

Nel video mostrato sopra, le sembianze delle attrici Natalie Portman, Christina Hendricks e Scarlett Johansson, insieme al leader tecnologico Elon Musk, sono state trasformate in file aggiuntivi relativamente piccoli per il sistema video generativo Hunyuan, che può essere installato senza filtri di contenuto (ad esempio filtri NSFW) sul computer di un utente.

Il creatore della LoRA di Christina Hendricks mostrata sopra afferma che solo 16 immagini della Uomini pazzi Per sviluppare il modello (il cui download è di appena 307 MB) è stato necessario uno show televisivo; numerosi post della comunità Stable Diffusion su Reddit e Discord confermano che, nella maggior parte dei casi, LoRA di questo tipo non richiedono grandi quantità di dati di addestramento o tempi di addestramento elevati.

Cleccare per giocare. Arnold Schwarzenegger prende vita in un video Hunyuan LoRA che può essere scaricato da Civit. Vedere https://www.youtube.com/watch?v=1D7B9g9rY68 per altri esempi di Arnie, dall'appassionato di IA Bob Doyle.

I LoRA di Hunyuan possono essere addestrati sia su immagini statiche che su video, anche se l'addestramento sui video richiede maggiori risorse hardware e tempi di addestramento più lunghi.

Il modello Hunyuan Video presenta 13 miliardi di parametri, superando i 12 miliardi di parametri di Sora e superando di gran lunga il modello meno capace Hunyuan-DiT modello rilasciato in open source nell'estate del 2024, che ha solo 1.5 miliardi di parametri.

Come era il caso due anni e mezzo fa con Stable Diffusion e LoRA (vedi esempi di celebrità 'native' di Stable Diffusion 1.5 qui), il modello di base in questione ha una comprensione molto più limitata delle personalità delle celebrità, rispetto al livello di fedeltà che può essere ottenuto tramite implementazioni LoRA "ID-injected".

In effetti, un LoRA personalizzato e incentrato sulla personalità ottiene un "viaggio gratuito" sulle significative capacità di sintesi del modello base Hunyuan, offrendo una sintesi umana notevolmente più efficace di quella che può essere ottenuta con l'era del 2017. autoencoder deepfake o tentando di aggiungere movimento alle immagini statiche tramite sistemi come il feted Ritratto dal vivo.

Tutti i LoRA qui raffigurati possono essere scaricati liberamente dalla popolarissima comunità Civit, mentre il numero più abbondante di vecchi LoRA "static-image" personalizzati può anche potenzialmente creare immagini "seed" per il processo di creazione video (ad esempio, da immagine a video, una versione in sospeso per Hunyuan Video, sebbene sono possibili soluzioni alternative, per il momento).

Clicca per giocare. In alto, campioni da un Flux LoRA 'statico'; in basso, esempi da un video LoRA di Hunyuan con la musicista Taylor Swift. Entrambi questi LoRA sono disponibili gratuitamente nella comunità Civit.

Mentre scrivo, il sito web Civit offre 128 risultati di ricerca per 'Hunyuan'*. Quasi tutti sono in qualche modo modelli NSFW; 22 raffigurano celebrità; 18 sono progettati per facilitare la generazione di pornografia hardcore; e solo sette di essi raffigurano uomini anziché donne.

Allora che c'è di nuovo?

Grazie alla natura in evoluzione del termine deepfake, e la limitata comprensione pubblica del (abbastanza grave) limitazioni dei framework di sintesi video umana AI fino ad oggi, il significato di Hunyuan LoRA non è facile da comprendere per una persona che segue casualmente la scena AI generativa. Esaminiamo alcune delle principali differenze tra Hunyuan LoRA e gli approcci precedenti alla generazione di video AI basata sull'identità.

1: Installazione locale senza vincoli

L'aspetto più importante di Hunyuan Video è il fatto che può essere scaricato localmente e che offre un'esperienza video molto potente e uncensored Sistema di generazione video basato sull'intelligenza artificiale nelle mani dell'utente occasionale, nonché della comunità VFX (nella misura in cui le licenze lo consentono in diverse regioni geografiche).

L'ultima volta che ciò è accaduto è stato con l'avvento del rilascio in open source del modello Stable Diffusion di Stability.ai nell'estate di 2022A quel tempo, il DALL-E2 di OpenAI aveva catturato l'immaginario pubblico, sebbene DALLE-2 fosse un servizio a pagamento con notevoli restrizioni (che aumentarono nel tempo).

Quando la diffusione stabile divenne disponibile, l'adattamento di basso rango rese possibile la generazione di immagini dell'identità di in qualsiasi persona (celebrità o meno), l'enorme interesse degli sviluppatori e dei consumatori ha aiutato Stable Diffusion a eclissare la popolarità di DALLE-2; sebbene quest'ultimo fosse un sistema più capace pronto all'uso, le sue routine di censura erano visto come oneroso da molti dei suoi utenti e la personalizzazione non era possibile.

Si potrebbe sostenere che lo stesso scenario si applichi ora tra Sora e Hunyuan – o, più precisamente, tra Grado Sora sistemi video generativi proprietari e rivali open source, di cui Hunyuan è il primo, ma probabilmente non l’ultimo (qui, considera che Flusso alla fine guadagnerebbe terreno significativo sulla diffusione stabile).

Gli utenti che desiderano creare un output Hunyuan LoRA, ma che non dispongono di apparecchiature effettivamente potenti, possono, come sempre, scaricare l'aspetto GPU dell'addestramento sui servizi di elaborazione online come RunPod. Non è la stessa cosa che creare video AI su piattaforme come Kaiber o Kling, poiché non c'è alcun filtro semantico o basato sulle immagini (censura) implicato nel noleggio di una GPU online per supportare un flusso di lavoro altrimenti locale.

2: Non c'è bisogno di video "host" e di un grande sforzo

Quando i deepfake hanno fatto irruzione sulla scena alla fine del 2017, il codice pubblicato in forma anonima si sarebbe evoluto nei fork mainstream DeepFaceLab e Cambia faccia (così come il DeepFace dal vivo sistema di deepfaking in tempo reale).

Questo metodo richiedeva la meticolosa cura di migliaia di immagini del volto di ogni identità da scambiare; meno sforzo veniva profuso in questa fase, meno efficace sarebbe stato il modello. Inoltre, i tempi di formazione variavano tra 2 e 14 giorni, a seconda dell'hardware disponibile, stressando anche i sistemi più capaci a lungo termine.

Una volta pronto il modello, era possibile solo imporre i volti al video esistente e solitamente era necessaria un'identità "target" (ovvero reale) che fosse simile nell'aspetto all'identità sovrapposta.

Più recentemente, Tetto, LivePortrait e numerosi framework simili hanno fornito funzionalità simili con molto meno sforzo e spesso con risultati superiori, ma senza la capacità di generare risultati accurati deepfake a figura intera – o qualsiasi elemento diverso dai volti.

Esempi di ROOP Unleashed e LivePortrait (riquadro in basso a sinistra), dal flusso di contenuti di Bob Doyle su YouTube. Fonti: https://www.youtube.com/watch?v=i39xeYPBAAM e https://www.youtube.com/watch?v=QGatEItg2Ns

Esempi di ROOP Unleashed e LivePortrait (riquadro in basso a sinistra), dal flusso di contenuti di Bob Doyle su YouTube. Fonti: https://www.youtube.com/watch?v=i39xeYPBAAM e https://www.youtube.com/watch?v=QGatEItg2Ns

Al contrario, i LoRA di Hunyuan (e i sistemi simili che inevitabilmente seguiranno) consentono la creazione senza limiti di mondi interi, inclusa la simulazione dell'intera figura dell'identità LoRA addestrata dall'utente.

3: Coerenza temporale notevolmente migliorata

La coerenza temporale è stata il Santo Graal di video di diffusione da diversi anni ormai. L'uso di un LoRA, insieme a prompt appropriati, fornisce a una generazione di video Hunyuan un riferimento di identità costante a cui attenersi. In teoria (siamo agli inizi), si potrebbero addestrare più LoRA di una particolare identità, ognuno con indosso indumenti specifici.

Grazie a questi auspici, anche l'abbigliamento ha meno probabilità di "mutare" nel corso della generazione di un video (poiché il sistema generativo basa il fotogramma successivo su una finestra molto limitata di fotogrammi precedenti).

(In alternativa, come con i sistemi LoRA basati sulle immagini, è possibile semplicemente applicare più LoRA, come LoRA di identità + costume, a una singola generazione video)

4: Accesso all'esperimento umano

Come io osservato di recente, il settore dell'intelligenza artificiale generativa proprietaria e di livello FAANG sembra ora essere così diffidente nei confronti delle potenziali critiche relative alle capacità di sintesi umana dei suoi progetti, che l'effettivo persone raramente compaiono nelle pagine di progetto per annunci e release importanti. Invece, la letteratura pubblicitaria correlata tende sempre più a mostrare argomenti "carini" e altrimenti "non minacciosi" nei risultati sintetizzati.

Con l'avvento di Hunyuan LoRA, per la prima volta, la comunità ha l'opportunità di ampliare i confini della sintesi video umana basata su LDM in un sistema altamente efficiente (piuttosto che marginale) e di esplorare a fondo l'argomento che più interessa alla maggior parte di noi: le persone.

Implicazioni

Poiché una ricerca per "Hunyuan" nella comunità Civit mostra principalmente LoRA di celebrità e LoRA "hardcore", l'implicazione principale dell'avvento delle LoRA di Hunyuan è che verranno utilizzate per creare video pornografici (o comunque diffamatori) di persone reali, celebrità e sconosciuti, tramite l'intelligenza artificiale.

Per motivi di conformità, gli hobbisti che creano Hunyuan LoRA e che li sperimentano su diversi server Discord sono attenti a proibire la pubblicazione di esempi di persone reali. La realtà è che anche Immagine-i deepfake basati sono ora gravemente armato; e la prospettiva di aggiungere video veramente realistici al mix potrebbe finalmente giustificare le crescenti paure che si sono ricorrenti nei media negli ultimi sette anni e che hanno spinto nuovi normativa.

La forza motrice

Come sempre, il porno resti la forza trainante della tecnologiaQualunque sia la nostra opinione su tale utilizzo, questo instancabile motore di impulso spinge i progressi nello stato dell'arte che possono in ultima analisi favorire un'adozione più diffusa.

In questo caso è possibile che il prezzo sia più alto del solito, poiché l'open source della creazione di video iperrealistici ha evidenti implicazioni di abuso criminale, politico ed etico.

Un gruppo Reddit (che non nominerò qui) dedicato alla generazione AI di contenuti video NSFW ha un server Discord associato e aperto in cui gli utenti stanno perfezionando ComodoUI flussi di lavoro per la generazione di video porno basati su Hunyuan. Ogni giorno, gli utenti pubblicano esempi di clip NSFW, molte delle quali possono essere ragionevolmente definite "estreme" o almeno che mettono a dura prova le restrizioni stabilite nelle regole del forum.

Questa comunità gestisce anche un repository GitHub consistente e ben sviluppato, contenente strumenti in grado di scaricare ed elaborare video pornografici, per fornire dati di formazione per nuovi modelli.

Dal momento che il trainer LoRA più popolare, Kohya-ss, ora supporta la formazione Hunyuan LoRA, le barriere all'ingresso per la formazione video generativa illimitata si stanno abbassando ogni giorno, insieme ai requisiti hardware per la formazione e la generazione di video Hunyuan.

L'aspetto cruciale dei programmi di formazione dedicati all'intelligenza artificiale basata sulla pornografia (piuttosto che identitàmodelli basati su, come le celebrità) è che un modello di fondazione standard come Hunyuan non è specificamente addestrato su output NSFW e potrebbe quindi funzionare male quando gli viene chiesto di generare contenuti NSFW o non riuscire a districare concetti e associazioni appresi in modo performativo o convincente.

Sviluppando modelli di fondazione NSFW e LoRA perfezionati, sarà sempre più possibile proiettare identità addestrate in un dominio video "porno" dedicato; dopotutto, questa è solo la versione video di qualcosa che è già avvenuto per immagini fisse degli ultimi due anni e mezzo.

VFX

L'enorme incremento della coerenza temporale offerto dalle interfacce LoRA di Hunyuan Video rappresenta un'evidente manna per il settore degli effetti visivi basati sull'intelligenza artificiale, che fa molto affidamento sull'adattamento del software open source.

Sebbene l'approccio Hunyuan Video LoRA generi un intero fotogramma e ambiente, le aziende di effetti visivi hanno quasi certamente iniziato a sperimentare l'isolamento dei volti umani temporalmente coerenti che possono essere ottenuti con questo metodo, al fine di sovrapporre o integrare i volti nei filmati originali del mondo reale.

Come la comunità degli hobbisti, le aziende di effetti visivi devono attendere la funzionalità immagine-video e video-video di Hunyuan Video, che potenzialmente rappresenta il ponte più utile tra i contenuti "deepfake" basati su ID e guidati da LoRA; oppure improvvisare e usare l'intervallo per sondare le capacità esterne del framework e dei potenziali adattamenti, e persino dei fork proprietari interni di Hunyuan Video.

Anche se la termini di licenza per Hunyuan Video tecnicamente consentono la rappresentazione di individui reali a condizione che venga concesso il permesso, ne proibiscono l'uso nell'UE, nel Regno Unito e in Corea del Sud. In base al principio "rimane a Las Vegas", ciò non significa necessariamente che Hunyuan Video non verrà utilizzato in queste regioni; tuttavia, la prospettiva di audit di dati esterni, per far rispettare un crescenti normative sull’intelligenza artificiale generativa, potrebbe rendere rischioso tale uso illecito.

Un'altra parte potenzialmente ambigua dei termini della licenza afferma:

"Se, alla data di rilascio della versione Tencent Hunyuan, gli utenti attivi mensili di tutti i prodotti o servizi resi disponibili dal o per il Licenziatario superano i 100 milioni di utenti attivi mensili nel mese solare precedente, è necessario richiedere una licenza a Tencent, che Tencent può concedere a propria esclusiva discrezione, e non si è autorizzati a esercitare alcuno dei diritti previsti dal presente Contratto, a meno che o fino a quando Tencent non ne conceda espressamente altri".

Questa clausola è chiaramente rivolta alla moltitudine di aziende che probabilmente fungeranno da "intermediari" per Hunyuan Video per un bacino di utenti relativamente poco esperti di tecnologia e che saranno costrette a escludere Tencent dal mercato, una volta raggiunto un certo limite massimo di utenti.

Se la formulazione ampia potrebbe anche coprire indiretto l'utilizzo (ad esempio tramite la fornitura di effetti visivi abilitati da Hunyuan in film e programmi TV popolari) potrebbe richiedere chiarimenti.

Conclusione

Poiché i video deepfake esistono da molto tempo, sarebbe facile sottovalutare l'importanza di Hunyuan Video LoRA come approccio alla sintesi dell'identità e al deepfaking; e supporre che gli sviluppi attualmente in atto nella comunità Civit e nei Discord e subreddit correlati rappresentino solo un piccolo passo avanti verso una sintesi video umana realmente controllabile.

È più probabile che gli sforzi attuali rappresentino solo una frazione del potenziale di Hunyuan Video nel creare deepfake a figura intera e a tutto ambiente completamente convincenti; una volta che il componente di conversione dell'immagine in video sarà rilasciato (si vocifera che ciò accadrà questo mese), un livello di potenza generativa molto più granulare sarà disponibile sia per gli hobbisti che per i professionisti.

Quando Stability.ai ha rilasciato Stable Diffusion nel 2022, molti osservatori non sono riusciti a capire perché l'azienda avrebbe semplicemente regalato quello che, all'epoca, era un sistema generativo così prezioso e potente. Con Hunyuan Video, il movente del profitto è incorporato direttamente nella licenza, anche se potrebbe risultare difficile per Tencent determinare quando un'azienda attiva il sistema di condivisione degli utili.

In ogni caso, il risultato è lo stesso del 2022: comunità di sviluppo dedicate si sono formate immediatamente e con intenso fervore attorno al rilascio. Alcune delle strade che questi sforzi intraprenderanno nei prossimi 12 mesi sono sicuramente destinate a suscitare nuovi titoli.

 

* Fino a 136 al momento della pubblicazione.

Prima pubblicazione martedì 7 gennaio 2025

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai