Connect with us

Ascensiunea videoului Hunyuan Deepfakes

Inteligență artificială

Ascensiunea videoului Hunyuan Deepfakes

mm
An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

Din cauza naturii unor materiale discutate aici, acest articol va conține mai puține legături de referință și ilustrații decât de obicei.

Ceva remarcabil se întâmplă în prezent în comunitatea de sinteză AI, deși importanța sa poate dura ceva timp pentru a deveni clară. Amatori sunt antrenați pentru a reproduce asemănările oamenilor, folosind videobazate LoRAs pe cadrul Hunyuan Video recent lansat de Tencent.*

Apăsați pentru a reda. Rezultate diverse de la personalizările Hunyuan-based LoRA disponibile gratuit la comunitatea Civit. Prin antrenarea modelelor de adaptare de rang scăzut (LoRAs), problemele cu stabilitatea temporală, care au afectat generarea de videoclipuri AI timp de doi ani, sunt semnificativ reduse. Surse: civit.ai

În videoclipul de mai sus, asemănările actrițelor Natalie Portman, Christina Hendricks și Scarlett Johansson, împreună cu liderul tehnologic Elon Musk, au fost antrenate în fișiere suplimentare relativ mici pentru sistemul generativ de videoclipuri Hunyuan, care poate fi instalat fără filtre de conținut (cum ar fi filtrele NSFW) pe computerul unui utilizator.

Creatorul LoRA-ului Christina Hendricks de mai sus afirmă că au fost necesare doar 16 imagini din serialul TV Mad Men pentru a dezvolta modelul (care este un fișier de descărcare de 307 MB); multiple postări din comunitatea Stable Diffusion de pe Reddit și Discord confirmă că LoRAs de acest tip nu necesită cantități mari de date de antrenament sau timp de antrenament, în majoritatea cazurilor.

Apăsați pentru a reda. Arnold Schwarzenegger este adus la viață într-un LoRA Hunyuan video care poate fi descărcat la Civit. Vedeți https://www.youtube.com/watch?v=1D7B9g9rY68 pentru exemple suplimentare Arnie, de la entuziastul AI Bob Doyle.

LoRAs Hunyuan pot fi antrenate pe imagini statice sau pe videoclipuri, deși antrenamentul pe videoclipuri necesită resurse de hardware mai mari și timp de antrenament crescut.

Modelul Hunyuan Video are 13 miliarde de parametri, depășind cei 12 miliarde de parametri ai lui Sora și depășind cu mult modelul Hunyuan-DiT mai puțin capabil, lansat în mod deschis în vara anului 2024, care are doar 1,5 miliarde de parametri.

Așa cum s-a întâmplat cu doi ani și jumătate în urmă cu Stable Diffusion și LoRA (a se vedea exemplele de celebrități “native” ale lui Stable Diffusion 1.5 aici), modelul de bază în cauză are o înțelegere mult mai limitată a personalităților celebrităților, comparativ cu nivelul de fidelitate care poate fi obținut prin implementări “injectate” LoRA.

În esență, un LoRA personalizat, axat pe personalitate, primește un “tur gratuit” pe capacitățile semnificative de sinteză ale modelului de bază Hunyuan, oferind o sinteză umană mult mai eficientă decât cea care poate fi obținută fie prin autoencoder deepfakes din 2017, fie prin adăugarea de mișcare la imagini statice prin sisteme cum ar fi LivePortrait.

Toate LoRAs prezentate aici pot fi descărcate gratuit de la comunitatea Civit, în timp ce numărul mai mare de LoRAs “statice” personalizate mai vechi pot, de asemenea, să creeze “imagini de sămânță” pentru procesul de creare a videoclipurilor (adică imagine-la-videoclip, o lansare în așteptare pentru Hunyuan Video, deși sunt posibile soluții, pentru moment).

Apăsați pentru a reda. Mai sus, mostre dintr-un LoRA “static” Flux; mai jos, exemple dintr-un LoRA Hunyuan video cu muzicianul Taylor Swift. Ambele LoRAs sunt disponibile gratuit la comunitatea Civit.

Pe măsură ce scriu, site-ul Civit oferă 128 de rezultate de căutare pentru “Hunyuan”*. Aproape toate acestea sunt într-un fel modele NSFW; 22 înfățișează celebrități; 18 sunt proiectate pentru a facilita generarea de pornografie dură; și doar șapte dintre ele înfățișează bărbați, mai degrabă decât femei.

Deci, ce este nou?

Din cauza naturii evolutive a termenului deepfake și a lipsei de înțelegere publică a (limitărilor severe) limitărilor cadrului de sinteză video AI până în prezent, importanța LoRA-ului Hunyuan nu este ușor de înțeles pentru o persoană care urmărește casual scena de generare AI. Să trecem în revistă unele dintre diferențele cheie între LoRAs Hunyuan și abordările anterioare de generare de videoclipuri bazate pe identitate.

… (restul conținutului este prea lung și a fost omis)

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.