Inteligența artificială
Ascensiunea lui Hunyuan Video Deepfakes

Datorită naturii unora dintre materialele discutate aici, acest articol va conține mai puține link-uri de referință și ilustrații decât de obicei.
Ceva demn de remarcat se întâmplă în prezent în comunitatea de sinteză AI, deși semnificația sa poate dura ceva timp pentru a deveni clară. Pasionații antrenează modele video AI generative pentru a reproduce asemănările oamenilor, folosind video LoRA-uri despre sursa deschisă lansată recent de Tencent Cadru video Hunyuan.*
Faceți clic pentru a juca. Rezultate diverse ale personalizărilor LoRA bazate pe Hunyuan, disponibile gratuit în comunitatea Civit. Prin antrenarea modelelor de adaptare de rang scăzut (LoRA), problemele cu stabilitatea temporală, care au afectat generarea de videoclipuri AI timp de doi ani, sunt reduse semnificativ. Surse: civit.ai
În videoclipul prezentat mai sus, asemănările actrițelor Natalie Portman, Christina Hendricks și Scarlett Johansson, împreună cu liderul tehnologiei Elon Musk, au fost antrenate în fișiere suplimentare relativ mici pentru sistemul video generativ Hunyuan, care poate fi instalat. fără filtre de conținut (cum ar fi filtrele NSFW) pe computerul unui utilizator.
Creatorul Christina Hendricks LoRA prezentat mai sus afirmă că doar 16 imagini din Mad Men Au fost necesare emisiuni TV pentru a dezvolta modelul (care este doar o descărcare de 307 MB); mai multe postări din comunitatea Stable Diffusion de la Reddit și Discord confirmă că LoRA-urile de acest tip nu necesită cantități mari de date de antrenament sau timpi mari de antrenament, în majoritatea cazurilor.
Clins pentru a juca. Arnold Schwarzenegger este adus la viață într-un videoclip LoRA Hunyuan care poate fi descărcat de la Civit. Consultați https://www.youtube.com/watch?v=1D7B9g9rY68 pentru alte exemple despre Arnie, de la pasionatul AI Bob Doyle.
LoRA-urile Hunyuan pot fi antrenate fie pe imagini statice, fie pe videoclipuri, deși antrenamentul pe videoclipuri necesită resurse hardware mai mari și timp de antrenament mai mare.
Modelul video Hunyuan are 13 miliarde de parametri, depășind cei 12 miliarde de parametri ai lui Sora și depășind cu mult modelul mai puțin performant. Hunyuan-DiT model lansat în sursă deschisă în vara anului 2024, care are doar 1.5 miliarde de parametri.
Așa cum a fost cazul acum doi ani și jumătate cu Stable Diffusion și LoRA (vezi exemple de celebrități „native” din Stable Diffusion 1.5) aici), modelul de fundație în cauză are o înțelegere mult mai limitată a personalităților celebrităților, comparativ cu nivelul de fidelitate care poate fi obținut prin implementări LoRA „injectate cu ID”.
Practic, o LoRA personalizată, axată pe personalitate, profită gratuit de capacitățile semnificative de sinteză ale modelului de bază Hunyuan, oferind o sinteză umană mult mai eficientă decât cea care poate fi obținută fie în era 2017. autoencoder deepfakes sau prin încercarea de a adăuga mișcare imaginilor statice prin sisteme precum feted Portret în direct.
Toate LoRA-urile prezentate aici pot fi descărcate gratuit din comunitatea Civit, extrem de populară, în timp ce numărul mai mare de LoRA-uri mai vechi, personalizate, cu „imagini statice”, poate crea, de asemenea, imagini „de bază” pentru procesul de creare video (de exemplu, imagine-în-video, o versiune în curs de lansare pentru Hunyuan Video, deși...). sunt posibile soluții, pentru moment).
Faceți clic pentru a juca. Mai sus, mostre dintr-o platformă Flux LoRA „statică”; mai jos, exemple dintr-o platformă video Hunyuan LoRA cu muzicianul Taylor Swift. Ambele LoRA sunt disponibile gratuit în comunitatea Civit.
În timp ce scriu aceste rânduri, site-ul Civit oferă 128 de rezultate ale căutării pentru „Hunyuan”*. Aproape toate acestea sunt într-un fel modele NSFW; 22 înfățișează celebrități; 18 sunt concepute pentru a facilita generarea de pornografie hardcore; și doar șapte dintre ele înfățișează bărbați, nu femei.
Deci ce este nou?
Datorită natură în evoluție a termenului deepfake, și înțelegerea publică limitată a (destul de severăAvând în vedere limitările actuale ale cadrelor de sinteză video bazate pe inteligență artificială (IA), semnificația Hunyuan LoRA nu este ușor de înțeles pentru o persoană care urmărește întâmplător scena IA generativă. Să trecem în revistă câteva dintre diferențele cheie dintre Hunyuan LoRA și abordările anterioare privind generarea de video bazată pe IA.
1: Instalare locală nelimitată
Cel mai important aspect al Hunyuan Video este faptul că poate fi descărcat local și că oferă un sistem foarte puternic și necenzurate Sistem de generare video AI în mâinile utilizatorului ocazional, precum și a comunității VFX (în măsura în care licențele o pot permite în diferite regiuni geografice).
Ultima dată când s-a întâmplat acest lucru a fost apariția lansării în sursă deschisă a modelului Stability.ai Stable Diffusion în vara anului 2022La acea vreme, DALL-E2 de la OpenAI avea capturat imaginația publică, deși DALLE-2 era un serviciu plătit cu restricții notabile (care au crescut în timp).
Când Stable Diffusion a devenit disponibilă și Low-Rank Adaptation a făcut posibilă generarea de imagini ale identității Orice persoană (celebritate sau nu), locusul imens al dezvoltatorilor și interesului consumatorilor a ajutat Stable Diffusion să eclipseze popularitatea DALLE-2; deși acesta din urmă era un sistem mai capabil, din nou, rutinele sale de cenzură erau văzută ca fiind oneroasă de mulți dintre utilizatorii săi, iar personalizarea nu a fost posibilă.
Probabil că același scenariu se aplică acum între Sora și Hunyuan – sau, mai exact, între Sora-grad sisteme video generative proprietare și rivali open source, dintre care Hunyuan este primul – dar probabil nu ultimul (aici, luați în considerare că Flux ar câștiga în cele din urmă un teren semnificativ pe Stable Diffusion).
Utilizatorii care doresc să creeze o ieșire Hunyuan LoRA, dar cărora le lipsește un echipament efectiv robust, pot, ca întotdeauna, să descarce aspectul GPU al instruirii către serviciile de calcul online. cum ar fi RunPod. Acest lucru nu este același lucru cu crearea de videoclipuri AI pe platforme precum Kaiber sau Kling, deoarece nu există nicio filtrare (cenzură) semantică sau bazată pe imagini care implică închirierea unui GPU online pentru a sprijini un flux de lucru altfel local.
2: Nu este nevoie de videoclipuri „gazdă” și efort ridicat
Când deepfake-urile au apărut pe scenă la sfârșitul anului 2017, codul postat anonim avea să evolueze în fork-urile mainstream DeepFaceLab și schimb de fețe (la fel de bine ca DeepFaceLive sistem deepfaking în timp real).
Această metodă a necesitat curatarea minuțioasă a mii de imagini ale feței fiecărei identități pentru a fi schimbate; cu cât este mai puțin efort depus în această etapă, cu atât modelul ar fi mai puțin eficient. În plus, timpii de antrenament au variat între 2-14 zile, în funcție de hardware-ul disponibil, subliniind chiar și sistemele capabile pe termen lung.
Când modelul a fost în sfârșit gata, acesta putea doar să impună fețe în videoclipul existent și, de obicei, avea nevoie de o identitate „țintă” (adică reală) care să fie apropiată ca aspect de identitatea suprapusă.
Mai recent, ROOP, LivePortrait și numeroase cadre similare au furnizat funcționalități similare cu mult mai puțin efort și, adesea, cu rezultate superioare, dar fără capacitatea de a genera informații precise. deepfakes pe întregul corp – sau orice alt element decât fețele.

Exemple de ROOP Unleashed și LivePortrait (în imaginea chenarată stânga jos), din fluxul de conținut al lui Bob Doyle pe YouTube. Surse: https://www.youtube.com/watch?v=i39xeYPBAAM și https://www.youtube.com/watch?v=QGatEItg2Ns
În schimb, LoRA-urile Hunyuan (și sistemele similare care vor urma în mod inevitabil) permit crearea neîngrădită de lumi întregi, inclusiv simularea întregului corp a identității LoRA antrenate de utilizator.
3: Consistență temporală îmbunătățită masiv
Consecvența temporală a fost Sfântul Graal de difuzare video de câțiva ani încoace. Utilizarea unui LoRA, împreună cu solicitările adecvate, oferă unei generații video Hunyuan o referință constantă de identitate la care să adere. În teorie (acestea sunt primele zile), s-ar putea antrena mai multe LoRA cu o anumită identitate, fiecare purtând haine specifice.
Sub aceste auspicii, este mai puțin probabil ca îmbrăcămintea să se „mute” pe parcursul unei generații video (deoarece sistemul generativ bazează următorul cadru pe o fereastră foarte limitată de cadre anterioare).
(Alternativ, ca și în cazul sistemelor LoRA bazate pe imagini, se pot aplica pur și simplu mai multe LoRA, cum ar fi LoRA-uri identitate + costum, la o singură generație video)
4: Accesul la „Experimentul uman”
Ca și mine observat recent, sectorul AI generativ de proprietate și la nivel FAANG pare acum să fie atât de precaut față de potențialele critici legate de capacitățile de sinteză umană ale proiectelor sale, încât oameni apar rareori în paginile proiectelor pentru anunțuri și lansări majore. În schimb, literatura publicitară conexă tinde din ce în ce mai mult să prezinte subiecți „drăguți” și altfel „neamenințători” în rezultatele sintetizate.
Odată cu apariția LoRA-urilor Hunyuan, pentru prima dată, comunitatea are ocazia să depășească limitele sintezei video umane bazate pe LDM într-un sistem foarte capabil (mai degrabă decât marginal) și să exploreze pe deplin subiectul care interesează cel mai mult majoritatea. dintre noi – oameni.
Implicații
Întrucât o căutare pentru „Hunyuan” în comunitatea Civit arată în mare parte LoRA-uri ale celebrităților și LoRA-uri „hardcore”, implicația centrală a apariției LoRA-urilor Hunyuan este că acestea vor fi folosite pentru a crea videoclipuri pornografice (sau defăimătoare în alt mod) cu inteligență artificială, cu persoane reale - celebrități și necunoscuți deopotrivă.
În scopuri de conformitate, pasionații care creează Hunyuan LoRA-uri și care experimentează cu ele pe diverse servere Discord sunt atenți să interzică să fie postate exemple de oameni reali. Realitatea este că chiar imagineDeepfake-urile bazate pe - sunt acum puternic armat; iar perspectiva de a adăuga videoclipuri cu adevărat realiste în amestec poate justifica în cele din urmă temerile sporite care au fost recurente în mass-media în ultimii șapte ani și care au provocat noi regulament.
Forța Motoare
Ca întotdeauna, porno rămășițe forța motrice a tehnologiei. Oricare ar fi părerea noastră despre o astfel de utilizare, acest motor necruțător de impuls conduce progrese în stadiul tehnicii, care pot beneficia în cele din urmă de adoptarea mai mare.
În acest caz, este posibil ca prețul să fie mai mare decât în mod obișnuit, deoarece open-sourcing-ul de creație video hiper-realistă are implicații evidente pentru abuzurile criminale, politice și etice.
Un grup Reddit (pe care nu îl voi numi aici) dedicat generării AI de conținut video NSFW are asociat un server Discord deschis, unde utilizatorii rafinează ComfyUI fluxuri de lucru pentru generarea de videoclipuri pornografice bazate pe Hunyuan. Zilnic, utilizatorii postează exemple de clipuri NSFW – multe dintre ele putând fi numite în mod rezonabil „extreme” sau cel puțin înălțând restricțiile prevăzute în regulile forumului.
Această comunitate menține, de asemenea, un depozit GitHub substanțial și bine dezvoltat, cu instrumente care pot descărca și procesa videoclipuri pornografice, pentru a oferi date de instruire pentru modele noi.
Din moment ce cel mai popular antrenor LoRA, Kohya-ss, acum sprijină formarea Hunyuan LoRA, barierele de intrare pentru antrenamentul video generativ nelimitat se reduc zilnic, împreună cu cerințele hardware pentru antrenamentul Hunyuan și generarea video.
Aspectul crucial al schemelor de instruire dedicate pentru IA bazată pe porno (mai degrabă decât identitatemodele bazate pe bază de date, cum ar fi celebritățile) este că un model de fundație standard precum Hunyuan nu este instruit în mod specific pe rezultatul NSFW și, prin urmare, poate fie performanțe slabe atunci când i se cere să genereze conținut NSFW, fie să nu reușească dezlega concepte şi asocieri învăţate într-o manieră performativă sau convingătoare.
Prin dezvoltarea unor modele fundamentale NSFW și LoRA-uri fin ajustate, va fi din ce în ce mai posibil să se proiecteze identități antrenate într-un domeniu video dedicat „pornografiei”; la urma urmei, aceasta este doar versiunea video a ceva ce... a avut loc deja pentru imagini statice din ultimii doi ani și jumătate.
VFX
Creșterea uriașă a consistenței temporale pe care o oferă Hunyuan Video LoRA este un avantaj evident pentru industria efectelor vizuale AI, care se bazează foarte mult pe adaptarea software-ului open source.
Deși o abordare Hunyuan Video LoRA generează un cadru și un mediu întreg, companiile VFX au început aproape sigur să experimenteze cu izolarea fețelor umane consistente din punct de vedere temporal care pot fi obținute prin această metodă, pentru a suprapune sau integra chipuri în filmările surse din lumea reală. .
La fel ca comunitatea pasionaților, companiile de VFX trebuie să aștepte funcționalitatea imagine-video și video-video a Hunyuan Video, care este potențial cea mai utilă punte între conținutul „deepfake” bazat pe LoRA și ID; sau să improvizeze și să folosească intervalul pentru a sonda capacitățile externe ale framework-ului și ale potențialelor adaptări, ba chiar și ale fork-urilor interne proprietare ale Hunyuan Video.
Deși termenii licenței Pentru că Hunyuan Video permite din punct de vedere tehnic reprezentarea unor persoane reale atâta timp cât se acordă permisiunea, aceasta interzice utilizarea acesteia în UE, Regatul Unit și Coreea de Sud. Conform principiului „rămâne în Vegas”, acest lucru nu înseamnă neapărat că Hunyuan Video nu va fi utilizat în aceste regiuni; cu toate acestea, perspectiva unor audituri externe ale datelor, pentru a impune o reglementări în creștere în jurul IA generativă, ar putea face riscantă o astfel de utilizare ilegală.
O altă zonă potențial ambiguă a termenilor licenței spune:
„Dacă, la data lansării versiunii Tencent Hunyuan, utilizatorii activi lunar ai tuturor produselor sau serviciilor puse la dispoziție de sau pentru Licențiat depășesc 100 de milioane de utilizatori activi lunar în luna calendaristică precedentă, trebuie să solicitați o licență de la Tencent, pe care Tencent v-o poate acorda la discreția sa exclusivă și nu sunteți autorizat să exercitați niciunul dintre drepturile prevăzute în prezentul Acord, cu excepția cazului în care Tencent vă acordă în mod expres astfel de drepturi.”
Această clauză vizează în mod clar multitudinea de companii care sunt susceptibile de a „intermedia” Hunyuan Video pentru un grup de utilizatori relativ analfabeti în materie de tehnologie și care vor fi obligate să includă și Tencent în acțiune, peste un anumit plafon de utilizatori.
Indiferent dacă formularea largă ar putea acoperi sau nu indirect Utilizarea (adică prin furnizarea de efecte vizuale activate de Hunyuan în filme și TV populare) poate necesita clarificări.
Concluzie
Deoarece videoclipul deepfake există de mult timp, ar fi ușor să subestimăm importanța Hunyuan Video LoRA ca abordare a sintezei identității și a deepfaking-ului; și să presupunem că evoluțiile care se manifestă în prezent la comunitatea Civit, și la Discords și subreddit-uri aferente, reprezintă un simplu impuls incremental către o sinteză video umană cu adevărat controlabilă.
Mai probabil este că eforturile actuale reprezintă doar o fracțiune din potențialul Hunyuan Video de a crea deepfake-uri complet convingătoare, atât pentru corp, cât și pentru mediu; odată ce componenta imagine-video va fi lansată (se zvonește că va apărea luna aceasta), un nivel mult mai granular de putere generativă va deveni disponibil atât comunităților de amatori, cât și celor profesionale.
Când Stability.ai a lansat Stable Diffusion în 2022, mulți observatori nu au putut determina de ce compania ar da doar ceea ce era, la acea vreme, un sistem generativ atât de valoros și puternic. Cu Hunyuan Video, motivul de profit este integrat direct în licență – deși s-ar putea dovedi dificil pentru Tencent să determine când o companie declanșează schema de împărțire a profitului.
În orice caz, rezultatul este același ca în 2022: comunitățile de dezvoltare dedicate s-au format imediat și cu fervoare intensă în jurul lansării. Unele dintre drumurile pe care le vor parcurge aceste eforturi în următoarele 12 luni vor provoca cu siguranță noi titluri.
* Până la 136 până la data publicării.
Prima dată publicată marți, 7 ianuarie 2025