Connect with us

Hunyuan-videoiden synty

Tekoäly

Hunyuan-videoiden synty

mm
An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

Joidenkin tässä käsiteltävien asioiden luonteen vuoksi tämä artikkeli sisältää vähemmän viittauksia ja kuvia kuin yleensä.

Jotain merkittävää tapahtuu parhaillaan tekoälysynthesoiden yhteisössä, vaikka sen merkitys saattaa kestää jonkin aikaa selvitä. Harrastajat kouluttavat generatiivisia tekoälyvideo-malleja jäljittelemään ihmisten kaltaisia, käyttäen video-pohjaisia LoRAs Tencentin äskettäin julkaisemalla avoimella Hunyuan Video -kehyksellä.*

Paina toistaa. Monipuoliset tulokset Hunyuan-pohjaisista LoRA-mukautuksista ovat vapaasti saatavilla Civit-yhteisössä. Kouluttamalla matalan sijan sopeutusmalleja (LoRAs), aiheuttavat ongelmat aikaskaalaisesta stabiilisuudesta, jotka ovat vaivanneet tekoälyvideojen luomista kahden vuoden ajan, vähenevät merkittävästi. Lähteet: civit.ai

Yllä olevassa videossa, näyttelijöiden Natalie Portman, Christina Hendricks ja Scarlett Johansson, yhdessä teknologiajohtaja Elon Muskin, ovat koulutettu suhteellisen pieniin lisätiedostoihin Hunyuan-generatiiviselle videosysteemille, joka voidaan asentaa sisällön suodattimien (kuten NSFW-suodattimien) ilman käyttäjän tietokoneella.

Christina Hendricks LoRA:n luoja kertoo, että vain 16 kuvaa Mad Men -televisiosarjasta tarvittiin mallin kehittämiseen (joka on vain 307 Mt lataus); useat viestit Stable Diffusion -yhteisöstä Redditissä ja Discordissa vahvistavat, että tällaiset LoRAs eivät vaadi suuria määriä koulutusdataa tai pitkiä koulutusajoja useimmissa tapauksissa.

Paina toistaa. Arnold Schwarzenegger herätetään henkiin Hunyuan-videossa LoRA, joka voidaan ladata Civitistä. Katso https://www.youtube.com/watch?v=1D7B9g9rY68 lisätietoja Arnie-esimerkeistä, AI-harrastaja Bob Doylelta.

Hunyuan LoRAs voidaan kouluttaa joko staattisista kuvista tai videoista, vaikka videoiden kouluttaminen vaatii enemmän laitteistorajoituksia ja pidentää koulutusaikaa.

Hunyuan Video -malli sisältää 13 miljardia parametreja, joka ylittää Soran 12 miljardin parametrin, ja ylittää merkittävästi vähemmän kykenevän Hunyuan-DiT -mallin, joka julkaistiin avoimena lähdekoodina kesällä 2024, ja jolla on vain 1,5 miljardia parametreja.

Kuten tapahtui kaksi ja puoli vuotta sitten Stable Diffusionin ja LoRA:n (katso esimerkkejä Stable Diffusion 1.5:n ‘omista’ julkkiksista täällä) kanssa, perusmalli kyseessä on paljon rajoitetumpi ymmärrys julkkisten persoonallisuuksista verrattuna siihen, mitä voidaan saavuttaa ‘ID-injektoitujen’ LoRA-toteutusten kautta.

Vaikuttavasti, mukautettu, persoonallisuuteen keskittyvä LoRA saa ‘ilmaisen liftin’ perusmallin merkittävien synteesikapasiteettien ansiosta, tarjoten huomattavasti tehokkaamman ihmisen synteesin kuin mitä voidaan saavuttaa joko 2017-vuoden autokoodausdeepfake -menetelmillä tai yrittämällä lisätä liikettä staattisiin kuviin järjestelmien kautta, kuten kuuluisan LivePortraitin.

Kaikki tässä esitetyt LoRAs voidaan ladata vapaasti Civit-yhteisöstä, kun taas runsaammin vanhemmat, mukautetut ‘staattiset kuva’ LoRAs voidaan myös potentiaalisesti luoda ‘siemen’ -kuvat videon luomisprosessille (ts. kuva-videolle, odottamaton julkaisu Hunyuan Videolle, vaikka kierretiet ovat mahdollisia, toistaiseksi).

Paina toistaa. Yllä, näytteitä ‘staattisesta’ Flux LoRA:sta; alla, esimerkkejä Hunyuan-videosta LoRA, joka esittää muusikko Taylor Swiftiä. Nämä LoRAs ovat vapaasti saatavilla Civit-yhteisössä.

Kun kirjoitan, Civit-sivustolla on 128 hakutulosta ‘Hunyuan’ * . Lähes kaikki näistä ovat jollain tavoin NSFW-malleja; 22 esittävät julkkiksia; 18 on suunniteltu helpottamaan kovaa pornografiaa; ja vain seitsemän niistä esittävät miehiä naisia vastaan.

Mikä on uutta?

Johdonmukaisen kehittyvän deepfake -termin vuoksi, ja rajoitettu yleinen ymmärrys (hyvin vakavista) rajoituksista tekoälyvideojen synteesikehyksissä tähän asti, Hunyuan LoRA:n merkitys ei ole helppo ymmärtää henkilölle, joka seuraa generatiivista tekoälyä. Tarkastellaan joitain avaineroja eroja Hunyuan LoRA:n ja aiempien lähestymistapojen välillä ihmisen perusteella tekoälyvideojen luomiseen.

1: Vapaasti paikallinen asennus

Hunyuan Videon tärkein asia on se, että se voidaan ladata paikallisesti, ja se asettaa erittäin voimakkaan ja sensoroimattoman tekoälyvideojen luomisjärjestelmän sekä harrastelijan että VFX-yhteisön käsiin (siihen määrään, kuin lisenssit saattavat sallia maantieteellisillä alueilla).

Viimeksi tämä tapahtui, kun Stability.ai julkaisi Stable Diffusion -mallin kesällä 2022. Tuolloin OpenAI:n DALL-E2 oli vanginnut julkisen mielikuvituksen, vaikka DALLE-2 oli maksullinen palvelu, jolla oli merkittäviä rajoituksia (joita kasvatettiin ajan myötä).

Kun Stable Diffusion tuli saataville, ja Low-Rank Adaptation sitten mahdollisti kuvien luomisen minkä tahansa henkilön (julkkis tai ei) identiteetistä, suuri kehittäjä- ja kuluttajayhteisön kiinnostus auttoi Stable Diffusionin pimentämään DALLE-2:n suosiota; vaikka jälkimmäinen oli kyvykkäämpi järjestelmä valmiina, sen sensuurirutiinit nähtiin raskaina monille käyttäjilleen, ja mukauttaminen ei ollut mahdollista.

Väittäen, sama skenaario koskee nyt Sora ja Hunyuan – tai tarkemmin, Sora-luokan omistajan generatiivisia videosysteemejä ja avoimia kilpailijoita, joista Hunyuan on ensimmäinen – mutta todennäköisesti ei viimeinen (tässä kannattaa tarkastella, miten Flux lopulta saavutti merkittävän edun Stable Diffusionista).

Käyttäjät, jotka haluavat luoda Hunyuan LoRA -tulosteen, mutta joilta puuttuu tehokas laitteisto, voivat, kuten aina, siirtää GPU-osuuden koulutuksesta online-laskentaan palveluihin kuten RunPod. Tämä ei ole sama kuin luominen AI-videoita alustoilla kuten Kaiber tai Kling, koska siinä ei ole semanttista tai kuvapohjaista suodatusta (sensuuria) mukana, kun vuokrataan online-GPU tukeaksesi paikallista työvirranhallintaa.

2: Ei tarvitse ‘isäntä’ -videoita ja suurta ponnistelua

Kun deepfake -videot tulivat esiin vuoden 2017 lopulla, anonyymisti julkaistu koodi kehittyi päävirta-forkkiin DeepFaceLab ja FaceSwap (sekä DeepFaceLive -järjestelmä).

Tämä menetelmä vaati tarkkaa kuraattorin toimintaa tuhansia kasvojen kuvia kullekin identiteetille, joka vaihdettiin; mitä vähemmän vaivaa tässä vaiheessa, sitä vähemmän tehokas malli olisi. Lisäksi koulutusajat vaihtelivat 2-14 päivän välillä, riippuen saatavissa olevasta laitteistosta, joka painosti jopa kykyisiä järjestelmiä pitkällä aikavälillä.

Kun malli oli lopulta valmis, se pystyi vain asettamaan kasvoja olemassa olevaan videoon, ja yleensä tarvitsi ‘kohde’ (ts. todellinen) identiteetti, joka oli lähellä ulkonäköä, joka asetettiin identiteettiin.

Viimeaikaisemmin, ROOP, LivePortrait ja useat samankaltaiset kehykset ovat tarjonneet saman toiminnallisuuden paljon vähemmällä vaivalla ja usein paremmilla tuloksilla – mutta ei kyvyllä luoda tarkkoja täysikasvuisia deepfake – tai mitään muuta elementtiä paitsi kasvoja.

Esimerkkejä ROOP Unleashed ja LivePortrait (sisäänvedetty alhaalla vasemmalla), Bob Doyle:n sisällöstä YouTubessa. Lähteet: https://www.youtube.com/watch?v=i39xeYPBAAM ja https://www.youtube.com/watch?v=QGatEItg2Ns

Esimerkkejä ROOP Unleashed ja LivePortrait (sisäänvedetty alhaalla vasemmalla), Bob Doyle:n sisällöstä YouTubessa. Lähteet: https://www.youtube.com/watch?v=i39xeYPBAAM ja https://www.youtube.com/watch?v=QGatEItg2Ns

Toisin kuin Hunyuan LoRAs (ja samankaltaiset järjestelmät, jotka varmasti seuraavat) sallivat vapaan luomisen koko maailmoja, mukaan lukien täysikasvuisen simulaation käyttäjän koulutetusta LoRA-identiteetistä.

3: Massiivisesti parannettu aikaskaalainen yhdenmukaisuus

Aikaskaalainen yhdenmukaisuus on ollut pyhä graali diffuusiiviselle videolle jo useita vuosia. LoRA:n käyttö yhdessä soveltuvin ohjelmoinnin kanssa antaa Hunyuan-videon luomiselle jatkuvan identiteettiviittauksen noudattamiseen. Teoriassa (nämä ovat varhaisia päiviä) voisi kouluttaa useita LoRAs tietyn identiteetin, kullekin omalla erityisellä vaatetusasuilla.

Näiden olosuhteiden mukaan vaatetus on vähemmän todennäköistä ‘mutatoitua’ videon luomisen aikana (koska generatiivinen järjestelmä perustuu edellisten kehyksien hyvin rajoitettuun ikkunaan).

(Vaihtoehtoisesti, kuten kuvapohjaisissa LoRA-järjestelmissä, voidaan soveltaa useita LoRAs, kuten identiteetti + vaatetus LoRAs, yhteen videon luomiseen)

4: Pääsy ‘ihmiskokeeseen’

Kuten huomasin äskettäin, omistajan ja FAANG-tason generatiivisen tekoälyn ala näyttää nyt olevan niin varovainen potentiaalisista kritiikeistä ihmisen synteesikykyjensä suhteen, että todelliset ihmiset harvoin näkyvät projektiin liittyvissä julkistuksissa ja julkaisuissa. Sen sijaan liittyvät julkaisut tendovat näyttämään ‘söpöjä’ ja ‘uhkaamattomia’ aiheita synteettisissä tuloksissa.

Hunyuan LoRA:n myötä yhteisöllä on nyt ensimmäisen kerran mahdollisuus työntää LDM-pohjaisen ihmisen videosynteesin rajoja eteenpäin, ja tutkia täysin aihe, joka kiinnostaa meistä useimpia – ihmisiä.

Seuraukset

Koska Civit-yhteisössä ‘Hunyuan’ -haku näyttää pääasiassa julkkis LoRAs ja ‘hardcore’ LoRAs, Hunyuan LoRA:n keskeinen seuraus on, että ne tullaan käyttämään luomaan tekoälypornovideoita todellisista ihmisistä – sekä julkkisista että tuntemattomista.

Noudattaakseen vaatimukset, harrastajat, jotka luovat Hunyuan LoRAs ja kokeilevat niitä eri Discord-palvelimilla, ovat varovaisia estämään todellisten ihmisten esimerkkien julkaisemista. Totuus on, että jopa kuvapohjaiset deepfake -kuvat ovat nyt vakavasti aseistettu; ja mahdollisuus lisätä todella realistisia videoita sekaan saattaa lopulta oikeuttaa korkeat pelot, jotka ovat toistuvasti olleet esillä medialla viimeisen seitsemän vuoden ajan, ja jotka ovat johtaneet uusiin sääntöihin.

Ajavana voimana

Kuten aina, pornografia jää teknologian ajavana voimana. Mikä tahansa mielipide tällaisesta käytöstä, tämä pysyvä etenemisen moottori ajaa eteenpäin valtion viimeisimpiä edistysaskelia, jotka lopulta voivat hyödyttää laajempaa käyttöä.

Tässä tapauksessa hinta saattaa olla korkeampi kuin yleensä, koska hyperrealistisen videon luomisen avoimen lähdekoodin julkaisemisella on ilmeiset vaikutukset rikolliseen, poliittiseen ja eettiseen väärinkäyttöön.

Yksi Reddit-ryhmä (jota en mainitse tässä) omistettu AI-generoivan NSFW-videon sisällölle on liittyvä avoin Discord-palvelin, jossa käyttäjät jalostavat ComfyUI -työvirran Hunyuan-pohjaisen videopornografian luomiseksi. Päivittäin käyttäjät julkaisevat esimerkkejä NSFW-klippejä – monet niistä voidaan kohtuullisesti luokitella ‘ääriliikkeiksi’, tai ainakin jännittäviksi foorumin sääntöjä.

Tämä yhteisö ylläpitää myös merkittävää ja kehittynyttä GitHub-arkistoa, joka sisältää työkaluja, joilla voidaan ladata ja prosessoida pornovideoita, jotta voidaan tarjota koulutusdataa uusille malleille.

Koska suosituin LoRA-kouluttaja, Kohya-ss, tukee nyt Hunyuan LoRA -koulutusta, esteet pääsyyn rajoittamattomaan generatiiviseen videokoulutukseen laskevat päivittäin, samoin kuin laitteistovaatimukset Hunyuan-koulutukseen ja videon luomiseen.

Kriittinen asia omistajan tekoälypornografian koulutussuunnitelman (ei identiteettiin perustuvaa mallia, kuten julkkiksia) on, että standardi perusmalli kuten Hunyuan ei ole erityisesti koulutettu NSFW-tulosteen luomiseen, ja saattaa joko suorittaa huonosti, kun pyydetään luomaan NSFW-sisältöä, tai epäonnistua erottamaan oppimansa käsitteet ja assosiaatiot suorituskykyisellä tai vakuuttavalla tavalla.

Kehittämällä hienosäädettyjä NSFW-perusmalleja ja LoRAs, on yhä mahdollista projisoida koulutetut identiteetit omistajan ‘porn’ -videoalueelle; kaiken kaikkiaan tämä on vain videoversio siitä, mitä on jo tapahtunut kuvien osalta viimeisen kahden ja puolen vuoden ajan.

VFX

Hunyuan Video LoRA:n tarjoama suuri lisäys aikaskaalaisessa yhdenmukaisuudessa on ilmeinen etu tekoälyvisuaaliefektiyrityksille, jotka nojaavat voimakkaasti sopeuttamaan avoimen lähdekoodin ohjelmistoja.

Vaikka Hunyuan Video LoRA -lähestymistapa luo koko kehys ja ympäristön, VFX-yritykset ovat todennäköisesti aloittaneet kokeilun eristämällä aikaskaalaisesti yhdenmukaisia ihmisten kasvoja, joita voidaan saada tällä menetelmällä, jotta voidaan asettaa tai integroida kasvoja todellisiin lähdevideoihin.

Kuten harrastelijayhteisö, VFX-yritysten on odotettava Hunyuan Videon kuvasta videolle ja videosta videolle -toiminnallisuutta, joka on potentiaalisesti hyödyllisin silta LoRA-ohjatuille, identiteettiin perustuville ‘deepfake’ -sisällölle; tai muokata, ja käyttää väli-aikaa tutkimaan kehyksen ulkorajoja ja mahdollisia sopeutuksia, ja jopa omistajan sisäisiä forkkeja Hunyuan Videosta.

Vaikka lisenssiehdot Hunyuan Videolle teknisesti sallivat todellisten yksilöiden esittämisen, jos lupaa on annettu, ne kieltävät sen käytön EU:ssa, Yhdistyneessä kuningaskunnassa ja Etelä-Koreassa. ‘Mitä tapahtuu Las Vegasissa, jää Las Vegasiin’ -periaatteella, tämä ei välttämättä tarkoita, että Hunyuan Videoa ei käytetä näissä alueissa; kuitenkin ulkoisten tietojen tarkastusvaatimusten mahdollisuus, jotta voidaan valvoa kasvavaa sääntelyä tekoälystä, saattaa tehdä laitonta käyttöä riskialttiiksi.

Toinen mahdollisesti epäselvä alue lisenssiehdoissa on:

‘Jos, Tencent Hunyuan -version julkaisupäivänä, kaikkien tuotteiden tai palvelujen kuukausittaiset aktiiviset käyttäjät, jotka on julkaistu tai tehty Lisenssinhaltijan toimesta, on yli 100 miljoonaa kuukausittaista aktiivista käyttäjää edellisen kalenterikuukauden aikana, sinun on pyydettävä lisenssiä Tencentilta, jonka Tencent voi myöntää sinulle omalla harkintavallalla, ja sinä et ole valtuutettu harjoittamaan mitään oikeuksia tämän sopimuksen nojalla, ellei Tencent toisin ilmoita sinulle.’

Tämä pykälä on selvästi suunnattu monille yrityksille, jotka todennäköisesti ‘välikäden’ Hunyuan Videoa suhteellisen teknologiaa vaille tietoiselle käyttäjäryhmälle, ja jotka vaaditaan maksamaan Tencentille osuuden, yläpuolella tietyn käyttäjien kynnyksen.

On epäselvää, voitaisiinko laaja sanamuoto myös kattaa epäsuoraa käyttöä (ts. Hunyuan-käyttöä visuaalisten efektiiden tuottamiseen suositussa elokuvassa ja TV-sarjassa); tämä saattaa vaatia selvennystä.

Johtopäätös

Koska deepfake-videot ovat olleet olemassa jo kauan, olisi helppo aliarvioida Hunyuan Video LoRA:n merkitystä lähestymistavaksi identiteetin synteesiin ja deepfakingiin; ja olettaa, että nykyiset kehityssuunnat, jotka ilmenevät Civit-yhteisössä ja liittyvissä Discordeissa ja subredditeissa, edustavat vain pientä askelta kohti todella hallittavissa olevaa ihmisen videosynteesiä.

Todennäköisemmin nykyiset ponnistelut edustavat vain osaa Hunyuan Videon potentiaalista luoda täysin vakuuttavia täysikasvuisia ja täysin ympäristöllisiä deepfake -videoita; kun kuvasta videolle -komponentti julkaistaan (jota huhutaan tapahtuvan tässä kuussa), paljon tarkempi taso generatiivista voimaa tulee saataville sekä harrastelijoiden että ammattilaisten yhteisöille.

Kun Stability.ai julkaisi Stable Diffusionin vuonna 2022, monet tarkkailijat eivät voineet päättää, miksi yhtiö antaisi pois niin arvokkaan ja voimakkaan generatiivisen järjestelmän; Hunyuan Videolla voittotarkoitus on rakennettu suoraan lisenssiin – vaikka se saattaa osoittautua vaikeaksi Tencentille määritellä, kun yhtiö laukaisee voittojakojärjestelmän.

Joka tapauksessa lopputulos on sama kuin vuonna 2022: omistautuneet kehittäjäyhteisöt ovat muodostuneet välittömästi ja intohimoisella innostuksella julkaisun ympärille. Jotkut tiet, joille nämä ponnistelut johtavat, ovat varmasti herättävät uusia otsikoita seuraavien 12 kuukauden aikana.

 

* Jopa 136 julkaisuhetkeen mennessä.

Ensijulkaisu tiistaina, 7. tammikuuta 2025

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]