Kapcsolatba velünk

Mesterséges intelligencia

The Rise of Hunyuan Video Deepfakes

mm

Közzététel:

 on

Egy Arnie Hunyuan LoRA-videó, amelyet Bob Doyle mutatott be a ComfyUI-n, a YouTube-on (https://www.youtube.com/watch?v=1D7B9g9rY68) – és a jobb oldali beszédben ugyanannak a LoRA-nak a különböző mintavideóiból származik a Civitnél. ai

Az itt tárgyalt anyagok egy részének jellege miatt ez a cikk a szokásosnál kevesebb hivatkozást és illusztrációt tartalmaz.

Valami figyelemre méltó jelenleg történik az AI szintézis közösségében, bár ennek jelentősége eltarthat egy ideig, mire világossá válik. A hobbisták generatív mesterséges intelligencia-videómodelleket képeznek ki, hogy az emberek képmásait videó alapú módon reprodukálják LoRAs a Tencent nemrég kiadott nyílt forráskódján Hunyuan Videó keretrendszer.*

Kattintson a játék elkezdéséhez. A Hunyuan-alapú LoRA testreszabások változatos eredményei, amelyek szabadon elérhetők a Civit közösségben. Az alacsony rangú adaptációs modellek (LoRA) betanításával jelentősen csökkennek az időbeli stabilitással kapcsolatos problémák, amelyek két éve sújtják az AI-videók generálását. Források: civit.ai

A fent látható videóban Natalie Portman, Christina Hendricks és Scarlett Johansson színésznők képmásai, valamint a technológiai vezető Elon Musk viszonylag kis kiegészítő fájlokat képeztek a Hunyuan generatív videórendszerhez, amely telepíthető. tartalomszűrők nélkül (például NSFW-szűrők) a felhasználó számítógépén.

A fent látható Christina Hendricks LoRA alkotója azt állítja, hogy csak 16 kép a Mad Men TV-műsorra volt szükség a modell kifejlesztéséhez (ami mindössze 307 MB letöltés); A Reddit és a Discord Stable Diffusion közösségének több bejegyzése megerősíti, hogy az ilyen típusú LoRA-k a legtöbb esetben nem igényelnek nagy mennyiségű képzési adatot vagy hosszú képzési időt.

Cnyaljon játszani. Arnold Schwarzeneggert keltik életre egy Hunyuan LoRA videóban, amely letölthető a Civitről. További Arnie-példákért lásd: https://www.youtube.com/watch?v=1D7B9g9rY68, az AI-rajongó Bob Doyle-tól.

A Hunyuan LoRA-k statikus képeken vagy videókon is betaníthatók, bár a videókon való képzés nagyobb hardvererőforrást és megnövelt edzési időt igényel.

A Hunyuan Video modell 13 milliárd paramétert tartalmaz, ami meghaladja a Sora 12 milliárdos paraméterét, és messze meghaladja a kevésbé alkalmasakat. Hunyuan-DiT modell 2024 nyarán nyílt forráskódú, ami mindössze 1.5 milliárd paraméterrel rendelkezik.

Ahogy az is történt két és fél éve Stable Diffusion és LoRA segítségével (lásd a Stable Diffusion 1.5 „natív” hírességeinek példáit itt), a szóban forgó alapítványi modell sokkal korlátozottabb ismeretekkel rendelkezik a hírességek személyiségeiről, mint az „ID-injektált” LoRA-megvalósítások révén elérhető hűségszinthez képest.

Valójában egy személyre szabott, személyiségközpontú LoRA „szabad utat” kap az alap Hunyuan modell jelentős szintézis képességeihez, és lényegesen hatékonyabb emberi szintézist kínál, mint a 2017-es korszakban elérhető. autoencoder mélyhamisítás vagy azzal, hogy megkísérelnek mozgást hozzáadni a statikus képekhez olyan rendszereken keresztül, mint például a feted Élőportré.

Az itt bemutatott összes LoRA ingyenesen letölthető a rendkívül népszerű Civit közösségből, míg a régebbi, egyedi készítésű „statikus kép” LoRA-k potenciálisan „mag” képeket is létrehozhatnak a videókészítési folyamathoz (pl. to-video, a Hunyuan Video függőben lévő kiadása azonban megoldások lehetségesek, pillanatnyilag).

Kattintson a játék elkezdéséhez. Fent, minták egy „statikus” Flux LoRA-ból; alább példák egy Hunyuan LoRA videóból, amelyben Taylor Swift zenész szerepel. Mindkét LoRA ingyenesen elérhető a Civit közösségben.

Ahogy írom, a Civit weboldala 128 keresési eredményt kínál a 'Hunyuan'* kifejezésre. Ezek szinte mindegyike valamilyen módon NSFW modell; 22 hírességeket ábrázol; 18-at úgy tervezték, hogy megkönnyítsék a kemény pornográfia létrehozását; és csak hét közülük inkább férfiakat, mint nőket ábrázolnak.

Szóval mi újság?

Miatt fejlődő természet a kifejezés deepfake, és korlátozott a nyilvánosság számára a (elég súlyos) a mesterséges intelligencia emberi videó szintézis keretrendszereinek eddigi korlátai, a Hunyuan LoRA jelentőségét nem könnyű megérteni a generatív mesterséges intelligencia jelenetet lazán követő ember számára. Tekintsünk át néhány kulcsfontosságú különbséget a Hunyuan LoRA-k és az identitásalapú AI-videógenerálás korábbi megközelítései között.

1: Korlátlan helyi telepítés

A Hunyuan Video legfontosabb szempontja, hogy helyben letölthető, és nagyon erős és cenzúrázatlan A mesterséges intelligencia videógeneráló rendszere az alkalmi felhasználó, valamint a VFX közösség kezében van (amennyire a licencek földrajzi régiókban megengedik).

Ez utoljára a Stability.ai Stable Diffusion modell nyílt forráskódú kiadása volt. 2022 nyarán. Abban az időben az OpenAI DALL-E2-je volt rögzített a közvélemény képzelete, bár a DALLE-2 fizetős szolgáltatás volt, jelentős korlátozásokkal (amelyek az idő múlásával növekedtek).

Amikor a stabil diffúzió elérhetővé vált, és az alacsony rangú adaptáció lehetővé tette a képek létrehozását a bármilyen személy (híresség vagy sem), a fejlesztők és a fogyasztói érdeklődés hatalmas köre segített a Stable Diffusion-nak elhomályosítani a DALLE-2 népszerűségét; noha az utóbbi már készen áll, a cenzúrázási rutinja igen alkalmasabb volt megterhelőnek tekintik sok felhasználó által, és a testreszabás nem volt lehetséges.

Vitathatatlan, hogy most ugyanez a forgatókönyv érvényes Sora és Hunyuan – vagy pontosabban – között Sora fokozatú szabadalmaztatott generatív videorendszerek és nyílt forráskódú riválisok, amelyek közül a Hunyuan az első – de valószínűleg nem az utolsó (itt vegyük figyelembe, hogy Fényáram végül jelentős teret nyerne a stabil diffúzióban).

Azok a felhasználók, akik Hunyuan LoRA kimenetet szeretnének létrehozni, de nem rendelkeznek hatékonyan nagy felszereléssel, mint mindig, a képzés GPU aspektusát az online számítási szolgáltatásokra terhelhetik. mint például a RunPod. Ez nem ugyanaz, mint mesterséges intelligencia-videók létrehozása olyan platformokon, mint a Kaiber vagy a Kling, mivel nincs szemantikai vagy képalapú szűrés (cenzúra), amely az online GPU bérlésével járna az egyébként helyi munkafolyamat támogatására.

2: Nincs szükség „gazda” videókra és nagy erőfeszítésre

Amikor 2017 végén a mélyhamisítások berobbantak a színre, a névtelenül közzétett kód a mainstream fork-okká fejlődött. DeepFaceLab és a arccsere (valamint a DeepFaceLive valós idejű mélyhamisítási rendszer).

Ehhez a módszerhez minden egyes identitás több ezer arcképének gondos gondozására volt szükség, hogy felcseréljék; minél kevesebb erőfeszítést tesznek ebben a szakaszban, annál kevésbé lesz hatékony a modell. Ezenkívül a képzési idők 2-14 nap között változtak, a rendelkezésre álló hardvertől függően, hosszú távon megterhelve az alkalmas rendszereket is.

Amikor a modell végre elkészült, már csak arcokat tudott beletenni a meglévő videóba, és általában olyan „cél” (azaz valódi) identitásra volt szüksége, amely megjelenésében közel állt a rárakott identitáshoz.

A közelmúltban, ROOP, a LivePortrait és számos hasonló keretrendszer hasonló funkcionalitást biztosított sokkal kevesebb erőfeszítéssel, és gyakran kiváló eredménnyel – de nem képesek pontos generálni teljes test mélyhamisítása – vagy bármely más elem az arcokon kívül.

Példák a ROOP Unleashedre és a LivePortraitre (balra lent), Bob Doyle tartalomfolyamából a YouTube-on. Források: https://www.youtube.com/watch?v=i39xeYPBAAM és https://www.youtube.com/watch?v=QGatEItg2Ns

Példák a ROOP Unleashedre és a LivePortraitre (balra lent), Bob Doyle tartalomfolyamából a YouTube-on. Források: https://www.youtube.com/watch?v=i39xeYPBAAM és https://www.youtube.com/watch?v=QGatEItg2Ns

Ezzel szemben a Hunyuan LoRA-k (és a hasonló rendszerek, amelyek elkerülhetetlenül ezután következnek) lehetővé teszik teljes világok korlátlan létrehozását, beleértve a felhasználó által kiképzett LoRA-identitás teljes testes szimulációját.

3: Jelentősen javított időbeli konzisztencia

Az időbeli következetesség megvolt Grál a diffúziós videót már több éve. A LoRA használata a megfelelő promptokkal együtt állandó identitási hivatkozást ad a Hunyuan videógenerációnak, amelyet be kell tartani. Elméletileg (ezek a korai idők) egy adott identitás több LoRA-ját is ki lehet képezni, mindegyik speciális ruhát visel.

Ilyen égisze alatt a ruházat is kisebb valószínűséggel „mutálódik” a videógeneráció során (mivel a generatív rendszer a következő képkockát az előző képkockák nagyon korlátozott időtartamára alapozza).

(Alternatív megoldásként, a képalapú LoRA-rendszerekhez hasonlóan, egyszerűen több LoRA-t, például identitás + jelmez LoRA-t alkalmazhatunk egyetlen videógenerációra.)

4: Hozzáférés az „emberi kísérlethez”

Mint én nemrég megfigyelték, a szabadalmaztatott és FAANG-szintű generatív mesterséges intelligencia szektor úgy tűnik, annyira óvakodik a projektjei emberi szintézis képességeivel kapcsolatos esetleges kritikáktól, hogy a tényleges emberek ritkán jelennek meg a projekt oldalain a nagyobb bejelentések és kiadások kapcsán. Ehelyett a kapcsolódó publicitásirodalom egyre inkább „aranyos” és egyébként „nem fenyegető” témákat mutat be a szintetizált eredményekben.

A Hunyuan LoRA-k megjelenésével a közösségnek most először nyílik lehetősége arra, hogy egy nagy képességű (nem pedig marginális) rendszerben feszegesse az LDM-alapú emberi videoszintézis határait, és teljes mértékben feltárja a többséget leginkább érdeklő témát. tőlünk – emberektől.

Következmények

Mivel a „Hunyuan” kifejezésre a Civit közösségben végzett keresések többnyire hírességek LoRA-kat és „kemény” LoRA-kat mutatnak be, a Hunyuan LoRA-k megjelenésének központi következménye az, hogy valódi emberekről készült pornográf (vagy más módon rágalmazó) mesterséges intelligencia-videók készítésére fogják használni – hírességek és ismeretlenek egyaránt.

A megfelelés érdekében a Hunyuan LoRA-kat létrehozó és ezekkel a különféle Discord szervereken kísérletező hobbibarátok ügyelnek arra, hogy megtiltsák valós személyekről szóló példák közzétételét. A valóság az, hogy még kép-alapú deepfake most súlyosan fegyverzett; és az a lehetőség, hogy valóban valósághű videókat adjunk a keverékhez, végre igazolhatja azokat a felfokozott félelmeket, amelyek az elmúlt hét évben visszatértek a médiában, és amelyek újabb előírások.

A hajtóerő

Mint mindig, pornó maradványok a technológia hajtóereje. Bármilyen véleményünk is legyen az ilyen használatról, ez a könyörtelen lendület olyan fejlesztéseket hajt végre a legkorszerűbb technika terén, amelyek végső soron előnyösebbek lehetnek az általánosabb használatban.

Ebben az esetben előfordulhat, hogy az ár magasabb lesz a szokásosnál, mivel a hiperrealisztikus videókészítés nyílt forráskódú készítése nyilvánvalóan büntetőjogi, politikai és etikai visszaélésekre utal.

Az egyik Reddit csoport (amelyet itt nem fogok megnevezni), amely az NSFW-videótartalom mesterséges intelligenciájának generálására hivatott, rendelkezik egy kapcsolódó, nyitott Discord-szerverrel, ahol a felhasználók finomítanak. ComfyUI munkafolyamatok a Hunyuan-alapú videopornó generációhoz. A felhasználók naponta tesznek közzé példákat NSFW-klipekre – amelyek közül sok ésszerűen nevezhető „extrémnek”, vagy legalábbis megfeszíti a fórumszabályzatban meghatározott korlátozásokat.

Ez a közösség egy jelentős és jól fejlett GitHub-tárat is tart fenn, amely olyan eszközöket tartalmaz, amelyek képesek letölteni és feldolgozni a pornográf videókat, hogy képzési adatokat biztosítsanak az új modellekhez.

Mivel a legnépszerűbb LoRA tréner, a Kohya-ss, most támogatja a Hunyuan LoRA képzést, a korlátlan generatív videotréningbe való belépési korlátok naponta csökkennek, a hardverigényekkel együtt Hunyuan edzéshez és videógeneráláshoz.

A pornóalapú mesterséges intelligencia számára dedikált képzési programok döntő szempontja (ahelyett identitásalapú modellek, mint például a hírességek) az, hogy egy szabványos alapmodell, mint például a Hunyuan, nincs kifejezetten az NSFW kimenetre oktatva, ezért vagy gyengén teljesít, ha arra kérik, hogy hozzanak létre NSFW tartalmat, vagy nem megszabadít a tanult fogalmakat és asszociációkat performatív vagy meggyőző módon.

A finomhangolt NSFW-alapmodellek és LoRA-k kifejlesztésével egyre inkább lehetővé válik a betanított identitások kivetítése egy dedikált „pornó” videótartományba; elvégre ez csak a videós változata valaminek már megtörtént állóképekhez az elmúlt két és fél évben.

VFX

A Hunyuan Video LoRA-k által kínált időbeli konzisztencia hatalmas növekedése nyilvánvaló áldás az AI vizuális effektusok iparága számára, amely nagymértékben támaszkodik a nyílt forráskódú szoftverek adaptálására.

Bár a Hunyuan Video LoRA-megközelítés egy teljes képkockát és környezetet generál, a VFX-cégek szinte bizonyosan elkezdtek kísérletezni az ezzel a módszerrel nyerhető, időben konzisztens emberi arcok elkülönítésével, hogy az arcokat a valós forrásból készült felvételekbe rakják vagy integrálják. .

A hobbiközösséghez hasonlóan a VFX cégeknek is meg kell várniuk a Hunyuan Video kép-videó és videó-videó funkcionalitását, amely potenciálisan a leghasznosabb híd a LoRA által vezérelt, azonosító alapú „deepfake” tartalmak között; vagy improvizáljon, és használja az intervallumot a keret és a lehetséges adaptációk külső képességeinek, sőt a Hunyuan Video szabadalmaztatott házon belüli forkjainak vizsgálatára.

Bár a licencfeltételek a Hunyuan Video esetében technikailag lehetővé teszik valós személyek ábrázolását, amennyiben erre engedélyt adnak, megtiltják a használatát az EU-ban, az Egyesült Királyságban és Dél-Koreában. A „vegasban marad” elv alapján ez nem feltétlenül jelenti azt, hogy a Hunyuan Video nem kerül felhasználásra ezekben a régiókban; ugyanakkor kilátásba helyezhető a külső adatellenőrzés, érvényesíteni a növekvő szabályozások a generatív AI körül, kockázatossá teheti az ilyen tiltott felhasználást.

A licencfeltételek egy másik potenciálisan kétértelmű területe a következőket tartalmazza:

„Ha a Tencent Hunyuan verzió kiadásának napján a Licencvevő által vagy a Licencvevő számára elérhetővé tett összes termék vagy szolgáltatás havi aktív felhasználója meghaladja a 100 millió havi aktív felhasználót az előző naptári hónapban, Önnek licencet kell kérnie a Tencenttől, amelyre a Tencent kizárólagos belátása szerint biztosíthatja Önt, és Ön nem jogosult a jelen Megállapodás szerinti jogok gyakorlására, kivéve, ha vagy amíg a Tencent kifejezetten nem biztosítja Önnek ezeket a jogokat.

Ez a záradék egyértelműen azoknak a cégeknek a sokaságára irányul, amelyek valószínűleg „középítik” a Hunyuan Video-t a technológiailag analfabéta felhasználók számára, és akiknek egy bizonyos felhasználói plafon felett bele kell vágniuk a Tencent-be.

Függetlenül attól, hogy a tág megfogalmazás is kiterjedhet-e közvetett használat (azaz a Hunyuan-kompatibilis vizuális effektusok népszerű filmekben és tévéműsorokban történő biztosítása révén) pontosításra szorulhat.

Következtetés

Mivel a deepfake videó már régóta létezik, könnyű lenne alábecsülni a Hunyuan Video LoRA jelentőségét, mint az identitásszintézis és a deepfaking megközelítése; és feltételezni, hogy a Civit közösségben, valamint a kapcsolódó Discordokban és subredditekben jelenleg megnyilvánuló fejlemények pusztán egy inkrementális lökést jelentenek a valóban ellenőrizhető emberi videoszintézis felé.

Valószínűbb, hogy a jelenlegi erőfeszítések csak töredékét képviselik a Hunyuan Video azon lehetőségeinek, hogy teljesen meggyőző, teljes testet és környezetet átfogó mélyhamisításokat hozzon létre; amint a kép-videó komponens megjelenik (a pletykák szerint ebben a hónapban fog megtörténni), a generatív energia sokkal részletesebb szintje válik elérhetővé mind a hobbi-, mind a szakmai közösségek számára.

Amikor a Stability.ai 2022-ben kiadta a Stable Diffusion-t, sok megfigyelő nem tudta eldönteni, hogy a vállalat miért adja oda azt, ami akkoriban olyan értékes és erőteljes generatív rendszer volt. A Hunyuan Video esetében a haszonszerzési cél közvetlenül a licencbe van beépítve – bár a Tencent számára nehéznek bizonyulhat annak meghatározása, hogy egy vállalat mikor váltja ki a profitmegosztási rendszert.

Az eredmény mindenesetre ugyanaz, mint 2022-ben: a megjelenés körül azonnal és heves hévvel alakultak az elkötelezett fejlesztői közösségek. Az elkövetkező 12 hónapban ezeknek az erőfeszítéseknek az utak némelyike ​​minden bizonnyal új címszavakra késztet.

 

* A megjelenésig 136-ig.

Első megjelenés: 7. január 2025., kedd

Író a gépi tanulásról, az emberi képszintézis terület specialistája. A Metaphysic.ai kutatási tartalomért felelős vezetője volt.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai