Kontakt med oss

Kunstig intelligens

The Rise of Hunyuan Video Deepfakes

mm
En Arnie Hunyuan Video LoRA demonstrert av Bob Doyle, på ComfyUI, på YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – og, innsatt til høyre, henter fra forskjellige eksempelvideoer for den samme LoRA på Civit. ai

På grunn av arten av noe av materialet som diskuteres her, vil denne artikkelen inneholde færre referanselenker og illustrasjoner enn vanlig.

Noe bemerkelsesverdig skjer for tiden i AI-syntesesamfunnet, selv om betydningen kan ta en stund før det blir klart. Hobbyister trener generative AI-videomodeller for å reprodusere likheter til mennesker, ved hjelp av videobaserte LoRA-er om Tencents nylig utgitte åpen kildekode Hunyuan videorammeverk.*

Klikk for å spille. Diverse resultater fra Hunyuan-baserte LoRA-tilpasninger fritt tilgjengelig på Civit-fellesskapet. Ved å trene lavrangerte tilpasningsmodeller (LoRAs), reduseres problemer med tidsstabilitet, som har plaget AI-videogenerering i to år, betydelig. Kilder: civit.ai

I videoen som er vist ovenfor, har likhetene til skuespillerinnene Natalie Portman, Christina Hendricks og Scarlett Johansson, sammen med teknologileder Elon Musk, blitt opplært til relativt små tilleggsfiler for det generative videosystemet Hunyuan, som kan installeres uten innholdsfiltre (som for eksempel NSFW-filtre) på en brukers datamaskin.

Skaperen av Christina Hendricks LoRA vist ovenfor sier at bare 16 bilder fra Mad Men TV-show var nødvendig for å utvikle modellen (som er bare 307 MB nedlasting); flere innlegg fra Stable Diffusion-fellesskapet på Reddit og Discord bekrefter at LoRA-er av denne typen ikke krever store mengder treningsdata, eller høye treningstider, i de fleste tilfeller.

Cslikk for å spille. Arnold Schwarzenegger vekkes til live i en Hunyuan-video LoRA som kan lastes ned på Civit. Se https://www.youtube.com/watch?v=1D7B9g9rY68 for flere Arnie-eksempler, fra AI-entusiasten Bob Doyle.

Hunyuan LoRA-er kan trenes på enten statiske bilder eller videoer, selv om trening på videoer krever større maskinvareressurser og økt treningstid.

Hunyuan-videomodellen har 13 milliarder parametere, som overgår Soras 12 milliarder parametere, og langt overgår de mindre kapable Hunyuan-DiT modell utgitt til åpen kildekode sommeren 2024, som har bare 1.5 milliarder parametere.

Som tilfellet var for to og et halvt år siden med Stable Diffusion og LoRA (se eksempler på Stable Diffusion 1.5s 'innfødte' kjendiser) her.), har den aktuelle fundamentsmodellen en langt mer begrenset forståelse av kjendispersonligheter, sammenlignet med nivået av troskap som kan oppnås gjennom «ID-injiserte» LoRA-implementeringer.

Effektivt sett får en tilpasset, personlighetsfokusert LoRA en «gratis tur» på de betydelige syntesemulighetene til basismodellen Hunyuan, og tilbyr en betydelig mer effektiv menneskelig syntese enn det som kan oppnås enten innen 2017-æraen. autoencoder deepfakes eller ved å forsøke å legge til bevegelse til statiske bilder via systemer som feted LivePortrett.

Alle LoRA-ene som er avbildet her kan lastes ned fritt fra det svært populære Civit-fellesskapet, mens det mer omfattende antallet eldre, spesiallagde LoRA-er med «statisk bilde» også potensielt kan lage «frøbilder» for videoproduksjonsprosessen (dvs. bilde-til-video, en ventende utgivelse for Hunyuan Video). løsninger er mulige, for øyeblikket).

Klikk for å spille. Over, eksempler fra en «statisk» Flux LoRA; nedenfor, eksempler fra en Hunyuan-video-LoRA med musikeren Taylor Swift. Begge disse LoRA-ene er fritt tilgjengelige i Civit-fellesskapet.

Mens jeg skriver dette, tilbyr Civit-nettstedet 128 søkeresultater for «Hunyuan»*. Nesten alle disse er på en eller annen måte NSFW-modeller; 22 avbilder kjendiser; 18 er utformet for å legge til rette for generering av hardcore pornografi; og bare syv av dem avbilder menn i stedet for kvinner.

Så hva er nytt?

På grunn av natur i utvikling av begrepet deepfake, og begrenset offentlig forståelse av (ganske alvorlig) begrensningene til rammeverk for menneskelig videosyntese av kunstig intelligens til dags dato, er betydningen av Hunyuan LoRA ikke lett å forstå for en person som tilfeldig følger den generative kunstig intelligens-scenen. La oss gjennomgå noen av de viktigste forskjellene mellom Hunyuan LoRA-er og tidligere tilnærminger til identitetsbasert kunstig intelligens-videogenerering.

1: Uhindret lokal installasjon

Det viktigste aspektet ved Hunyuan Video er det faktum at den kan lastes ned lokalt, og at den har en veldig kraftig og usensurert AI-videogenereringssystem i hendene på den tilfeldige brukeren, så vel som VFX-fellesskapet (i den grad lisenser kan tillate på tvers av geografiske regioner).

Sist gang dette skjedde var lanseringen til åpen kildekode av Stability.ai Stable Diffusion-modellen sommeren 2022På den tiden hadde OpenAIs DALL-E2 fanget den offentlige fantasien, selv om DALLE-2 var en betalt tjeneste med bemerkelsesverdige begrensninger (som vokste over tid).

Da Stable Diffusion ble tilgjengelig, og Low-Rank Adaptation gjorde det mulig å generere bilder av identiteten til noen person (kjendis eller ikke), det enorme stedet for utvikler- og forbrukerinteresse hjalp Stable Diffusion med å formørke populariteten til DALLE-2; selv om sistnevnte var et mer kapabelt system ut av esken, var dets sensurrutiner sett på som tyngende av mange av brukerne, og tilpasning var ikke mulig.

Sannsynligvis gjelder det samme scenariet nå mellom Sora og Hunyuan – eller, mer nøyaktig, mellom Sora-grad proprietære generative videosystemer og åpen kildekode-rivaler, hvorav Hunyuan er den første – men sannsynligvis ikke den siste (her, tenk på at Flux vil til slutt vinne betydelig terreng på stabil diffusjon).

Brukere som ønsker å lage Hunyuan LoRA-utdata, men som mangler effektivt kraftig utstyr, kan, som alltid, laste ned GPU-aspektet av trening til online datatjenester som RunPod. Dette er ikke det samme som å lage AI-videoer på plattformer som Kaiber eller Kling, siden det ikke er noen semantisk eller bildebasert filtrering (sensurering) involvert i å leie en online GPU for å støtte en ellers lokal arbeidsflyt.

2: Ikke behov for "vert"-videoer og høy innsats

Når deepfakes brast inn på scenen på slutten av 2017, ville den anonymt postede koden utvikle seg til mainstream-gaflene DeepFaceLab og ansiktsbytte (samt DeepFaceLive sanntids deepfaking-system).

Denne metoden krevde den møysommelige kurasjonen av tusenvis av ansiktsbilder av hver identitet som ble byttet; jo mindre innsats som legges inn på dette stadiet, jo mindre effektiv vil modellen være. I tillegg varierte treningstidene mellom 2-14 dager, avhengig av tilgjengelig maskinvare, noe som stresser selv dyktige systemer på lang sikt.

Når modellen endelig var klar, kunne den bare legge ansikter inn i eksisterende video, og trengte vanligvis en «mål»- (dvs. ekte) identitet som lignet på den overliggende identiteten.

Mer nylig, ROOP, LivePortrait og en rekke lignende rammeverk har gitt lignende funksjonalitet med langt mindre innsats, og ofte med overlegne resultater – men uten kapasitet til å generere nøyaktig deepfakes på hele kroppen – eller andre elementer enn ansikter.

Eksempler på ROOP Unleashed og LivePortrait (innsatt nede til venstre), fra Bob Doyles innholdsstrøm på YouTube. Kilder: https://www.youtube.com/watch?v=i39xeYPBAAM og https://www.youtube.com/watch?v=QGatEItg2Ns

Eksempler på ROOP Unleashed og LivePortrait (innsatt nederst til venstre), fra Bob Doyles innholdsstrøm på YouTube. Kilder: https://www.youtube.com/watch?v=i39xeYPBAAM og https://www.youtube.com/watch?v=QGatEItg2Ns

Derimot tillater Hunyuan LoRA-er (og de lignende systemene som uunngåelig vil følge) uhindret skapelse av hele verdener, inkludert helkroppssimulering av den brukertrente LoRA-identiteten.

3: Massivt forbedret tidsmessig konsistens

Tidsmessig konsistens har vært den hellige gral av diffusjonsvideo i flere år nå. Bruken av en LoRA, sammen med passende spørsmål, gir en Hunyuan-videogenerasjon en konstant identitetsreferanse å følge. I teorien (dette er tidlige dager), kan man trene flere LoRA-er med en bestemt identitet, hver iført spesifikke klær.

Under disse reglene er det også mindre sannsynlig at klærne «muterer» i løpet av en videogenerering (siden det generative systemet baserer neste bilde på et svært begrenset vindu med tidligere bilderammer).

(Alternativt, som med bildebaserte LoRA-systemer, kan man ganske enkelt bruke flere LoRA-er, for eksempel identitet + kostyme-LoRA-er, på en enkelt videogenerasjon)

4: Tilgang til «Menneskeeksperimentet»

Som jeg nylig observert, den proprietære og generative AI-sektoren på FAANG-nivå ser nå ut til å være så skeptisk til potensiell kritikk knyttet til den menneskelige synteseevnen til prosjektene, at faktisk porsjoner vises sjelden på prosjektsider for større kunngjøringer og utgivelser. I stedet har relatert publisitetslitteratur i økende grad en tendens til å vise «søte» og ellers «ikke-truende» subjekter i syntetiserte resultater.

Med ankomsten av Hunyuan LoRAs, for første gang, har fellesskapet en mulighet til å flytte grensene for LDM-basert menneskelig videosyntese i et svært kapabelt (i stedet for marginalt) system, og til å fullt ut utforske emnet som interesserer flertallet mest. av oss – mennesker.

Implikasjoner

Siden et søk etter «Hunyuan» i Civit-fellesskapet stort sett viser kjendis-LoRA-er og «hardcore» LoRA-er, er den sentrale implikasjonen av fremveksten av Hunyuan LoRA-er at de vil bli brukt til å lage pornografiske (eller på annen måte ærekrenkende) videoer med kunstig intelligens av ekte mennesker – både kjendiser og ukjente.

Av hensyn til samsvar er hobbyistene som lager Hunyuan LoRA-er og som eksperimenterer med dem på forskjellige Discord-servere nøye med å forby eksempler på ekte mennesker fra å bli lagt ut. Realiteten er at selv bilde-baserte deepfakes er nå sterkt bevæpnet; og utsiktene til å legge til virkelig realistiske videoer i blandingen kan endelig rettferdiggjøre den økte frykten som har vært tilbakevendende i media de siste syv årene, og som har ført til nye forskrifter.

Drivkraften

Som alltid, porno forblir drivkraften for teknologi. Uansett hva vi mener om slik bruk, driver denne nådeløse drivkraften fremskritt innen det siste som til slutt kan være til fordel for mer mainstream-adopsjon.

I dette tilfellet er det mulig at prisen vil være høyere enn vanlig, siden åpen kildekode for hyperrealistisk videoskaping har åpenbare implikasjoner for kriminell, politisk og etisk misbruk.

En Reddit-gruppe (som jeg ikke vil nevne her) dedikert til AI-generering av NSFW-videoinnhold har en tilknyttet, åpen Discord-server der brukere avgrenser ComfyUI arbeidsflyter for Hunyuan-basert generering av videoporno. Daglig legger brukere ut eksempler på NSFW-klipp – hvorav mange med rimelighet kan kalles «ekstreme», eller i det minste strammer begrensningene som er angitt i forumreglene.

Dette fellesskapet har også et betydelig og velutviklet GitHub-lager med verktøy som kan laste ned og behandle pornografiske videoer, for å gi opplæringsdata for nye modeller.

Siden den mest populære LoRA-treneren, Kohya-ss, støtter nå Hunyuan LoRA-trening, synker inngangsbarrierene for ubegrenset generativ videotrening daglig, sammen med maskinvarekravene for Hunyuan-trening og videogenerering.

Det avgjørende aspektet ved dedikerte treningsopplegg for pornobasert kunstig intelligens (i stedet for identitet-baserte modeller, som kjendiser) er at en standard grunnmodell som Hunyuan ikke er spesifikt trent på NSFW-utdata, og kan derfor enten yte dårlig når de blir bedt om å generere NSFW-innhold, eller mislykkes i å løsne opp lærte begreper og assosiasjoner på en performativ eller overbevisende måte.

Ved å utvikle finjusterte NSFW-grunnmodeller og LoRA-er, vil det i økende grad bli mulig å projisere trente identiteter inn i et dedikert «porno»-videodomene; dette er tross alt bare videoversjonen av noe som har allerede skjedd for stillbilder de siste to og et halvt årene.

VFX

Den enorme økningen i tidsmessig konsistens som Hunyuan Video LoRAs tilbyr er en åpenbar velsignelse for AI-industrien for visuelle effekter, som lener seg veldig tungt på å tilpasse åpen kildekode-programvare.

Selv om en Hunyuan Video LoRA-tilnærming genererer en hel ramme og et helt miljø, har VFX-selskaper nesten helt sikkert begynt å eksperimentere med å isolere de tidsmessig konsistente menneskelige ansiktene som kan oppnås ved hjelp av denne metoden, for å overlappe eller integrere ansikter i virkelige kildeopptak .

I likhet med hobbymiljøet må VFX-selskaper vente på Hunyuan Videos bilde-til-video- og video-til-video-funksjonalitet, som potensielt er den mest nyttige broen mellom LoRA-drevet, ID-basert «deepfake»-innhold; eller improvisere og bruke intervallet til å undersøke de ytre egenskapene til rammeverket og potensielle tilpasninger, og til og med proprietære interne forks av Hunyuan Video.

Selv om lisensvilkår Fordi Hunyuan Video teknisk sett tillater avbildning av virkelige individer så lenge tillatelse er gitt, forbyr de bruken i EU, Storbritannia og Sør-Korea. Ut fra prinsippet om å «bli i Vegas» betyr ikke dette nødvendigvis at Hunyuan Video ikke vil bli brukt i disse regionene. Utsiktene til eksterne datarevisjoner for å håndheve en voksende regelverk rundt generativ AI, kan gjøre slik ulovlig bruk risikabel.

Et annet potensielt tvetydig område av lisensvilkårene sier:

«Hvis det månedlige antallet aktive brukere av alle produkter eller tjenester som er gjort tilgjengelig av eller for lisensinnehaveren er større enn 100 millioner månedlige aktive brukere i foregående kalendermåned på utgivelsesdatoen for Tencent Hunyuan-versjonen, må du be om en lisens fra Tencent, som Tencent kan gi deg etter eget skjønn, og du er ikke autorisert til å utøve noen av rettighetene i henhold til denne avtalen med mindre eller før Tencent uttrykkelig gir deg slike rettigheter.»

Denne klausulen er tydelig rettet mot de mange selskapene som sannsynligvis vil «mellommanne» Hunyuan Video for en relativt teknologisk analfabet brukergruppe, og som vil bli pålagt å inkludere Tencent i handlingen, over et visst tak av brukere.

Hvorvidt den brede formuleringen også kan dekke indirekte bruk (dvs. via levering av Hunyuan-aktiverte visuelle effekter i populære filmer og TV) kan trenge avklaring.

Konklusjon

Siden deepfake video har eksistert i lang tid, ville det være lett å undervurdere betydningen av Hunyuan Video LoRA som en tilnærming til identitetssyntese, og deepfaking; og å anta at utviklingen som for tiden manifesterer seg i Civit-fellesskapet, og ved relaterte Discords og subreddits, bare representerer en inkrementell dytt mot virkelig kontrollerbar menneskelig videosyntese.

Det er mer sannsynlig at den nåværende innsatsen bare representerer en brøkdel av Hunyuan Videos potensial til å skape fullstendig overbevisende deepfakes i hele kroppen og hele miljøet. Når bilde-til-video-komponenten er utgitt (det ryktes at den skal skje denne måneden), vil et langt mer detaljert nivå av generativ kraft bli tilgjengelig for både hobby- og profesjonelle miljøer.

Da Stability.ai ga ut Stable Diffusion i 2022, kunne mange observatører ikke finne ut hvorfor selskapet bare ville gi bort det som på den tiden var et så verdifullt og kraftig generativt system. Med Hunyuan Video bygges profittmotivet direkte inn i lisensen – selv om det kan vise seg vanskelig for Tencent å avgjøre når et selskap utløser overskuddsdelingsordningen.

Uansett er resultatet det samme som i 2022: dedikerte utviklingsfellesskap har dannet seg umiddelbart og med intens glød rundt utgivelsen. Noen av veiene som denne innsatsen vil ta i løpet av de neste 12 månedene, vil garantert føre til nye overskrifter.

 

* Opptil 136 ved utgivelsestidspunktet.

Først publisert tirsdag 7. januar 2025

Forfatter på maskinlæring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai