Artificial Intelligence

Disentanglement Is the Next Deepfake Revolution

Uppfært on Desember 9, 2022

CGI gagnaaukning er notuð í nýju verkefni til að ná meiri stjórn á djúpfölsuðum myndum. Þó að þú getir enn ekki notað CGI-hausa á áhrifaríkan hátt til að fylla upp í eyðurnar sem vantar í djúpfölsuðum andlitsgagnasöfnum, þá þýðir ný bylgja rannsókna á því að aftengja sjálfsmynd frá samhengi að fljótlega þarftu það ekki.

Höfundar nokkurra farsælustu veiru-djúpfölsunarvídeóa undanfarinna ára velja upprunamyndbönd sín mjög vandlega og forðast viðvarandi prófílskot (þ.e. svona hliðarmyndir sem hafa verið vinsælar af handtökuaðferðum lögreglu), skörp horn og óvenjuleg eða ýkt tjáning . Sýningarmyndböndin sem framleidd eru af djúpfölsun veiru eru í auknum mæli klipptar safnmyndir sem velja „auðveldustu“ hornin og tjáninguna til að djúpfalsa.

Reyndar er það myndskeið sem er mest tilbúið til að setja inn djúpfalsaða frægð í því þar sem upprunalega manneskjan (sem verður eytt af sjálfsmyndinni með djúpfalsinu) horfir beint í myndavélina, með lágmarks svipbrigði.

Meirihluti vinsælustu djúpfalsa síðustu ára hefur sýnt myndefni beint frammi fyrir myndavélinni og annað hvort bera aðeins vinsæla svipbrigði (eins og bros), sem auðvelt er að draga úr rauðum teppinu paparazzi-útgáfu, eða (eins og með 2019 falsa Sylvester Stallone eins og Terminator, á myndinni til vinstri), helst án tjáningar, þar sem hlutlaus tjáning er afar algeng, sem gerir það auðvelt að fella þau inn í djúpfölsuð módel.

Vegna djúpfalsa tækni eins og DeepFaceLab og andlitsskipti framkvæma þessar einfaldari skipti mjög vel, við erum nægilega töfrandi yfir því sem þeir afreka til að taka ekki eftir því sem þeir eru ófærir um, og - oft - ekki einu sinni reyna:

Gríp úr margrómuðu djúpfalski myndbandi þar sem Arnold Schwarzenegger er breytt í Sylvester Stallone – nema sjónarhornin séu of erfið. Prófílar eru enn viðvarandi vandamál með núverandi djúpfölsunaraðferðum, að hluta til vegna þess að opinn hugbúnaður sem notaður er til að skilgreina andlitsstellingar í djúpfölsuðum ramma er ekki fínstilltur fyrir hliðarmyndir, en aðallega vegna þess að það er skortur á viðeigandi frumefni í annaðhvort eða báðum nauðsynlegum gagnasöfn. Heimild: https://www.youtube.com/watch?v=AQvCmQFScMA

ný rannsókn frá Ísrael stingur upp á nýrri aðferð til að nota tilbúið gögn, eins og CGI-hausa, til að koma djúpfölsun inn á 2020, með því að aðgreina andlitseinkenni (þ.e. nauðsynleg andlitseinkenni 'Tom Cruise', frá öllum sjónarhornum) frá samhengi þeirra (þ.e. horfa upp, horfa til hliðar, hneykslanlegur, hnípandi í myrkrinu, augabrúnir hryggðar, augun lokuð, O.fl.).

Nýja kerfið aðskilur stellingu og samhengi (þ.e. að blikka auga) frá auðkenniskóðun einstaklingsins, með því að nota ótengd tilbúið andlitsgögn (mynd til vinstri). Í efstu röðinni sjáum við „blikk“ flutt á auðkenni Barack Obama, spurður af lærðri ólínulegri slóð dulds rýmis GAN, táknað með CGI myndinni til vinstri. Í röðinni fyrir neðan sjáum við teygða munnhornsflötinn færðan yfir á fyrrverandi forseta. Neðst til hægri sjáum við báða eiginleikana beitt samtímis. Heimild: https://arxiv.org/pdf/2111.08419.pdf

Þetta er ekki bara deepfake höfuð-brúðuleikur, tækni sem hentar betur fyrir avatar og varasamstillingu að hluta og hefur takmarkaða möguleika á fullgildum djúpfalsmyndabreytingum.

Frekar táknar þetta leið fram á við fyrir grundvallaraðskilnað tækjabúnaðar (ss „breyta horninu á höfðinu“, 'búa til hryggur') frá sjálfsmynd, sem býður upp á leið til háþróaðs frekar en „afleiddrar“ myndsmíði sem byggir á djúpfalsa ramma.

Nýja blaðið ber titilinn Delta-GAN-kóðari: Kóðun merkingarbreytinga fyrir skýra myndvinnslu, með því að nota nokkur tilbúin sýni, og kemur frá vísindamönnum við Technion – Israel Institute of Technology.

Til að skilja hvað verkið þýðir, skulum við skoða hvernig djúpfalsar eru framleiddar alls staðar frá djúpfölsuðum klámsíðum til Iðnaðarljós og töfra (þar sem DeepFaceLab opinn uppspretta geymslan er eins og er ráðandi í bæði „áhugamanna“ og atvinnudjúpfölsun).

Hvað er að halda aftur af núverandi Deepfake tækni?

Deepfakes eru nú búnar til með því að þjálfa an kóðara/afkóðara vélanámslíkan á tveimur möppum af andlitsmyndum – manneskjan sem þú vilt „mála yfir“ (í fyrra dæminu er það Arnie) og manneskjan sem þú vilt setja ofan á myndefnið (Sly).

Dæmi um mismunandi stellingu og birtuskilyrði á tveimur mismunandi andlitssettum. Athugaðu áberandi tjáningu í lok þriðju línunnar í dálki A, sem er ólíklegt að hún hafi náið jafngildi í hinu gagnasafninu.

Kóðunar-/afkóðarakerfið þá ber saman hverja einustu mynd í hverri möppu hvert við annað, viðhalda, bæta og endurtaka þessa aðgerð í hundruð þúsunda endurtekningar (oft í allt að viku), þar til það skilur nauðsynleg einkenni beggja auðkenninga nægilega vel til að skipta þeim um að vild.

Fyrir hvert þeirra tveggja sem skipt er um í ferlinu, það sem djúpfalski arkitektúrinn lærir um sjálfsmynd er flækt í samhengi. Það getur ekki lært og beitt meginreglum um almenna stellingu „fyrir gott og allt“, en þarf nóg af dæmum í þjálfunargagnasettinu, fyrir hverja og eina sjálfsmynd sem á að taka þátt í andlitsskiptum.

Því ef þú vilt skipta um tvö auðkenni sem eru að gera eitthvað óvenjulegra en bara að brosa eða horfa beint í myndavélina þarftu margir dæmi um þessa tilteknu stellingu/auðkenni í andlitssettunum tveimur:

Vegna þess að einkenni andlits- og stellingar eru svo samtvinnuð eins og er, er þörf á víðtækri jöfnuði tjáningar, höfuðstöðu og (í minna mæli) lýsingu á tveimur andlitsgagnasettum til að þjálfa áhrifaríkt djúpfalslíkan á kerfum eins og DeepFaceLab. Því minna sem tiltekin uppsetning (eins og 'hliðarsýn/brosandi/sólbjört') er í báðum andlitssettunum, því ónákvæmari mun hún birtast í djúpfölsku myndbandi, ef þörf krefur.

Ef sett A inniheldur óvenjulegu stellinguna, en sett B skortir hana, ertu frekar óheppinn; Sama hversu lengi þú þjálfar líkanið, það mun aldrei læra að endurskapa þessa stellingu vel á milli auðkennanna, því það hafði aðeins helminginn af nauðsynlegum upplýsingum þegar það var þjálfað.

Jafnvel þótt þú sért með samsvarandi myndir, gæti það ekki verið nóg: ef sett A hefur samsvarandi stellingu, en með sterkri hliðarlýsingu, samanborið við flatlýsta jafngilda stellinguna í hinu andlitssettinu, unnu gæði skiptanna. Ekki vera eins gott og ef hver deildi sameiginlegum lýsingareiginleikum.

Hvers vegna gögnin eru af skornum skammti

Nema þú sért handtekinn reglulega, átt þú sennilega ekki mikið af hliðarmyndum af sjálfum þér. Öllu sem kom upp, hefur þú líklega hent. Þar sem myndastofur gera slíkt hið sama er erfitt að fá andlitsmyndir.

Deepfakers innihalda oft mörg afrit af takmörkuðum hliðarsniðsgögnum sem þeir hafa fyrir auðkenni í andlitsmynd, bara þannig að þessi stelling fái a.m.k. lítið athygli og tíma meðan á þjálfun stendur, í stað þess að fá afslátt sem an útlagi.

En það eru margar fleiri mögulegar tegundir andlitsmynda frá hlið en líklegt er að sé hægt að setja í gagnasafn – brosandi, kinka kolli, öskra, gráta, dimmt upplýst, háðslegur, leiðist, kát, flasslýst, horfa upp, horfa niður, augun opnast, augun lokuð…og svo framvegis. Einhverja þessara stellinga, í mörgum samsetningum, gæti verið nauðsynleg í djúpfölsku skotmarkmyndbandi.

Og það eru bara snið. Hversu margar myndir áttu af þér að leita Beint upp? Hefur þú nóg til að tákna í stórum dráttum 10,000 mögulegar tjáningar þú gætir verið að klæðast á meðan þú heldur nákvæmlega þessari stellingu frá því nákvæmlega myndavélarhorninu og nær að minnsta kosti hluta af ein milljón mögulegs ljósaumhverfis?

Líkurnar eru á að þú hafir það ekki einu sinni einn mynd af þér að horfa upp. Og það eru bara tvö horn af hundrað eða fleiri sem þarf til að ná fullri umfjöllun.

Jafnvel þótt hægt væri að búa til fulla þekju andlits frá öllum sjónarhornum við mismunandi birtuskilyrði, væri gagnasafnið sem myndast allt of stórt til að þjálfa, í stærðargráðunni hundruð þúsunda mynda; og jafnvel þótt það gæti að vera þjálfaður, eðli þjálfunarferlisins fyrir núverandi djúpfalsa ramma myndi henda miklum meirihluta þessara aukagagna í þágu takmarkaðs fjölda afleiddra eiginleika, vegna þess að núverandi rammar eru minnkunarkenndir og ekki mjög skalanlegir.

Syntetísk skipti

Frá dögun djúpfalsa hafa djúpfalsarar gert tilraunir með að nota myndir í CGI-stíl, hausa sem eru gerðir í þrívíddarforritum eins og Cinema3D og Maya, til að búa til þessar „týndu stellingar“.

Engin gervigreind nauðsynleg; leikkona er endurgerð í hefðbundnu CGI forriti, Cinema 4D, með möskva og bitamyndaðri áferð – tækni sem nær aftur til sjöunda áratugarins, þó að hún hafi aðeins náð víðtækri notkun frá því á tíunda áratugnum. Fræðilega séð gæti þetta andlitslíkan verið notað til að búa til djúpfölsuð upprunagögn fyrir óvenjulegar stellingar, lýsingarstíl og svipbrigði. Í raun og veru hefur það verið takmarkað eða ekkert gagn í djúpfalsun, þar sem „fölsun“ teikninganna hefur tilhneigingu til að blæða í gegnum vídeó sem skipt er um. Heimild: Mynd þessarar greinarhöfundar á https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Þessi aðferð er almennt yfirgefin snemma af nýjum djúpfölsuðum iðkendum, vegna þess að þó að hún geti veitt stellingar og tjáningu sem eru annars ekki tiltækar, þá blæðir tilbúið útlit CGI andlitanna venjulega í gegnum skiptin vegna þess að auðkenni og samhengis-/merkingarfræðilegar upplýsingar flækjast.

Þetta getur leitt til þess að andlit í „óhugnanlegum dal“ blikka skyndilega í annars sannfærandi djúpfölsku myndbandi, þar sem reikniritið byrjar að byggja á einu gögnunum sem það kann að hafa fyrir óvenjulega stellingu eða svipbrigði - augljóslega fölsuð andlit.

Meðal vinsælustu viðfangsefna fyrir djúpfölsun, er 3D djúpfölsunaralgrím fyrir ástralsku leikkonuna Margot Robbie innifalið í sjálfgefna uppsetningu DeepFaceLive, útgáfu af DeepFaceLab sem getur framkvæmt djúpfalsanir í beinni útsendingu, svo sem vefmyndavélarlotu. CGI útgáfa, eins og sést á myndinni hér að ofan, gæti verið notað til að fá óvenjuleg „vantar“ horn í djúpfalsuðum gagnasöfnum. Heimild: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Meðal vinsælustu viðfangsefna fyrir djúpfölsun er þrívíddar algrím fyrir ástralsku leikkonuna Margot Robbie. innifalinn í sjálfgefna uppsetningu á DeepFaceLive, útgáfu af DeepFaceLab sem getur framkvæmt djúpfalsanir í beinni útsendingu, svo sem vefmyndavélarlotu. CGI útgáfa, eins og sést á myndinni hér að ofan, gæti verið notað til að fá óvenjuleg „vantar“ horn í djúpfalsuðum gagnasöfnum. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

CGI andlit sem aðskilin, huglæg leiðbeiningar

Þess í stað er nýja Delta-GAN Encoder (DGE) aðferðin frá ísraelskum vísindamönnum skilvirkari, vegna þess að stelling og samhengisupplýsingar frá CGI myndunum hafa verið algjörlega aðskildar frá 'auðkenni' upplýsingum skotmarksins.

Við getum séð þessa meginreglu í verki á myndinni hér að neðan, þar sem ýmsar höfuðstefnur hafa verið fengnar með því að nota CGI myndefnið sem viðmið. Þar sem sjálfsmyndareinkennin eru ótengd samhengiseiginleikum, er engin blæðing í gegnum hvorki af gervi-útliti CGI-andlitsins sem er falsað út, né sjálfsmyndinni sem lýst er í því:

Með nýju aðferðinni þarftu ekki að finna þrjár aðskildar raunveruleikamyndir til að framkalla djúpfalsun frá mörgum sjónarhornum - þú getur bara snúið CGI hausnum, en háþróaðir óhlutbundnir eiginleikar hans eru settir á auðkennið án þess að leka neinu auðkenni. upplýsingar.

Delta-GAN-kóðari. Efst til vinstri hópur: Hægt er að breyta horninu á upprunamynd á einni sekúndu til að gera nýja upprunamynd, sem endurspeglast í úttakinu; Hópur efst til hægri: lýsing er einnig sundruð frá sjálfsmynd, sem gerir kleift að setja saman lýsingarstíla; hópur neðst til vinstri: mörgum andlitsupplýsingum er breytt til að búa til „dapurlegan“ svip; Hópur neðst til hægri: einu smáatriði andlitssvipsins er breytt, þannig að augun kíkja.

Þessi aðskilnaður sjálfsmyndar og samhengis næst á þjálfunarstigi. Leislan fyrir nýja djúpfalsa arkitektúrinn leitar að dulda vektornum í fyrirfram þjálfuðu Generative Adversarial Network (GAN) sem passar við myndina sem á að umbreyta - Sim2Real aðferðafræði sem byggir á 2018 verkefni frá gervigreindarrannsóknarhluta IBM.

Rannsakendur athuga:

„Með aðeins örfáum sýnum, sem eru mismunandi eftir tilteknum eiginleikum, er hægt að læra ófléttaða hegðun fyrirframþjálfaðs flækjugerðar líkans. Það er engin þörf á nákvæmum raunverulegum sýnum til að ná því markmiði, sem er ekki endilega framkvæmanlegt.

„Með því að nota óraunhæf gagnasýni er hægt að ná sama markmiði þökk sé því að nýta merkingarfræði kóðuðu dulda vektoranna. Það er hægt að beita eftirspurðum breytingum yfir núverandi gagnasýni án skýrrar duldrar könnunar á rýmishegðun.'

Rannsakendur gera ráð fyrir að hægt sé að færa meginreglurnar um sundrungu sem kannaðar voru í verkefninu yfir á önnur svið, svo sem eftirlíkingar innanhússarkitektúrs, og að Sim2Real aðferðin sem notuð var fyrir Delta-GAN-Encoder gæti að lokum gert djúpfalsa tækjabúnað sem byggist á skissum, frekar en Inntak í CGI-stíl.

Það mætti halda því fram að hversu mikið nýja ísraelska kerfið gæti eða gæti ekki búið til djúpfölsuð myndbönd sé mun minna marktækt en framfarirnar sem rannsóknirnar hafa náð í að sundra samhengi frá sjálfsmynd, í því ferli að ná meiri stjórn á dulda rýminu. af GAN.

Disentanglement er virkt rannsóknarsvið í myndgerð; í janúar 2021, rannsókn undir forystu Amazon pappír sýndi fram á svipaða stillingarstjórn og sundrungu og árið 2018 a pappír frá Shenzhen Institute of Advanced Technology við kínversku vísindaakademíuna náðu framfarir í að búa til handahófskennd sjónarmið í GAN.