Artificial Intelligence
Disentanglement Is the Next Deepfake Revolution
CGI gagnaaukning er notuð í nýju verkefni til að ná meiri stjórn á djúpfölsuðum myndum. Þó að þú getir enn ekki notað CGI-hausa á áhrifaríkan hátt til að fylla upp í eyðurnar sem vantar í djúpfölsuðum andlitsgagnasöfnum, þá þýðir ný bylgja rannsókna á því að aftengja sjálfsmynd frá samhengi að fljótlega þarftu það ekki.
Höfundar nokkurra farsælustu veiru-djúpfölsunarvídeóa undanfarinna ára velja upprunamyndbönd sín mjög vandlega og forðast viðvarandi prófílskot (þ.e. svona hliðarmyndir sem hafa verið vinsælar af handtökuaðferðum lögreglu), skörp horn og óvenjuleg eða ýkt tjáning . Sýningarmyndböndin sem framleidd eru af djúpfölsun veiru eru í auknum mæli klipptar safnmyndir sem velja „auðveldustu“ hornin og tjáninguna til að djúpfalsa.
Reyndar er það myndskeið sem er mest tilbúið til að setja inn djúpfalsaða frægð í því þar sem upprunalega manneskjan (sem verður eytt af sjálfsmyndinni með djúpfalsinu) horfir beint í myndavélina, með lágmarks svipbrigði.
Vegna djúpfalsa tækni eins og DeepFaceLab og andlitsskipti framkvæma þessar einfaldari skipti mjög vel, við erum nægilega töfrandi yfir því sem þeir afreka til að taka ekki eftir því sem þeir eru ófærir um, og - oft - ekki einu sinni reyna:
ný rannsókn frá Ísrael stingur upp á nýrri aðferð til að nota tilbúið gögn, eins og CGI-hausa, til að koma djúpfölsun inn á 2020, með því að aðgreina andlitseinkenni (þ.e. nauðsynleg andlitseinkenni 'Tom Cruise', frá öllum sjónarhornum) frá samhengi þeirra (þ.e. horfa upp, horfa til hliðar, hneykslanlegur, hnípandi í myrkrinu, augabrúnir hryggðar, augun lokuð, O.fl.).
Þetta er ekki bara deepfake höfuð-brúðuleikur, tækni sem hentar betur fyrir avatar og varasamstillingu að hluta og hefur takmarkaða möguleika á fullgildum djúpfalsmyndabreytingum.
Frekar táknar þetta leið fram á við fyrir grundvallaraðskilnað tækjabúnaðar (ss „breyta horninu á höfðinu“, 'búa til hryggur') frá sjálfsmynd, sem býður upp á leið til háþróaðs frekar en „afleiddrar“ myndsmíði sem byggir á djúpfalsa ramma.
Nýja blaðið ber titilinn Delta-GAN-kóðari: Kóðun merkingarbreytinga fyrir skýra myndvinnslu, með því að nota nokkur tilbúin sýni, og kemur frá vísindamönnum við Technion – Israel Institute of Technology.
Til að skilja hvað verkið þýðir, skulum við skoða hvernig djúpfalsar eru framleiddar alls staðar frá djúpfölsuðum klámsíðum til Iðnaðarljós og töfra (þar sem DeepFaceLab opinn uppspretta geymslan er eins og er ráðandi í bæði „áhugamanna“ og atvinnudjúpfölsun).
Hvað er að halda aftur af núverandi Deepfake tækni?
Deepfakes eru nú búnar til með því að þjálfa an kóðara/afkóðara vélanámslíkan á tveimur möppum af andlitsmyndum – manneskjan sem þú vilt „mála yfir“ (í fyrra dæminu er það Arnie) og manneskjan sem þú vilt setja ofan á myndefnið (Sly).
Kóðunar-/afkóðarakerfið þá ber saman hverja einustu mynd í hverri möppu hvert við annað, viðhalda, bæta og endurtaka þessa aðgerð í hundruð þúsunda endurtekningar (oft í allt að viku), þar til það skilur nauðsynleg einkenni beggja auðkenninga nægilega vel til að skipta þeim um að vild.
Fyrir hvert þeirra tveggja sem skipt er um í ferlinu, það sem djúpfalski arkitektúrinn lærir um sjálfsmynd er flækt í samhengi. Það getur ekki lært og beitt meginreglum um almenna stellingu „fyrir gott og allt“, en þarf nóg af dæmum í þjálfunargagnasettinu, fyrir hverja og eina sjálfsmynd sem á að taka þátt í andlitsskiptum.
Því ef þú vilt skipta um tvö auðkenni sem eru að gera eitthvað óvenjulegra en bara að brosa eða horfa beint í myndavélina þarftu margir dæmi um þessa tilteknu stellingu/auðkenni í andlitssettunum tveimur:
Ef sett A inniheldur óvenjulegu stellinguna, en sett B skortir hana, ertu frekar óheppinn; Sama hversu lengi þú þjálfar líkanið, það mun aldrei læra að endurskapa þessa stellingu vel á milli auðkennanna, því það hafði aðeins helminginn af nauðsynlegum upplýsingum þegar það var þjálfað.
Jafnvel þótt þú sért með samsvarandi myndir, gæti það ekki verið nóg: ef sett A hefur samsvarandi stellingu, en með sterkri hliðarlýsingu, samanborið við flatlýsta jafngilda stellinguna í hinu andlitssettinu, unnu gæði skiptanna. Ekki vera eins gott og ef hver deildi sameiginlegum lýsingareiginleikum.
Hvers vegna gögnin eru af skornum skammti
Nema þú sért handtekinn reglulega, átt þú sennilega ekki mikið af hliðarmyndum af sjálfum þér. Öllu sem kom upp, hefur þú líklega hent. Þar sem myndastofur gera slíkt hið sama er erfitt að fá andlitsmyndir.
Deepfakers innihalda oft mörg afrit af takmörkuðum hliðarsniðsgögnum sem þeir hafa fyrir auðkenni í andlitsmynd, bara þannig að þessi stelling fái a.m.k. lítið athygli og tíma meðan á þjálfun stendur, í stað þess að fá afslátt sem an útlagi.
En það eru margar fleiri mögulegar tegundir andlitsmynda frá hlið en líklegt er að sé hægt að setja í gagnasafn – brosandi, kinka kolli, öskra, gráta, dimmt upplýst, háðslegur, leiðist, kát, flasslýst, horfa upp, horfa niður, augun opnast, augun lokuð…og svo framvegis. Einhverja þessara stellinga, í mörgum samsetningum, gæti verið nauðsynleg í djúpfölsku skotmarkmyndbandi.
Og það eru bara snið. Hversu margar myndir áttu af þér að leita Beint upp? Hefur þú nóg til að tákna í stórum dráttum 10,000 mögulegar tjáningar þú gætir verið að klæðast á meðan þú heldur nákvæmlega þessari stellingu frá því nákvæmlega myndavélarhorninu og nær að minnsta kosti hluta af ein milljón mögulegs ljósaumhverfis?
Líkurnar eru á að þú hafir það ekki einu sinni einn mynd af þér að horfa upp. Og það eru bara tvö horn af hundrað eða fleiri sem þarf til að ná fullri umfjöllun.
Jafnvel þótt hægt væri að búa til fulla þekju andlits frá öllum sjónarhornum við mismunandi birtuskilyrði, væri gagnasafnið sem myndast allt of stórt til að þjálfa, í stærðargráðunni hundruð þúsunda mynda; og jafnvel þótt það gæti að vera þjálfaður, eðli þjálfunarferlisins fyrir núverandi djúpfalsa ramma myndi henda miklum meirihluta þessara aukagagna í þágu takmarkaðs fjölda afleiddra eiginleika, vegna þess að núverandi rammar eru minnkunarkenndir og ekki mjög skalanlegir.
Syntetísk skipti
Frá dögun djúpfalsa hafa djúpfalsarar gert tilraunir með að nota myndir í CGI-stíl, hausa sem eru gerðir í þrívíddarforritum eins og Cinema3D og Maya, til að búa til þessar „týndu stellingar“.
Þessi aðferð er almennt yfirgefin snemma af nýjum djúpfölsuðum iðkendum, vegna þess að þó að hún geti veitt stellingar og tjáningu sem eru annars ekki tiltækar, þá blæðir tilbúið útlit CGI andlitanna venjulega í gegnum skiptin vegna þess að auðkenni og samhengis-/merkingarfræðilegar upplýsingar flækjast.
Þetta getur leitt til þess að andlit í „óhugnanlegum dal“ blikka skyndilega í annars sannfærandi djúpfölsku myndbandi, þar sem reikniritið byrjar að byggja á einu gögnunum sem það kann að hafa fyrir óvenjulega stellingu eða svipbrigði - augljóslega fölsuð andlit.
CGI andlit sem aðskilin, huglæg leiðbeiningar
Þess í stað er nýja Delta-GAN Encoder (DGE) aðferðin frá ísraelskum vísindamönnum skilvirkari, vegna þess að stelling og samhengisupplýsingar frá CGI myndunum hafa verið algjörlega aðskildar frá 'auðkenni' upplýsingum skotmarksins.
Við getum séð þessa meginreglu í verki á myndinni hér að neðan, þar sem ýmsar höfuðstefnur hafa verið fengnar með því að nota CGI myndefnið sem viðmið. Þar sem sjálfsmyndareinkennin eru ótengd samhengiseiginleikum, er engin blæðing í gegnum hvorki af gervi-útliti CGI-andlitsins sem er falsað út, né sjálfsmyndinni sem lýst er í því:
Þessi aðskilnaður sjálfsmyndar og samhengis næst á þjálfunarstigi. Leislan fyrir nýja djúpfalsa arkitektúrinn leitar að dulda vektornum í fyrirfram þjálfuðu Generative Adversarial Network (GAN) sem passar við myndina sem á að umbreyta - Sim2Real aðferðafræði sem byggir á 2018 verkefni frá gervigreindarrannsóknarhluta IBM.
Rannsakendur athuga:
„Með aðeins örfáum sýnum, sem eru mismunandi eftir tilteknum eiginleikum, er hægt að læra ófléttaða hegðun fyrirframþjálfaðs flækjugerðar líkans. Það er engin þörf á nákvæmum raunverulegum sýnum til að ná því markmiði, sem er ekki endilega framkvæmanlegt.
„Með því að nota óraunhæf gagnasýni er hægt að ná sama markmiði þökk sé því að nýta merkingarfræði kóðuðu dulda vektoranna. Það er hægt að beita eftirspurðum breytingum yfir núverandi gagnasýni án skýrrar duldrar könnunar á rýmishegðun.'
Rannsakendur gera ráð fyrir að hægt sé að færa meginreglurnar um sundrungu sem kannaðar voru í verkefninu yfir á önnur svið, svo sem eftirlíkingar innanhússarkitektúrs, og að Sim2Real aðferðin sem notuð var fyrir Delta-GAN-Encoder gæti að lokum gert djúpfalsa tækjabúnað sem byggist á skissum, frekar en Inntak í CGI-stíl.
Það mætti halda því fram að hversu mikið nýja ísraelska kerfið gæti eða gæti ekki búið til djúpfölsuð myndbönd sé mun minna marktækt en framfarirnar sem rannsóknirnar hafa náð í að sundra samhengi frá sjálfsmynd, í því ferli að ná meiri stjórn á dulda rýminu. af GAN.
Disentanglement er virkt rannsóknarsvið í myndgerð; í janúar 2021, rannsókn undir forystu Amazon pappír sýndi fram á svipaða stillingarstjórn og sundrungu og árið 2018 a pappír frá Shenzhen Institute of Advanced Technology við kínversku vísindaakademíuna náðu framfarir í að búa til handahófskennd sjónarmið í GAN.