Umjetna inteligencija
Googleov LipSync3D nudi poboljšanu 'deepfaked' sinkronizaciju pokreta usta
A kolaboracija između Googleovih istraživača umjetne inteligencije i Indijskog instituta za tehnologiju Kharagpur nudi novi okvir za sintetiziranje govornih glava iz audio sadržaja. Projekt ima za cilj proizvesti optimizirane načine s razumnim resursima za stvaranje videosadržaja 'glave koja govori' iz zvuka, u svrhu sinkronizacije pokreta usana sa sinkroniziranim ili strojno prevedenim zvukom, te za upotrebu u avatarima, u interaktivnim aplikacijama i drugim okruženja u stvarnom vremenu.
Modeli strojnog učenja obučeni u tom procesu – nazvani LipSync3D – zahtijevaju samo jedan video identitet ciljanog lica kao ulazni podatak. Cjevovod za pripremu podataka odvaja ekstrakciju geometrije lica od procjene osvjetljenja i drugih aspekata ulaznog videa, omogućujući ekonomičniju i fokusiraniju obuku.
Zapravo, najznačajniji doprinos LipSync3D-a cjelokupnom istraživačkom radu u ovom području mogao bi biti njegov algoritam za normalizaciju osvjetljenja, koji odvaja osvjetljenje uvježbavanja i zaključivanja.
Tijekom prethodne obrade okvira ulaznih podataka, sustav mora identificirati i ukloniti zrcalne točke, budući da su one specifične za uvjete osvjetljenja pod kojima je video snimljen, a inače će ometati proces ponovnog osvjetljavanja.
LipSync3D, kao što mu ime sugerira, ne provodi puku analizu piksela na licima koja procjenjuje, već aktivno koristi identificirane orijentire lica za generiranje pokretnih mreža u CGI stilu, zajedno s 'rasklopljenim' teksturama koje su omotane oko njih u tradicionalnom CGI-ju. cjevovod.
Osim nove metode ponovnog osvjetljavanja, istraživači tvrde da LipSync3D nudi tri glavne inovacije u odnosu na prethodni rad: odvajanje geometrije, osvjetljenja, poze i teksture u diskretne tokove podataka u normaliziranom prostoru; auto-regresivni model predviđanja teksture koji se lako može obučiti i koji proizvodi vremenski dosljednu video sintezu; i povećani realizam, prema procjeni ljudskih ocjena i objektivnih metrika.
LipSync3D može izvesti odgovarajuću geometriju pokreta usana izravno iz zvuka analizirajući foneme i druge aspekte govora i prevodeći ih u poznate odgovarajuće poze mišića oko područja usta.
Ovaj proces koristi cjevovod zajedničkog predviđanja, gdje izvedena geometrija i tekstura imaju namjenske kodere u postavci automatskog kodera, ali dijele audio koder s govorom koji se namjerava nametnuti modelu:
LipSync3D-ova labilna sinteza pokreta također je namijenjena pokretanju stiliziranih CGI avatara, koji su zapravo samo ista vrsta informacija o mreži i teksturi kao i slike iz stvarnog svijeta:
Istraživači također predviđaju korištenje avatara s malo realističnijim dojmom:
Uzorci vremena obuke za videozapise kreću se od 3-5 sati za videozapis od 2-5 minuta, u cjevovodu koji koristi TensorFlow, Python i C++ na GeForce GTX 1080. Sesije obuke koristile su veličinu serije od 128 sličica preko 500-1000 epohe, pri čemu svaka epoha predstavlja potpunu procjenu videa.
Prema dinamičkoj ponovnoj sinkronizaciji pokreta usana
Područje ponovnog sinkroniziranja usana za prilagodbu novom audio zapisu dobilo je veliku pozornost u istraživanju računalnog vida u posljednjih nekoliko godina (vidi dolje), ne samo zato što je nusproizvod kontroverznog deepfake tehnologija.
Godine 2017. Sveučilište Washington predstavljeno istraživanje sposoban naučiti sinkronizaciju usana iz zvuka, koristeći ga za promjenu pokreta usana tadašnjeg predsjednika Obame. U 2018. godini; pod vodstvom Max Planck Instituta za informatiku još jedna istraživačka inicijativa za omogućavanje identiteta>prijenos videozapisa identiteta, uz sinkronizaciju usana a nusprodukt procesa; a u svibnju 2021. AI startup FlawlessAI otkrio je svoju vlasničku tehnologiju sinkronizacije usana TrueSync, široko primljen u tisku kao pokretač poboljšanih tehnologija sinkronizacije za velika filmska izdanja na različitim jezicima.
I, naravno, tekući razvoj deepfake repozitorija otvorenog koda pruža još jednu granu aktivnog istraživanja koje doprinose korisnici u ovoj sferi sinteze slika lica.