škrbina Googleov LipSync3D nudi poboljšanu 'Deepfaked' sinkronizaciju pokreta usta - Unite.AI
Povežite se s nama

Umjetna inteligencija

Googleov LipSync3D nudi poboljšanu 'deepfaked' sinkronizaciju pokreta usta

mm
Ažurirano on

A kolaboracija između Googleovih istraživača umjetne inteligencije i Indijskog instituta za tehnologiju Kharagpur nudi novi okvir za sintetiziranje govornih glava iz audio sadržaja. Projekt ima za cilj proizvesti optimizirane načine s razumnim resursima za stvaranje videosadržaja 'glave koja govori' iz zvuka, u svrhu sinkronizacije pokreta usana sa sinkroniziranim ili strojno prevedenim zvukom, te za upotrebu u avatarima, u interaktivnim aplikacijama i drugim okruženja u stvarnom vremenu.

Izvor: https://www.youtube.com/watch?v=L1StbX9OznY

Izvor: https://www.youtube.com/watch?v=L1StbX9OznY

Modeli strojnog učenja obučeni u tom procesu – nazvani LipSync3D – zahtijevaju samo jedan video identitet ciljanog lica kao ulazni podatak. Cjevovod za pripremu podataka odvaja ekstrakciju geometrije lica od procjene osvjetljenja i drugih aspekata ulaznog videa, omogućujući ekonomičniju i fokusiraniju obuku.

Dvofazni tok rada LipSync3D. Iznad, generiranje dinamički teksturiranog 3D lica iz 'ciljanog' zvuka; ispod, umetanje generirane mreže u ciljni video.

Dvofazni tok rada LipSync3D. Iznad, generiranje dinamički teksturiranog 3D lica iz 'ciljanog' zvuka; ispod, umetanje generirane mreže u ciljni video.

Zapravo, najznačajniji doprinos LipSync3D-a cjelokupnom istraživačkom radu u ovom području mogao bi biti njegov algoritam za normalizaciju osvjetljenja, koji odvaja osvjetljenje uvježbavanja i zaključivanja.

Odvajanje podataka o osvjetljenju od opće geometrije pomaže LipSync3D da proizvede realističniji izlaz pokreta usana u izazovnim uvjetima. Drugi pristupi posljednjih godina ograničili su se na 'fiksne' uvjete osvjetljenja koji neće otkriti svoj ograničeniji kapacitet u tom pogledu.

Odvajanje podataka o osvjetljenju od opće geometrije pomaže LipSync3D da proizvede realističniji izlaz pokreta usana u izazovnim uvjetima. Drugi pristupi posljednjih godina ograničili su se na 'fiksne' uvjete osvjetljenja koji neće otkriti svoj ograničeniji kapacitet u tom pogledu.

Tijekom prethodne obrade okvira ulaznih podataka, sustav mora identificirati i ukloniti zrcalne točke, budući da su one specifične za uvjete osvjetljenja pod kojima je video snimljen, a inače će ometati proces ponovnog osvjetljavanja.

LipSync3D, kao što mu ime sugerira, ne provodi puku analizu piksela na licima koja procjenjuje, već aktivno koristi identificirane orijentire lica za generiranje pokretnih mreža u CGI stilu, zajedno s 'rasklopljenim' teksturama koje su omotane oko njih u tradicionalnom CGI-ju. cjevovod.

Normalizacija poze u LipSync3D. S lijeve strane su ulazni okviri i otkrivene značajke; u sredini, normalizirani vrhovi generirane procjene mreže; a desno, odgovarajući atlas teksture, koji daje osnovnu istinu za predviđanje teksture. Izvor: https://arxiv.org/pdf/2106.04185.pdf

Normalizacija poze u LipSync3D. S lijeve strane su ulazni okviri i otkrivene značajke; u sredini, normalizirani vrhovi generirane procjene mreže; a desno, odgovarajući atlas teksture, koji daje osnovnu istinu za predviđanje teksture. Izvor: https://arxiv.org/pdf/2106.04185.pdf

Osim nove metode ponovnog osvjetljavanja, istraživači tvrde da LipSync3D nudi tri glavne inovacije u odnosu na prethodni rad: odvajanje geometrije, osvjetljenja, poze i teksture u diskretne tokove podataka u normaliziranom prostoru; auto-regresivni model predviđanja teksture koji se lako može obučiti i koji proizvodi vremenski dosljednu video sintezu; i povećani realizam, prema procjeni ljudskih ocjena i objektivnih metrika.

Razdvajanje različitih aspekata video slika lica omogućuje veću kontrolu u video sintezi.

Razdvajanje različitih aspekata video slika lica omogućuje veću kontrolu u video sintezi.

LipSync3D može izvesti odgovarajuću geometriju pokreta usana izravno iz zvuka analizirajući foneme i druge aspekte govora i prevodeći ih u poznate odgovarajuće poze mišića oko područja usta.

Ovaj proces koristi cjevovod zajedničkog predviđanja, gdje izvedena geometrija i tekstura imaju namjenske kodere u postavci automatskog kodera, ali dijele audio koder s govorom koji se namjerava nametnuti modelu:

LipSync3D-ova labilna sinteza pokreta također je namijenjena pokretanju stiliziranih CGI avatara, koji su zapravo samo ista vrsta informacija o mreži i teksturi kao i slike iz stvarnog svijeta:

Stilizirani 3D avatar ima svoje pokrete usana pokretane u stvarnom vremenu video zapisom izvornog govornika. U takvom scenariju, najbolji rezultati bi se postigli personaliziranim prethodnim treningom.

Stilizirani 3D avatar ima svoje pokrete usana pokretane u stvarnom vremenu video zapisom izvornog govornika. U takvom scenariju, najbolji rezultati bi se postigli personaliziranim prethodnim treningom.

Istraživači također predviđaju korištenje avatara s malo realističnijim dojmom:

Uzorci vremena obuke za videozapise kreću se od 3-5 sati za videozapis od 2-5 minuta, u cjevovodu koji koristi TensorFlow, Python i C++ na GeForce GTX 1080. Sesije obuke koristile su veličinu serije od 128 sličica preko 500-1000 epohe, pri čemu svaka epoha predstavlja potpunu procjenu videa.

LipSync3D: Personalizirana 3D lica koja govore iz videa pomoću poze i normalizacije osvjetljenja

Prema dinamičkoj ponovnoj sinkronizaciji pokreta usana

Područje ponovnog sinkroniziranja usana za prilagodbu novom audio zapisu dobilo je veliku pozornost u istraživanju računalnog vida u posljednjih nekoliko godina (vidi dolje), ne samo zato što je nusproizvod kontroverznog deepfake tehnologija.

Godine 2017. Sveučilište Washington predstavljeno istraživanje sposoban naučiti sinkronizaciju usana iz zvuka, koristeći ga za promjenu pokreta usana tadašnjeg predsjednika Obame. U 2018. godini; pod vodstvom Max Planck Instituta za informatiku još jedna istraživačka inicijativa za omogućavanje identiteta>prijenos videozapisa identiteta, uz sinkronizaciju usana a nusprodukt procesa; a u svibnju 2021. AI startup FlawlessAI otkrio je svoju vlasničku tehnologiju sinkronizacije usana TrueSync, široko primljen u tisku kao pokretač poboljšanih tehnologija sinkronizacije za velika filmska izdanja na različitim jezicima.

I, naravno, tekući razvoj deepfake repozitorija otvorenog koda pruža još jednu granu aktivnog istraživanja koje doprinose korisnici u ovoj sferi sinteze slika lica.