Umjetna inteligencija

Googleov LipSync3D nudi poboljšanu 'deepfaked' sinkronizaciju pokreta usta

Ažurirano on Prosinac 9, 2022

A kolaboracija između Googleovih istraživača umjetne inteligencije i Indijskog instituta za tehnologiju Kharagpur nudi novi okvir za sintetiziranje govornih glava iz audio sadržaja. Projekt ima za cilj proizvesti optimizirane načine s razumnim resursima za stvaranje videosadržaja 'glave koja govori' iz zvuka, u svrhu sinkronizacije pokreta usana sa sinkroniziranim ili strojno prevedenim zvukom, te za upotrebu u avatarima, u interaktivnim aplikacijama i drugim okruženja u stvarnom vremenu.

Izvor: https://www.youtube.com/watch?v=L1StbX9OznY

Modeli strojnog učenja obučeni u tom procesu – nazvani LipSync3D – zahtijevaju samo jedan video identitet ciljanog lica kao ulazni podatak. Cjevovod za pripremu podataka odvaja ekstrakciju geometrije lica od procjene osvjetljenja i drugih aspekata ulaznog videa, omogućujući ekonomičniju i fokusiraniju obuku.

Dvofazni tok rada LipSync3D. Iznad, generiranje dinamički teksturiranog 3D lica iz 'ciljanog' zvuka; ispod, umetanje generirane mreže u ciljni video.

Zapravo, najznačajniji doprinos LipSync3D-a cjelokupnom istraživačkom radu u ovom području mogao bi biti njegov algoritam za normalizaciju osvjetljenja, koji odvaja osvjetljenje uvježbavanja i zaključivanja.

Odvajanje podataka o osvjetljenju od opće geometrije pomaže LipSync3D da proizvede realističniji izlaz pokreta usana u izazovnim uvjetima. Drugi pristupi posljednjih godina ograničili su se na 'fiksne' uvjete osvjetljenja koji neće otkriti svoj ograničeniji kapacitet u tom pogledu.

Tijekom prethodne obrade okvira ulaznih podataka, sustav mora identificirati i ukloniti zrcalne točke, budući da su one specifične za uvjete osvjetljenja pod kojima je video snimljen, a inače će ometati proces ponovnog osvjetljavanja.

LipSync3D, kao što mu ime sugerira, ne provodi puku analizu piksela na licima koja procjenjuje, već aktivno koristi identificirane orijentire lica za generiranje pokretnih mreža u CGI stilu, zajedno s 'rasklopljenim' teksturama koje su omotane oko njih u tradicionalnom CGI-ju. cjevovod.

Normalizacija poze u LipSync3D. S lijeve strane su ulazni okviri i otkrivene značajke; u sredini, normalizirani vrhovi generirane procjene mreže; a desno, odgovarajući atlas teksture, koji daje osnovnu istinu za predviđanje teksture. Izvor: https://arxiv.org/pdf/2106.04185.pdf

Osim nove metode ponovnog osvjetljavanja, istraživači tvrde da LipSync3D nudi tri glavne inovacije u odnosu na prethodni rad: odvajanje geometrije, osvjetljenja, poze i teksture u diskretne tokove podataka u normaliziranom prostoru; auto-regresivni model predviđanja teksture koji se lako može obučiti i koji proizvodi vremenski dosljednu video sintezu; i povećani realizam, prema procjeni ljudskih ocjena i objektivnih metrika.

Razdvajanje različitih aspekata video slika lica omogućuje veću kontrolu u video sintezi.

LipSync3D može izvesti odgovarajuću geometriju pokreta usana izravno iz zvuka analizirajući foneme i druge aspekte govora i prevodeći ih u poznate odgovarajuće poze mišića oko područja usta.

Ovaj proces koristi cjevovod zajedničkog predviđanja, gdje izvedena geometrija i tekstura imaju namjenske kodere u postavci automatskog kodera, ali dijele audio koder s govorom koji se namjerava nametnuti modelu:

LipSync3D-ova labilna sinteza pokreta također je namijenjena pokretanju stiliziranih CGI avatara, koji su zapravo samo ista vrsta informacija o mreži i teksturi kao i slike iz stvarnog svijeta:

Stilizirani 3D avatar ima svoje pokrete usana pokretane u stvarnom vremenu video zapisom izvornog govornika. U takvom scenariju, najbolji rezultati bi se postigli personaliziranim prethodnim treningom.

Istraživači također predviđaju korištenje avatara s malo realističnijim dojmom:

Uzorci vremena obuke za videozapise kreću se od 3-5 sati za videozapis od 2-5 minuta, u cjevovodu koji koristi TensorFlow, Python i C++ na GeForce GTX 1080. Sesije obuke koristile su veličinu serije od 128 sličica preko 500-1000 epohe, pri čemu svaka epoha predstavlja potpunu procjenu videa.

LipSync3D: Personalizirana 3D lica koja govore iz videa pomoću poze i normalizacije osvjetljenja

LipSync3D: Personalized 3D Talking Faces from Video using Pose and Lighting Normalization

Watch this video on YouTube

Prema dinamičkoj ponovnoj sinkronizaciji pokreta usana

Područje ponovnog sinkroniziranja usana za prilagodbu novom audio zapisu dobilo je veliku pozornost u istraživanju računalnog vida u posljednjih nekoliko godina (vidi dolje), ne samo zato što je nusproizvod kontroverznog deepfake tehnologija.

Godine 2017. Sveučilište Washington predstavljeno istraživanje sposoban naučiti sinkronizaciju usana iz zvuka, koristeći ga za promjenu pokreta usana tadašnjeg predsjednika Obame. U 2018. godini; pod vodstvom Max Planck Instituta za informatiku još jedna istraživačka inicijativa za omogućavanje identiteta>prijenos videozapisa identiteta, uz sinkronizaciju usana a nusprodukt procesa; a u svibnju 2021. AI startup FlawlessAI otkrio je svoju vlasničku tehnologiju sinkronizacije usana TrueSync, široko primljen u tisku kao pokretač poboljšanih tehnologija sinkronizacije za velika filmska izdanja na različitim jezicima.

I, naravno, tekući razvoj deepfake repozitorija otvorenog koda pruža još jednu granu aktivnog istraživanja koje doprinose korisnici u ovoj sferi sinteze slika lica.

Sljedeći

Energetski učinkovit uređaj napravljen od umjetnih neurona može dekodirati moždane valove

Ne propustite

Novi prototip softvera razvijen za dizajn prošivanja

Martin Anderson

Pisac o strojnom učenju, umjetnoj inteligenciji i velikim podacima.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai

Ujedinite se.AI

Googleov LipSync3D nudi poboljšanu 'deepfaked' sinkronizaciju pokreta usta

Umjetna inteligencija

Googleov LipSync3D nudi poboljšanu 'deepfaked' sinkronizaciju pokreta usta

Sadržaj

Prema dinamičkoj ponovnoj sinkronizaciji pokreta usana

Ujedinite se.AI

Googleov LipSync3D nudi poboljšanu 'deepfaked' sinkronizaciju pokreta usta

Sadržaj

Prema dinamičkoj ponovnoj sinkronizaciji pokreta usana

Svibanj vam se sviđa