Connect with us

Inteligență artificială

Disney Combina CGI cu Rendering Neural pentru a aborda “Valea Încântătoare”

mm

Divizia de cercetare AI a Disney a dezvoltat o metodă hibridă pentru simularea facială de calitate cinematografică, combinând puterea rendering-ului neural facial cu consistența abordării bazate pe CGI.

Articolul în așteptare se intitulează Rendering cu Stil: Combinarea Abordărilor Tradiționale și Neurale pentru Renderizarea Fețelor de Înaltă Calitate și este prezentat într-un nou videoclip de 10 minute pe canalul de YouTube Disney Research (încorporat la sfârșitul acestui articol*).

Meshes combinate cu renderizări faciale neurale. Sursa: https://www.youtube.com/watch?v=k-RKSGbWLng

Meshes combinate cu renderizări faciale neurale. Vezi videoclipul încorporat la sfârșitul articolului pentru detalii și calitate mai bună. Sursa: https://www.youtube.com/watch?v=k-RKSGbWLng (înlocuită cu https://www.youtube.com/watch?v=TwpLqTmvqVk)

După cum notează videoclipul, renderizarea neurală a fețelor (inclusiv deepfakes) poate produce ochi și interioare de gură mult mai realiste decât CGI, în timp ce texturile faciale conduse de CGI sunt mai consistente și potrivite pentru ieșiri VFX de nivel cinematografic.

Prin urmare, Disney experimentează cu permisiunea generatorului neural NVIDIA StyleGan2 să gestioneze caracteristicile înconjurătoare ale unei fețe și elementele “vitale” precum ochii, în timp ce se suprapun texturi faciale CGI consistente și elemente conexe în ieșire.

Din videoclip (vezi sfârșitul articolului), conceptul arhitectural din spatele abordării hibride a Disney, unde un mesh CGI de tip vechi, de tipul folosit pentru a recrea 'tânăr' Carrie Fisher și defunctul Peter Cushing pentru Rogue One (2016), este integrat în medii faciale neurale renderizate.

Din videoclip (vezi sfârșitul articolului), conceptul arhitectural din spatele abordării hibride a Disney, unde un mesh CGI de tip vechi, de tipul folosit pentru a recrea ‘tânăr’ Carrie Fisher și defunctul Peter Cushing pentru Rogue One (2016), este integrat în medii faciale neurale renderizate.

Videoclipul face o referire tacită la critica frecventă a inautenticității și a efectului “Valea Încântătoare” a recreării CGI a defunctului actor britanic Star Wars Peter Cushing în Rogue One (2016), concesiv:

‘[Există] încă o prăpastie uriașă între ceea ce oamenii pot captura și renderiza ușor și dubluri digitale photorealiste finale, complete cu păr, ochi și interior de gură. Pentru a închide această prăpastie, de obicei, este nevoie de multă muncă manuală din partea artiștilor calificați.’

În realitate, chiar și cele mai moderne sisteme de captură facială nu încearcă să recrieze ochi, interioare de gură sau păr, care fie au probleme de autenticitate în astfel de tehnici (ochi) sau de consistență temporală (păr).

Videoclipul ilustrează ce vor obține artiștii VFX după o sesiune tipică de captură facială modernă. Ochii, părul, barba și interioarele de gură vor trebui să fie gestionate de echipe separate în pipeline-ul de producție.

Videoclipul ilustrează ce vor obține artiștii VFX după o sesiune tipică de captură facială modernă. Ochii, părul, barba și interioarele de gură vor trebui să fie gestionate de echipe separate în pipeline-ul de producție, pe lângă textură și iluminare.

Controlul Iluminării

Abordarea hibridă este, de asemenea, benefică pentru reluarea iluminării – o provocare notabilă pentru renderizarea neurală a fețelor, deoarece suprapunerea pielii CGI poate fi mai ușor reluată.

O versiune animată a abordării CGI/Neurale.

O versiune animată a abordării CGI/Neurale.

În medii mai provocatoare, cum ar fi filmările exterioare, cercetătorii au dezvoltat o metodă de completare a zonei din jurul unei zone demilitarizate care înconjoară persoana “creată”.

O margine neagră este generată pentru a permite un 'canvas' pentru completarea părților exterioare ale identității și integrarea pielii CGI în ieșirea combinată CGI/neurală.

O margine neagră este generată pentru a permite un ‘canvas’ pentru completarea părților exterioare ale identității și integrarea pielii CGI în ieșirea combinată CGI/neurală.

Videoclipul notează:

‘[Renderizarea] neurală nu se potrivește perfect cu constrângerile de fundal. – este menită doar ca o ghidare, deoarece optimizarea pentru componente umane realiste, cum ar fi părul, ochii și dinții, este obiectivul principal. Mai provocator este să încerci să menții o identitate consistentă, în timp ce schimbi iluminarea mediului.’

Creearea Mesh-urilor CGI din Renderizări Neurale

Echipa de cercetare a dezvoltat, de asemenea, un autoencoder variabil antrenat pe o bază de date mare de imagini 3D ale fețelor, și susține că poate produce mesh-uri 3D faciale “aleatorii, dar plauzibile” din date reale.

Există limite pentru ca această cercetare să le depășească, inclusiv dificultatea de a menține părul consistent temporal în renderizările neurale, și videoclipul (vezi mai jos) arată mai multe exemple de păr care se schimbă rapid într-un panou consistent în jurul unei fețe CGI/neurale.

Consistența temporală în renderizarea video neurală este o problemă mult mai largă decât doar a Disney, și pare probabil că iterațiile ulterioare ale acestui sistem pot recurge la adăugarea părului “în post-procesare”, sau la alte abordări posibile pentru generarea părului decât să sperăm că o abordare neurală nouă va rezolva în cele din urmă problema.

Utilizări pentru Generarea de Seturi de Date

Metoda este propusă, de asemenea, ca o metodă potențială de generare a datelor sintetice și de îmbogățire a peisajului de imagini faciale, care în ultimii ani a devenit periculos de monoton.

Disney își imaginează tehnica nouă populând seturile de date cu imagini faciale.

Disney își imaginează tehnica nouă populând seturile de date cu imagini faciale.

‘[Fiecare] rezultat photorealistic pe care îl generăm are o geometrie subiacentă și hărți de aparență, renderizate din puncte de vedere ale camerei necunoscute cu iluminare cunoscută. Aceste informații “adevăr” pot fi vitale pentru antrenarea aplicațiilor în aval, cum ar fi reconstrucția 3D a feței monocular, recunoașterea facială sau înțelegerea scenei. Și astfel fiecare rezultat renderizat poate fi considerat un eșantion de date, și putem genera multe variații ale mai multor indivizi diferiți. ‘

‘Mai mult, chiar și pentru o singură persoană renderizată într-o singură expresie cu un singur punct de vedere și iluminare, putem genera variații aleatorii ale renderizării photorealiste prin varierea seminței de randomizare în timpul optimizării.’

Cercetătorii notează că această diversitate de ieșire configurabilă ar putea fi utilă în antrenarea aplicațiilor de recunoaștere facială, concluzionând:

‘[Metoda noastră] este capabilă să valorifice tehnologia actuală pentru captură, modelare și renderizare a pielii faciale, și să creeze automat renderizări faciale photorealiste complete care se potrivesc identității, expresiei și configurației scenei dorite. Această abordare are aplicații și renderizări faciale pentru film și divertisment, economisind munca manuală a artiștilor și, de asemenea, pentru generarea de date în diferite domenii ale învățării profunde.’

Pentru o privire mai profundă asupra noii abordări, verificați videoclipul de 10 minute lansat astăzi:

* Linkul original al videoclipului a fost înlocuit cu altul, aparent identic, 8 ore după publicarea acestui articol. Am schimbat toate link-urile relevante, deoarece nu există urmă a videoclipului original.

 

8:24 GMT+2 – Am înlocuit videoclipul, deoarece a fost înlocuit de canalul de YouTube Disney Research dintr-un anumit motiv.

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.