Mākslīgais intelekts

Emociju maiņa video materiālos, izmantojot AI

Atjaunināts on Decembris 9, 2022

Pētnieki no Grieķijas un Apvienotās Karalistes ir izstrādājuši jaunu dziļas mācīšanās pieeju, lai mainītu videomateriālos uzņemto cilvēku izteiksmes un šķietamo noskaņojumu, vienlaikus saglabājot viņu lūpu kustību precizitāti oriģinālajam audio veidā, ko iepriekšējie mēģinājumi nav spējuši saskaņot. .

No rakstam pievienotā videoklipa (iegults šī raksta beigās) ir īss aktiera Ala Pačīno klips, kura izteiksmi smalki mainīja NED, pamatojoties uz augsta līmeņa semantiskiem jēdzieniem. Avots: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Rakstam pievienotajā videoklipā (iegults šī raksta beigās) ir īss aktiera Ala Pačīno klips, kura izteiksme ir smalki izmainīta ar NED, pamatojoties uz augsta līmeņa semantiskiem jēdzieniem, kas nosaka atsevišķas sejas izteiksmes un ar tām saistītās emocijas. Labajā pusē esošā metode “Uz atsauci balstīta” ņem avota video interpretētās emocijas un piemēro to visai video secībai. Avots: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Šī konkrētā joma ietilpst pieaugošajā kategorijā dziļi viltotas emocijas, kur tiek saglabāta oriģinālā runātāja identitāte, bet tiek mainītas viņu izpausmes un mikroizteiksmes. Šai konkrētajai AI tehnoloģijai attīstoties, tā piedāvā iespēju filmu un TV iestudējumiem veikt smalkas izmaiņas aktieru izteiksmēs, bet arī paver diezgan jaunu “emociju izmainītu” video dziļo viltojumu kategoriju.

Mainīgās sejas

Publisku personu, piemēram, politiķu, sejas izteiksmes tiek rūpīgi atlasītas; 2016. gadā Hilarijas Klintones sejas izteiksmes nāca plašsaziņas līdzekļu pastiprinātā uzraudzībā par to iespējamo negatīvo ietekmi uz viņas vēlēšanu izredzēm; sejas izteiksmes, šķiet, ir arī a interesējošā tēma FIB; un viņi ir a kritiskais rādītājs darba intervijās padarot (tālu) iespējamu tiešraides “izteiksmju kontroles” filtru par vēlamu attīstību darba meklētājiem, kuri cenšas izturēt Zoom iepriekšēju pārbaudi.

2005. gadā Apvienotajā Karalistē veikts pētījums apstiprināja, ka sejas izskats ietekmē balsošanas lēmumus, savukārt 2019. gada Washington Post līdzeklis pārbaudīja "ārpus konteksta" videoklipa kopīgošanas izmantošana, kas pašlaik ir vistuvākā lieta, kas viltus ziņu atbalstītājiem faktiski ir spējīga mainīt to, kā publiska persona uzvedas, reaģē vai jūtas.

Ceļā uz neironu ekspresijas manipulācijām

Pašlaik jaunākie sasniegumi sejas efekta manipulēšanā ir diezgan elementāri, jo tas ietver problēmas atdalīšana augsta līmeņa koncepcijas (piemēram, bēdīgs, dusmīgs, laimīgs, smiling) no faktiskā video satura. Lai gan šķiet, ka tradicionālās dziļās viltus arhitektūras diezgan labi panāk šo atdalīšanu, emociju atspoguļošanai dažādās identitātēs joprojām ir nepieciešams, lai divās apmācību seju kopās būtu katrai identitātei atbilstošas izteiksmes.

Tā kā sejas ID un pozas raksturlielumi pašlaik ir tik ļoti savstarpēji saistīti, divās sejas datu kopās ir nepieciešama plaša izteiksmes, galvas pozas un (mazākā mērā) apgaismojuma paritāte, lai apmācītu efektīvu dziļo viltojumu modeli tādās sistēmās kā DeepFaceLab. Jo mazāk konkrētas konfigurācijas (piemēram, skats no sāniem/smaidošs/saules apspīdēts) abās seju kopās, jo neprecīzāk tā tiks atveidota dziļi viltotā videoklipā, ja nepieciešams.

Tipiski sejas attēlu piemēri datu kopās, ko izmanto dziļo viltojumu apmācīšanai. Pašlaik jūs varat manipulēt tikai ar personas sejas izteiksmi, izveidojot ID specifiskas izteiksmes<>izteiksmes ceļus dziļi viltotā neironu tīklā. 2017. gada laikmeta dziļo viltojumu programmatūrai nav iekšējas, semantiskas izpratnes par “smaidu” — tā tikai kartē un saskaņo abu subjektu uztvertās sejas ģeometrijas izmaiņas.

Vēlams un vēl nav pilnībā sasniegts, ir atpazīt, kā objekts B (piemēram) smaida, un vienkārši izveidot 'smaids' pārslēdzieties arhitektūrā, bez nepieciešamības to kartēt ar līdzvērtīgu attēlu, kurā A smaidot.

Jūsu darbs IR Klientu apkalpošana jauns papīrs tiek nosaukts Neironu emociju režisors: runu saglabājoša sejas izteiksmju semantiskā kontrole “savvaļas” videoklipos, un to nākuši pētnieki Atēnu Nacionālās tehniskās universitātes Elektrotehnikas un datortehnikas skolā, Hellas Pētniecības un tehnoloģiju fonda (FORTH) Datorzinātņu institūtā un Inženieru, matemātikas un fizikālo zinātņu koledžā. Ekseteras Universitāte Apvienotajā Karalistē.

Komanda ir izstrādājusi sistēmu ar nosaukumu Neironu emociju direktors (NED), kas ietver uz 3D balstītu emociju tulkošanas tīklu, 3D emociju manipulators.

NED ņem saņemto izteiksmes parametru secību un pārvērš tos mērķa domēnā. Tas ir apmācīts, izmantojot nepārspējamus datus, kas nozīmē, ka nav nepieciešams apmācīt datu kopas, kurās katrai identitātei ir atbilstošas sejas izteiksmes.

Šī raksta beigās parādītajā videoklipā tiek veikta virkne testu, kuros NED uzliek šķietamu emocionālo stāvokli YouTube datu kopas materiālam.

Autori apgalvo, ka NED ir pirmā uz video balstītā metode aktieru “vadīšanai” nejaušās un neparedzamās situācijās, un ir padarījuši kodu pieejamu NED. Projekts lapa.

Metode un arhitektūra

Sistēma ir apmācīta uz divām lielām video datu kopām, kas ir anotētas ar “emociju” etiķetēm.

Izvadi iespējo video sejas renderētājs, kas atveido video vēlamās emocijas, izmantojot tradicionālās sejas attēla sintēzes metodes, tostarp sejas segmentāciju, sejas orientiera izlīdzināšanu un sapludināšanu, kur tiek sintezēts tikai sejas laukums un pēc tam uzlikts oriģinālajam materiālam.

Neironālo emociju detektora (NED) cauruļvada arhitektūra. Avots: https://arxiv.org/pdf/2112.00585.pdf

Sākotnēji sistēma iegūst 3D sejas atkopšanu un ievades kadros uzliek sejas orientierus, lai identificētu izteiksmi. Pēc tam šie atgūtie izteiksmes parametri tiek nodoti 3D emociju manipulatoram un stila vektoram, kas tiek aprēķināts, izmantojot semantisko apzīmējumu (piemēram, “laimīgs”) vai atsauces failu.

Atsauces fails ir video, kas attēlo noteiktu atpazītu izteiksmi/emociju, kas pēc tam tiek uzlikta visam mērķa videoklipam, aizstājot sākotnējo izteiksmi.

Emociju pārneses posmi, kuros piedalās dažādi aktieri, kas atlasīti no YouTube videoklipiem.

Pēc tam galīgā ģenerētā 3D sejas forma tiek savienota ar normalizēto vidējo sejas koordinātu (NMFC) un acu attēliem (sarkanie punkti attēlā iepriekš), un tiek nodota neironu renderētājam, kas veic pēdējo manipulāciju.

rezultāti

Pētnieki veica plašus pētījumus, tostarp lietotāju un ablācijas pētījumus, lai novērtētu metodes efektivitāti salīdzinājumā ar iepriekšējo darbu, un atklāja, ka lielākajā daļā kategoriju NED pārspēj pašreizējos jaunākos sasniegumus šajā neironu sejas manipulācijas apakšnozarē.

Darba autori paredz, ka vēlāk šī darba ieviešana un līdzīga rakstura rīki noderēs galvenokārt televīzijas un kinofilmu nozarēs, norādot:

"Mūsu metode paver daudzas jaunas iespējas noderīgām neironu renderēšanas tehnoloģiju pielietojumiem, sākot no filmu pēcapstrādes un videospēlēm līdz fotoreālistiskiem afektīviem iemiesojumiem."

Šis ir agrīns darbs šajā jomā, taču viens no pirmajiem, kas mēģināja atjaunot seju, izmantojot video, nevis nekustīgus attēlus. Lai gan videoklipos būtībā ir daudz nekustīgu attēlu, kas darbojas ļoti ātri, ir laika apsvērumi, kas padara iepriekšējos emociju pārsūtīšanas lietojumus mazāk efektīvus. Pievienotajā video un raksta piemēros autori iekļauj vizuālus NED izvades salīdzinājumus ar citām salīdzināmām jaunākajām metodēm.

Sīkākus salīdzinājumus un daudzus citus NED piemērus var atrast pilnā tālāk esošajā videoklipā:

[CVPR 2022] NED: runu saglabājoša sejas izteiksmju semantiskā kontrole “savvaļas” videoklipos

[CVPR 2022] NED: Speech-preserving semantic control of facial expressions in “in-the-wild” videos

Watch this video on YouTube

3. gada 2021. decembris, 18:30 GMT+2 — pēc viena no darba autoru lūguma tika veikti labojumi attiecībā uz “atsauces failu”, kurā es kļūdaini norādīju, ka tā ir nekustīga fotogrāfija (lai gan patiesībā tas ir videoklips). Arī Pētniecības un tehnoloģiju fonda Datorzinātņu institūta nosaukuma grozījums.
3. gada 2021. decembris, 20:50 GMT+2 — otrs viena no darba autoru pieprasījums veikt turpmākus grozījumus iepriekš minētās iestādes nosaukumā.

Nākošais

Neparedzētais ieguvums no GAN latentās telpas kartēšanas

Nepalaidiet garām

Disney apvieno CGI ar neironu renderēšanu, lai cīnītos pret "neparasto ieleju"

Mārtiņš Andersons

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai

Apvienojieties.AI

Emociju maiņa video materiālos, izmantojot AI

Mākslīgais intelekts