stubbur Að breyta tilfinningum í myndbandsupptökum með gervigreind - Unite.AI
Tengja við okkur

Artificial Intelligence

Að breyta tilfinningum í myndbandsupptökum með gervigreind

mm
Uppfært on

Vísindamenn frá Grikklandi og Bretlandi hafa þróað nýja djúpnámsaðferð til að breyta tjáningu og augljósu skapi fólks í myndbandsupptökum, en varðveita tryggð varahreyfinga þeirra við upprunalega hljóðið á þann hátt að fyrri tilraunir hafa ekki tekist að passa saman. .

Úr myndbandinu sem fylgir blaðinu (innfellt í lok þessarar greinar), stutt myndband af leikaranum Al Pacino sem hefur breytt tjáningu sinni á lúmskan hátt af NED, byggt á merkingarhugtökum á háu stigi. Heimild: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Úr myndbandinu sem fylgir blaðinu (innfellt í lok þessarar greinar), stutt myndbrot af leikaranum Al Pacino sem hefur breytt svip sínum á lúmskan hátt með NED, byggt á merkingarhugtökum á háu stigi sem skilgreina einstaka andlitssvip og tilfinningar tengdar þeim. 'Tilvísunardrifin' aðferðin til hægri tekur túlkaðar tilfinningar frá upprunavídeói og beitir henni á heildarmyndbandaröðina. Heimild: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Þetta tiltekna sviði fellur í vaxandi flokk djúpfalsaðar tilfinningar, þar sem auðkenni frummælanda er varðveitt, en tjáningum þeirra og örtjáningu er breytt. Þegar þessi tiltekna gervigreind tækni þroskast býður hún upp á möguleika fyrir kvikmynda- og sjónvarpsframleiðendur að gera fíngerðar breytingar á tjáningu leikara – en einnig opnar hún nokkuð nýjan flokk „tilfinningabreyttra“ myndbanda.

Breyting andlits

Andlitssvip fyrir opinberar persónur, eins og stjórnmálamenn, eru stranglega gerðar; árið 2016 komu andlitssvip Hillary Clinton undir miklu eftirliti fjölmiðla fyrir hugsanleg neikvæð áhrif þeirra á kosningahorfur hennar; svipbrigði, það kemur í ljós, eru líka a áhugamál til FBI; og þeir eru a mikilvægur vísir í atvinnuviðtölum, sem gerir (fjarlæga) möguleika á lifandi „tjáningarstýringu“ síu að æskilegri þróun fyrir atvinnuleitendur sem reyna að fara framhjá forskjá á Zoom.

Rannsókn 2005 frá Bretlandi fullyrti að andlitsútlitið hefur áhrif á ákvarðanir atkvæðagreiðslu, en 2019 Washington Post þáttur skoðaði notkun á „úr samhengi“ deilingu myndskeiða, sem er í augnablikinu það næsta sem talsmenn falsfrétta þurfa að geta raunverulega breytt því hvernig opinber persóna virðist haga sér, bregðast við eða líða.

Í átt að taugatjáningu

Í augnablikinu er staðan í því að meðhöndla andlitsáhrif frekar frumleg þar sem hún felur í sér að takast á við sundrungu af hugtökum á háu stigi (eins og sorglegt, reiður, hamingjusamur, brosandi) úr raunverulegu myndbandsefni. Þrátt fyrir að hefðbundin djúpfölsuð arkitektúr virðist ná þessari sundrungu nokkuð vel, þá krefst það samt að endurspegla tilfinningar yfir mismunandi sjálfsmyndir að tvö æfingaandlitssett innihaldi samsvarandi svipbrigði fyrir hverja sjálfsmynd.

Vegna þess að einkenni andlits- og stellingar eru svo samtvinnuð eins og er, er þörf á víðtækri jöfnuði tjáningar, höfuðstöðu og (í minna mæli) lýsingu á tveimur andlitsgagnasettum til að þjálfa áhrifaríkt djúpfalslíkan á kerfum eins og DeepFaceLab. Því minna sem tiltekin uppsetning (eins og 'hliðarsýn/brosandi/sólbjört') er í báðum andlitssettunum, því ónákvæmari mun hún birtast í djúpfölsku myndbandi, ef þörf krefur.

Dæmigert dæmi um andlitsmyndir í gagnasettum sem notuð eru til að þjálfa djúpfalsa. Eins og er, er aðeins hægt að vinna með andlitssvip einstaklings með því að búa til auðkennissértæka tjáningu<>tjáningarleiðir í djúpfallegu tauganeti. Hugbúnaður frá 2017-tímabilinu hefur engan eðlislægan, merkingarlegan skilning á „bros“ – hann kortleggur bara og samsvarar skynjuðum breytingum á rúmfræði andlits milli viðfangsefnanna tveggja.

Það sem er æskilegt, og hefur ekki enn náðst fullkomlega, er að viðurkenna hvernig viðfangsefni B (til dæmis) brosir, og einfaldlega búa til 'brosa' skipta um arkitektúr, án þess að þurfa að kortleggja hann við samsvarandi mynd af myndefni A brosandi.

The nýtt blað er titill Taugatilfinningastjóri: Málvarðandi merkingarstýring á svipbrigðum í „í náttúrunni“ myndböndum, og kemur frá vísindamönnum við School of Electrical & Computer Engineering við National Technical University of Athens, Institute of Computer Science við Foundation for Research and Technology Hellas (FORTH), og College of Engineering, Mathematics and Physical Sciences við Háskólinn í Exeter í Bretlandi.

Teymið hefur þróað ramma sem kallast Taugatilfinningarstjóri (NED), sem inniheldur 3D byggt tilfinningaþýðingarnet, 3D-undirstaða tilfinningatækni.

NED tekur móttekna röð af tjáningarbreytum og þýðir þær yfir á marklén. Það er þjálfað á óviðjafnanlegum gögnum, sem þýðir að það er ekki nauðsynlegt að þjálfa á gagnapakka þar sem hver auðkenni hefur samsvarandi svipbrigði.

Myndbandið, sýnt í lok þessarar greinar, gengur í gegnum röð prófana þar sem NED setur augljóst tilfinningalegt ástand á myndefni úr YouTube gagnasafninu.

Myndbandið, sýnt í lok þessarar greinar, gengur í gegnum röð prófana þar sem NED setur augljóst tilfinningalegt ástand á myndefni úr YouTube gagnasafninu.

Höfundarnir halda því fram að NED sé fyrsta myndbandstengda aðferðin til að „leikstýra“ leikurum við tilviljunarkenndar og ófyrirsjáanlegar aðstæður og hafa gert kóðann aðgengilegan á NED verkefnasíðu.

Aðferð og arkitektúr

Kerfið er þjálfað á tveimur stórum myndbandsgagnasöfnum sem hafa verið merkt með „tilfinningar“ merkjum.

Úttakið er virkjað af andlitsmyndavél sem endurspeglar æskilega tilfinningar í myndbandi með hefðbundinni myndmyndunaraðferðum í andliti, þar á meðal andlitsskiptingu, leiðréttingu andlitsmerkis og blöndun, þar sem aðeins andlitssvæðið er myndað og síðan sett á upprunalega myndefnið.

Arkitektúr fyrir leiðslu taugatilfinningaskynjarans (NED). Heimild: https://arxiv.org/pdf/2112.00585.pdf

Arkitektúr fyrir leiðslu taugatilfinningaskynjarans (NED). Heimild: https://arxiv.org/pdf/2112.00585.pdf

Upphaflega fær kerfið 3D andlitsendurheimt og setur leiðarmerki í andliti á inntaksrammana til að bera kennsl á tjáninguna. Eftir þetta eru þessar endurheimtu tjáningarfæribreytur sendar til þrívíddar-undirstaða tilfinningatækninnar og stílvigur reiknaður með annað hvort merkingarmerki (eins og 'hamingjusamur') eða með tilvísunarskrá.

Tilvísunarskrá er myndband sem sýnir tiltekna viðurkennda tjáningu/tilfinningu, sem síðan er sett á allt markmyndbandið og skiptir út upprunalegu tjáningunni.

Stig í tilfinningaflutningsleiðinni þar sem ýmsir leikarar eru sýnishorn af YouTube myndböndum.

Stig í tilfinningaflutningsleiðinni þar sem ýmsir leikarar eru sýnishorn af YouTube myndböndum.

Endanleg mynduð þrívíddarandlitsform er síðan sett saman við Normalized Mean Face Coordinate (NMFC) og augnmyndirnar (rauðu punktarnir á myndinni hér að ofan) og send til taugamyndarans, sem framkvæmir lokameðferðina.

Niðurstöður

Rannsakendur gerðu umfangsmiklar rannsóknir, þar á meðal notenda- og brottnámsrannsóknir, til að meta árangur aðferðarinnar í samanburði við fyrri vinnu og komust að því að í flestum flokkum er NED betri en núverandi tækni í þessum undirgeira taugameðferðar í andliti.

Höfundar blaðsins sjá fyrir sér að síðari útfærslur á þessu verki, og verkfæri af svipuðum toga, muni fyrst og fremst nýtast í sjónvarps- og kvikmyndaiðnaðinum, þar sem fram kemur:

„Aðferðin okkar opnar ofgnótt af nýjum möguleikum fyrir gagnlegar notkunartækni fyrir taugaútgáfu, allt frá eftirvinnslu kvikmynda og tölvuleikja til ljósmyndraunsæislegra afatara.

Þetta er snemma verk á þessu sviði, en eitt af þeim fyrstu til að reyna að endurgera andlit með myndbandi frekar en kyrrmyndum. Þó að myndbönd séu í rauninni margar kyrrmyndir sem keyra saman mjög hratt, þá eru tímabundnar forsendur sem gera fyrri notkun tilfinningaflutnings minna áhrifarík. Í meðfylgjandi myndbandi, og dæmum í blaðinu, hafa höfundar sjónrænan samanburð á framleiðslu NED við aðrar sambærilegar nýlegar aðferðir.

Ítarlegri samanburð, og mörg fleiri dæmi um NED, má finna í myndbandinu í heild sinni hér að neðan:

[CVPR 2022] NED: Málvarðandi merkingarstýring á svipbrigðum í „í náttúrunni“ myndböndum

 

3. desember 2021, 18:30 GMT+2 – Að beiðni eins af höfundum blaðsins voru gerðar leiðréttingar varðandi 'tilvísunarskrána', sem ég sagði ranglega að væri kyrrmynd (þegar það er í raun myndbandsbútur). Einnig breyting á nafni Tölvunarfræðistofnunar Rannsókna- og tæknistofnunar.
3. desember 2021, 20:50 GMT+2 – Önnur beiðni frá einum af höfundum blaðsins um frekari breytingu á nafni ofangreindrar stofnunar.