Artificial Intelligence
Að breyta tilfinningum í myndbandsupptökum með gervigreind
Vísindamenn frá Grikklandi og Bretlandi hafa þróað nýja djúpnámsaðferð til að breyta tjáningu og augljósu skapi fólks í myndbandsupptökum, en varðveita tryggð varahreyfinga þeirra við upprunalega hljóðið á þann hátt að fyrri tilraunir hafa ekki tekist að passa saman. .
Þetta tiltekna sviði fellur í vaxandi flokk djúpfalsaðar tilfinningar, þar sem auðkenni frummælanda er varðveitt, en tjáningum þeirra og örtjáningu er breytt. Þegar þessi tiltekna gervigreind tækni þroskast býður hún upp á möguleika fyrir kvikmynda- og sjónvarpsframleiðendur að gera fíngerðar breytingar á tjáningu leikara – en einnig opnar hún nokkuð nýjan flokk „tilfinningabreyttra“ myndbanda.
Breyting andlits
Andlitssvip fyrir opinberar persónur, eins og stjórnmálamenn, eru stranglega gerðar; árið 2016 komu andlitssvip Hillary Clinton undir miklu eftirliti fjölmiðla fyrir hugsanleg neikvæð áhrif þeirra á kosningahorfur hennar; svipbrigði, það kemur í ljós, eru líka a áhugamál til FBI; og þeir eru a mikilvægur vísir í atvinnuviðtölum, sem gerir (fjarlæga) möguleika á lifandi „tjáningarstýringu“ síu að æskilegri þróun fyrir atvinnuleitendur sem reyna að fara framhjá forskjá á Zoom.
Rannsókn 2005 frá Bretlandi fullyrti að andlitsútlitið hefur áhrif á ákvarðanir atkvæðagreiðslu, en 2019 Washington Post þáttur skoðaði notkun á „úr samhengi“ deilingu myndskeiða, sem er í augnablikinu það næsta sem talsmenn falsfrétta þurfa að geta raunverulega breytt því hvernig opinber persóna virðist haga sér, bregðast við eða líða.
Í átt að taugatjáningu
Í augnablikinu er staðan í því að meðhöndla andlitsáhrif frekar frumleg þar sem hún felur í sér að takast á við sundrungu af hugtökum á háu stigi (eins og sorglegt, reiður, hamingjusamur, brosandi) úr raunverulegu myndbandsefni. Þrátt fyrir að hefðbundin djúpfölsuð arkitektúr virðist ná þessari sundrungu nokkuð vel, þá krefst það samt að endurspegla tilfinningar yfir mismunandi sjálfsmyndir að tvö æfingaandlitssett innihaldi samsvarandi svipbrigði fyrir hverja sjálfsmynd.
Það sem er æskilegt, og hefur ekki enn náðst fullkomlega, er að viðurkenna hvernig viðfangsefni B (til dæmis) brosir, og einfaldlega búa til 'brosa' skipta um arkitektúr, án þess að þurfa að kortleggja hann við samsvarandi mynd af myndefni A brosandi.
The nýtt blað er titill Taugatilfinningastjóri: Málvarðandi merkingarstýring á svipbrigðum í „í náttúrunni“ myndböndum, og kemur frá vísindamönnum við School of Electrical & Computer Engineering við National Technical University of Athens, Institute of Computer Science við Foundation for Research and Technology Hellas (FORTH), og College of Engineering, Mathematics and Physical Sciences við Háskólinn í Exeter í Bretlandi.
Teymið hefur þróað ramma sem kallast Taugatilfinningarstjóri (NED), sem inniheldur 3D byggt tilfinningaþýðingarnet, 3D-undirstaða tilfinningatækni.
NED tekur móttekna röð af tjáningarbreytum og þýðir þær yfir á marklén. Það er þjálfað á óviðjafnanlegum gögnum, sem þýðir að það er ekki nauðsynlegt að þjálfa á gagnapakka þar sem hver auðkenni hefur samsvarandi svipbrigði.
Höfundarnir halda því fram að NED sé fyrsta myndbandstengda aðferðin til að „leikstýra“ leikurum við tilviljunarkenndar og ófyrirsjáanlegar aðstæður og hafa gert kóðann aðgengilegan á NED verkefnasíðu.
Aðferð og arkitektúr
Kerfið er þjálfað á tveimur stórum myndbandsgagnasöfnum sem hafa verið merkt með „tilfinningar“ merkjum.
Úttakið er virkjað af andlitsmyndavél sem endurspeglar æskilega tilfinningar í myndbandi með hefðbundinni myndmyndunaraðferðum í andliti, þar á meðal andlitsskiptingu, leiðréttingu andlitsmerkis og blöndun, þar sem aðeins andlitssvæðið er myndað og síðan sett á upprunalega myndefnið.
Upphaflega fær kerfið 3D andlitsendurheimt og setur leiðarmerki í andliti á inntaksrammana til að bera kennsl á tjáninguna. Eftir þetta eru þessar endurheimtu tjáningarfæribreytur sendar til þrívíddar-undirstaða tilfinningatækninnar og stílvigur reiknaður með annað hvort merkingarmerki (eins og 'hamingjusamur') eða með tilvísunarskrá.
Tilvísunarskrá er myndband sem sýnir tiltekna viðurkennda tjáningu/tilfinningu, sem síðan er sett á allt markmyndbandið og skiptir út upprunalegu tjáningunni.
Endanleg mynduð þrívíddarandlitsform er síðan sett saman við Normalized Mean Face Coordinate (NMFC) og augnmyndirnar (rauðu punktarnir á myndinni hér að ofan) og send til taugamyndarans, sem framkvæmir lokameðferðina.
Niðurstöður
Rannsakendur gerðu umfangsmiklar rannsóknir, þar á meðal notenda- og brottnámsrannsóknir, til að meta árangur aðferðarinnar í samanburði við fyrri vinnu og komust að því að í flestum flokkum er NED betri en núverandi tækni í þessum undirgeira taugameðferðar í andliti.
Höfundar blaðsins sjá fyrir sér að síðari útfærslur á þessu verki, og verkfæri af svipuðum toga, muni fyrst og fremst nýtast í sjónvarps- og kvikmyndaiðnaðinum, þar sem fram kemur:
„Aðferðin okkar opnar ofgnótt af nýjum möguleikum fyrir gagnlegar notkunartækni fyrir taugaútgáfu, allt frá eftirvinnslu kvikmynda og tölvuleikja til ljósmyndraunsæislegra afatara.
Þetta er snemma verk á þessu sviði, en eitt af þeim fyrstu til að reyna að endurgera andlit með myndbandi frekar en kyrrmyndum. Þó að myndbönd séu í rauninni margar kyrrmyndir sem keyra saman mjög hratt, þá eru tímabundnar forsendur sem gera fyrri notkun tilfinningaflutnings minna áhrifarík. Í meðfylgjandi myndbandi, og dæmum í blaðinu, hafa höfundar sjónrænan samanburð á framleiðslu NED við aðrar sambærilegar nýlegar aðferðir.
Ítarlegri samanburð, og mörg fleiri dæmi um NED, má finna í myndbandinu í heild sinni hér að neðan:
3. desember 2021, 18:30 GMT+2 – Að beiðni eins af höfundum blaðsins voru gerðar leiðréttingar varðandi 'tilvísunarskrána', sem ég sagði ranglega að væri kyrrmynd (þegar það er í raun myndbandsbútur). Einnig breyting á nafni Tölvunarfræðistofnunar Rannsókna- og tæknistofnunar.
3. desember 2021, 20:50 GMT+2 – Önnur beiðni frá einum af höfundum blaðsins um frekari breytingu á nafni ofangreindrar stofnunar.