Mesterséges Intelligencia
Az érzelmek megváltoztatása a videófelvételeken mesterséges intelligencia segítségével
Görögországból és az Egyesült Királyságból származó kutatók új, mély tanulási megközelítést dolgoztak ki a videófelvételeken szereplő emberek kifejezésmódjának és látszólagos hangulatának megváltoztatására, miközben megőrzik az ajkak mozgásának hűségét az eredeti hanghoz oly módon, amelyet a korábbi próbálkozások nem tudtak megfeleltetni. .
Ez a terület a növekvő kategóriába tartozik mélyen hamisított érzelmek, ahol az eredeti beszélő identitása megmarad, de kifejezései és mikrokifejezései módosulnak. Ahogy ez a sajátos mesterségesintelligencia-technológia érik, lehetőséget kínál a film- és TV-produkciók számára, hogy finoman módosítsák a színészek arckifejezését – ugyanakkor egy meglehetősen új kategóriát nyit meg az „érzelmekkel módosított” videó mélyhamisításában.
Változó arcok
A közéleti személyiségek, például politikusok arckifejezéseit szigorúan gondozzák; 2016-ban megjelentek Hillary Clinton arckifejezései intenzív médiafigyelem alatt választási kilátásaira gyakorolt esetleges negatív hatásuk miatt; arckifejezések, kiderül, szintén a érdekes téma az FBI-nak; és ők a kritikus mutató az állásinterjúkon az élő „kifejezés-szabályozás” szűrőjének (távoli) kilátásba helyezése kívánatos fejlemény az álláskeresők számára, akik megpróbálnak átmenni a Zoom előszűrőjén.
Egy 2005-ös brit tanulmány azt állította, hogy az arc megjelenése befolyásolja a szavazási döntéseket, míg a Washington Post 2019-es szolgáltatása megvizsgálta a a „kontextuson kívüli” videoklip-megosztás használata, ami jelenleg a legközelebbi dolog, amit az álhírek támogatóinak meg kell tenniük ahhoz, hogy ténylegesen megváltoztassák egy közszereplő viselkedését, reagálását vagy érzését.
A neurális expressziós manipuláció felé
Jelenleg az archatás manipulálása terén a technika állása meglehetősen kezdetleges, mivel magában foglalja az megoldás magas szintű fogalmak (pl szomorú, dühös, boldog, mosolygó) tényleges videotartalomból. Bár úgy tűnik, hogy a hagyományos mélyhamisítású architektúrák elég jól megvalósítják ezt a szétválasztást, a különböző identitások közötti érzelmek tükrözéséhez még mindig szükség van arra, hogy két oktató arckészlet mindegyik identitáshoz megfelelő kifejezéseket tartalmazzon.
Ami kívánatos, és még nem sikerült tökéletesen, az az, hogy felismerjük, hogyan mosolyog (például B) alany, és egyszerűen létrehozunk egy 'mosoly' váltani az architektúrában, anélkül, hogy le kellene képeznie az A téma egyenértékű képére, amely mosolyog.
A új lap címet viseli Neurális érzelmek rendezője: Az arckifejezések beszédmegőrző szemantikai szabályozása „vadon” videókban, és az Athéni Nemzeti Műszaki Egyetem Villamos- és Számítástechnikai Egyetemének, a Hellas Kutatási és Technológiai Alapítvány (FORTH) Számítástechnikai Intézetének, valamint a Műszaki, Matematikai és Fizikai Tudományok Főiskolájának kutatóitól származik. Exeteri Egyetem az Egyesült Királyságban.
A csapat kidolgozott egy keretrendszert, az úgynevezett Neurális érzelmek igazgatója (NED), amely egy 3D-alapú érzelemfordító hálózatot foglal magában, 3D alapú érzelemmanipulátor.
A NED felveszi a kapott kifejezési paraméterek sorozatát, és lefordítja azokat egy céltartományba. Páratlan adatokra van kiképezve, ami azt jelenti, hogy nem szükséges olyan adatkészletekre oktatni, ahol minden identitásnak megfelelő arckifejezései vannak.
A szerzők azt állítják, hogy a NED az első videó alapú módszer a színészek véletlenszerű és előre nem látható helyzetekben való „irányítására”, és elérhetővé tették a kódot a NED-eken. projekt oldal.
Módszer és építészet
A rendszert két nagy, „érzelem” címkékkel ellátott videoadatkészletre képezték ki.
A kimenetet egy videoarc-renderer teszi lehetővé, amely a kívánt érzelmet a hagyományos arckép-szintézis technikák segítségével adja vissza a videónak, beleértve az arcszegmentálást, az arcvonal-beállítást és a keverést, ahol csak az arc területét szintetizálja, majd ráhelyezi az eredeti felvételre.
Kezdetben a rendszer 3D-s arc-helyreállítást kap, és a bemeneti kereteken az arc iránypontjainak igazítását teszi lehetővé a kifejezés azonosítása érdekében. Ezt követően ezek a helyreállított kifejezési paraméterek átadásra kerülnek a 3D-alapú érzelemmanipulátornak, és egy szemantikai címke (például "boldog") vagy egy referenciafájl segítségével kiszámított stílusvektornak.
A referenciafájl egy olyan videó, amely egy bizonyos felismert kifejezést/érzelmet ábrázol, amelyet aztán a célvideó egészére ráhelyeznek, kicserélve az eredeti kifejezést.
A véglegesen generált 3D-s arcformát ezután összekapcsolják a normalizált átlagos arckoordinátával (NMFC) és a szemképekkel (a fenti képen látható piros pontok), és továbbítják a neurális renderelőhöz, amely elvégzi a végső manipulációt.
Eredmények
A kutatók kiterjedt tanulmányokat végeztek, beleértve a felhasználói és ablációs vizsgálatokat, hogy értékeljék a módszer hatékonyságát a korábbi munkákhoz képest, és azt találták, hogy a legtöbb kategóriában a NED felülmúlja a technika jelenlegi állását az idegi arcmanipuláció ezen alszektorában.
A cikk szerzői úgy látják, hogy ennek a munkának a későbbi megvalósításai, illetve a hasonló jellegű eszközök elsősorban a tévé- és filmiparban lesznek hasznosak.
"Módszerünk rengeteg új lehetőséget nyit meg a neurális renderelési technológiák hasznos alkalmazásaiban, a filmek utómunkájától és a videojátékoktól a fotórealisztikus érzelmi avatarokig."
Ez egy korai munka ezen a területen, de az egyik első, amely az arc újrajátszását videóval, nem pedig állóképekkel próbálta meg. Bár a videók alapvetően sok állókép, amelyek nagyon gyorsan futnak össze, vannak időbeli megfontolások, amelyek kevésbé hatékonyak az érzelemátvitel korábbi alkalmazásaiban. A mellékelt videóban és a cikkben szereplő példákban a szerzők vizuális összehasonlításokat tesznek a NED kimenetére más hasonló, közelmúltbeli módszerekkel.
Részletesebb összehasonlítások és még sok más példa a NED-re az alábbi teljes videóban található:
3. december 2021., 18:30 GMT+2 – A lap egyik szerzőjének kérésére javítások történtek a „referenciafájl” kapcsán, amelyről tévedésből állóképnek állítottam (amikor valójában egy videoklipről van szó). Szintén a Kutatási és Technológiai Alapítvány Számítástechnikai Intézete nevének módosítása.
3. december 2021., 20:50 GMT+2 – A lap egyik szerzőjének második kérése a fent említett intézmény nevének további módosítására.