Mesterséges Intelligencia

Az érzelmek megváltoztatása a videófelvételeken mesterséges intelligencia segítségével

korszerűsített on December 9, 2022

Görögországból és az Egyesült Királyságból származó kutatók új, mély tanulási megközelítést dolgoztak ki a videófelvételeken szereplő emberek kifejezésmódjának és látszólagos hangulatának megváltoztatására, miközben megőrzik az ajkak mozgásának hűségét az eredeti hanghoz oly módon, amelyet a korábbi próbálkozások nem tudtak megfeleltetni. .

Az újságot kísérő videóból (amely a cikk végén található) egy rövid klip Al Pacino színészről, akinek arckifejezését a NED finoman megváltoztatta, magas szintű szemantikai koncepciók alapján. Forrás: https://www.youtube.com/watch?v=Li6W8pRDMJQ

A cikket kísérő videóból (amely a cikk végén található) egy rövid klip Al Pacino színészről, akinek arckifejezését a NED finoman megváltoztatta, az egyéni arckifejezéseket és a hozzájuk kapcsolódó érzelmeket meghatározó magas szintű szemantikai fogalmak alapján. A jobb oldali „Referenciavezérelt” módszer a forrásvideó értelmezett érzelmeit/érzelmeit veszi át, és a teljes videósorozatra alkalmazza. Forrás: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Ez a terület a növekvő kategóriába tartozik mélyen hamisított érzelmek, ahol az eredeti beszélő identitása megmarad, de kifejezései és mikrokifejezései módosulnak. Ahogy ez a sajátos mesterségesintelligencia-technológia érik, lehetőséget kínál a film- és TV-produkciók számára, hogy finoman módosítsák a színészek arckifejezését – ugyanakkor egy meglehetősen új kategóriát nyit meg az „érzelmekkel módosított” videó mélyhamisításában.

Változó arcok

A közéleti személyiségek, például politikusok arckifejezéseit szigorúan gondozzák; 2016-ban megjelentek Hillary Clinton arckifejezései intenzív médiafigyelem alatt választási kilátásaira gyakorolt esetleges negatív hatásuk miatt; arckifejezések, kiderül, szintén a érdekes téma az FBI-nak; és ők a kritikus mutató az állásinterjúkon az élő „kifejezés-szabályozás” szűrőjének (távoli) kilátásba helyezése kívánatos fejlemény az álláskeresők számára, akik megpróbálnak átmenni a Zoom előszűrőjén.

Egy 2005-ös brit tanulmány azt állította, hogy az arc megjelenése befolyásolja a szavazási döntéseket, míg a Washington Post 2019-es szolgáltatása megvizsgálta a a „kontextuson kívüli” videoklip-megosztás használata, ami jelenleg a legközelebbi dolog, amit az álhírek támogatóinak meg kell tenniük ahhoz, hogy ténylegesen megváltoztassák egy közszereplő viselkedését, reagálását vagy érzését.

A neurális expressziós manipuláció felé

Jelenleg az archatás manipulálása terén a technika állása meglehetősen kezdetleges, mivel magában foglalja az megoldás magas szintű fogalmak (pl szomorú, dühös, boldog, mosolygó) tényleges videotartalomból. Bár úgy tűnik, hogy a hagyományos mélyhamisítású architektúrák elég jól megvalósítják ezt a szétválasztást, a különböző identitások közötti érzelmek tükrözéséhez még mindig szükség van arra, hogy két oktató arckészlet mindegyik identitáshoz megfelelő kifejezéseket tartalmazzon.

Mivel az arcazonosító és a póz jellemzői jelenleg annyira összefonódnak, a kifejezés, a fejtartás és (kisebb mértékben) a megvilágítás széles skálájára van szükség két arcadatkészleten keresztül, hogy hatékony mélyhamisítási modellt taníthassunk olyan rendszereken, mint például a DeepFaceLab. Minél kevésbé jelenik meg egy adott konfiguráció (például „oldalnézet/mosolygó/napfény”) mindkét arc-készletben, annál kevésbé pontosan jelenít meg egy hamisított videóban, ha szükséges.

Tipikus példák arcképekre a mélyhamisítások betanítására használt adatkészletekben. Jelenleg csak úgy lehet manipulálni egy személy arckifejezését, ha ID-specifikus kifejezési útvonalakat hoz létre egy mélyhamisított neurális hálózatban. A 2017-es korszak mélyhamisítású szoftverének nincs belső, szemantikai felfogása a „mosollyal” kapcsolatban – csak feltérképezi és egyezteti a két alany arcgeometriájában észlelt változásokat.

Ami kívánatos, és még nem sikerült tökéletesen, az az, hogy felismerjük, hogyan mosolyog (például B) alany, és egyszerűen létrehozunk egy 'mosoly' váltani az architektúrában, anélkül, hogy le kellene képeznie az A téma egyenértékű képére, amely mosolyog.

A új lap címet viseli Neurális érzelmek rendezője: Az arckifejezések beszédmegőrző szemantikai szabályozása „vadon” videókban, és az Athéni Nemzeti Műszaki Egyetem Villamos- és Számítástechnikai Egyetemének, a Hellas Kutatási és Technológiai Alapítvány (FORTH) Számítástechnikai Intézetének, valamint a Műszaki, Matematikai és Fizikai Tudományok Főiskolájának kutatóitól származik. Exeteri Egyetem az Egyesült Királyságban.

A csapat kidolgozott egy keretrendszert, az úgynevezett Neurális érzelmek igazgatója (NED), amely egy 3D-alapú érzelemfordító hálózatot foglal magában, 3D alapú érzelemmanipulátor.

A NED felveszi a kapott kifejezési paraméterek sorozatát, és lefordítja azokat egy céltartományba. Páratlan adatokra van kiképezve, ami azt jelenti, hogy nem szükséges olyan adatkészletekre oktatni, ahol minden identitásnak megfelelő arckifejezései vannak.

A cikk végén látható videó egy tesztsorozaton megy keresztül, ahol a NED látszólagos érzelmi állapotot kényszerít a YouTube-adatkészletből származó felvételekre.

A szerzők azt állítják, hogy a NED az első videó alapú módszer a színészek véletlenszerű és előre nem látható helyzetekben való „irányítására”, és elérhetővé tették a kódot a NED-eken. projekt oldal.

Módszer és építészet

A rendszert két nagy, „érzelem” címkékkel ellátott videoadatkészletre képezték ki.

A kimenetet egy videoarc-renderer teszi lehetővé, amely a kívánt érzelmet a hagyományos arckép-szintézis technikák segítségével adja vissza a videónak, beleértve az arcszegmentálást, az arcvonal-beállítást és a keverést, ahol csak az arc területét szintetizálja, majd ráhelyezi az eredeti felvételre.

A Neural Emotion Detector (NED) csővezetékének architektúrája. Forrás: https://arxiv.org/pdf/2112.00585.pdf

Kezdetben a rendszer 3D-s arc-helyreállítást kap, és a bemeneti kereteken az arc iránypontjainak igazítását teszi lehetővé a kifejezés azonosítása érdekében. Ezt követően ezek a helyreállított kifejezési paraméterek átadásra kerülnek a 3D-alapú érzelemmanipulátornak, és egy szemantikai címke (például "boldog") vagy egy referenciafájl segítségével kiszámított stílusvektornak.

A referenciafájl egy olyan videó, amely egy bizonyos felismert kifejezést/érzelmet ábrázol, amelyet aztán a célvideó egészére ráhelyeznek, kicserélve az eredeti kifejezést.

Az érzelmek átvitelének szakaszai, különböző szereplők fellépésével YouTube-videókból.

A véglegesen generált 3D-s arcformát ezután összekapcsolják a normalizált átlagos arckoordinátával (NMFC) és a szemképekkel (a fenti képen látható piros pontok), és továbbítják a neurális renderelőhöz, amely elvégzi a végső manipulációt.

Eredmények

A kutatók kiterjedt tanulmányokat végeztek, beleértve a felhasználói és ablációs vizsgálatokat, hogy értékeljék a módszer hatékonyságát a korábbi munkákhoz képest, és azt találták, hogy a legtöbb kategóriában a NED felülmúlja a technika jelenlegi állását az idegi arcmanipuláció ezen alszektorában.

A cikk szerzői úgy látják, hogy ennek a munkának a későbbi megvalósításai, illetve a hasonló jellegű eszközök elsősorban a tévé- és filmiparban lesznek hasznosak.

"Módszerünk rengeteg új lehetőséget nyit meg a neurális renderelési technológiák hasznos alkalmazásaiban, a filmek utómunkájától és a videojátékoktól a fotórealisztikus érzelmi avatarokig."

Ez egy korai munka ezen a területen, de az egyik első, amely az arc újrajátszását videóval, nem pedig állóképekkel próbálta meg. Bár a videók alapvetően sok állókép, amelyek nagyon gyorsan futnak össze, vannak időbeli megfontolások, amelyek kevésbé hatékonyak az érzelemátvitel korábbi alkalmazásaiban. A mellékelt videóban és a cikkben szereplő példákban a szerzők vizuális összehasonlításokat tesznek a NED kimenetére más hasonló, közelmúltbeli módszerekkel.

Részletesebb összehasonlítások és még sok más példa a NED-re az alábbi teljes videóban található:

[CVPR 2022] NED: Az arckifejezések beszédmegőrző szemantikai szabályozása a „vadon” videókban

[CVPR 2022] NED: Speech-preserving semantic control of facial expressions in “in-the-wild” videos

Watch this video on YouTube

3. december 2021., 18:30 GMT+2 – A lap egyik szerzőjének kérésére javítások történtek a „referenciafájl” kapcsán, amelyről tévedésből állóképnek állítottam (amikor valójában egy videoklipről van szó). Szintén a Kutatási és Technológiai Alapítvány Számítástechnikai Intézete nevének módosítása.
3. december 2021., 20:50 GMT+2 – A lap egyik szerzőjének második kérése a fent említett intézmény nevének további módosítására.

Kapcsolódó témák:befolyásolja a felismerést DeepFakes érzelem felismerés érzelmek kutatás

Up Next

A GAN látens terének feltérképezésének nem kívánt előnyei

Ne hagyd ki

A Disney egyesíti a CGI-t a neurális rendereléssel, hogy megbirkózzon az „elképesztő völgy”-vel

Martin Anderson

Író a gépi tanulásról, a mesterséges intelligenciáról és a big data-ról.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai

Egyesül.AI

Az érzelmek megváltoztatása a videófelvételeken mesterséges intelligencia segítségével

Mesterséges Intelligencia