csonk Szájolvasás Visemes-szel és gépi tanulással – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Szájról olvasás Visemes-szel és gépi tanulással

mm
korszerűsített on
A HAL szájról olvas 2001: Űrodüsszea (1968)

A teheráni Computer Engineering School új kutatása továbbfejlesztett megközelítést kínál az ajkak olvasására képes gépi tanulási rendszerek létrehozására.

A papír, címmel Ajakolvasás Viseme dekódolással, arról számol be, hogy az új rendszer 4%-os javulást ér el a szóhibaarányban a legjobb hasonló korábbi modellekhez képest. A rendszer feltérképezi a hasznos képzési adatok általános hiányát ebben a szektorban visemes a lefordított filmcímek OpenSubtitles adatkészletében található hatmillió mintából származó szöveges tartalomra.

A viséma a fonéma vizuális megfelelője, gyakorlatilag egy hang>kép térképészet amely „funkciót” jelenthet egy gépi tanulási modellben.

Visemes gif

Visemes akcióban. Forrás: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

A kutatók azzal kezdték, hogy megállapították a legalacsonyabb hibaarányt a rendelkezésre álló adatkészleteken, és viseme szekvenciákat fejlesztettek ki a bevált térképezési eljárásokból. Ez a folyamat fokozatosan kialakítja a szavak vizuális lexikonját – bár meg kell határozni a pontosság valószínűségét a különböző szavakhoz, amelyek ugyanazt a visémát (például „szív” és „művészet”).

Dekódolt visemek

Szövegből kivont Visemes. Forrás: https://arxiv.org/pdf/2104.04784.pdf

Ha két azonos szó ugyanazt a visémát eredményezi, a leggyakrabban előforduló szó kerül kiválasztásra.

A modell a hagyományosra épít sorozatról-szekvenciára tanulás egy részfeldolgozási szakasz hozzáadásával, ahol a visemeket szövegből jósolják meg, és egy dedikált folyamatban modellezik:

Viseme építészeti ajakolvasás

Fent hagyományos szekvencia-szekvencia módszerek karaktermodellben; az alábbiakban a viseme karaktermodellezés hozzáadása a teheráni kutatási modellben. Forrás: https://arxiv.org/pdf/2104.04784.pdf

A modellt vizuális kontextus nélkül alkalmaztuk a LRS3-TED adatkészlet, felszabaduló Az Oxfordi Egyetemen 2018-ban a legrosszabb szóhibaaránnyal (WER) tekintélyes 24.29%-ot ért el.

A teheráni kutatás magában foglalja az a graféma-fonéma átalakító.

Egy tesztben a 2017-es oxfordi kutatással szemben Szájról olvasott mondatok a vadonban (lásd alább), a Video-To-Viseme módszer 62.3%-os szóhibaarányt ért el, szemben az oxfordi módszer 69.5%-ával.

A kutatók arra a következtetésre jutottak, hogy a nagyobb mennyiségű szöveges információ használata, a graféma-fonéma és a viséma leképezéssel kombinálva, előrelépést ígér az automatizált ajakolvasó géprendszerek korszerűségéhez képest, ugyanakkor elismerik, hogy az alkalmazott módszerek jobb eredményeket érhet el, ha kifinomultabb jelenlegi keretrendszerbe építjük be.

A gépi vezérlésű szájról történő olvasás az elmúlt két évtizedben a számítógépes látás és az NLP kutatás aktív és folyamatos területe volt. Sok más példa és projekt mellett 2006-ban az automatizált szájról leolvasó szoftver használata elkapott címek amikor arra használták, hogy értelmezzék, amit Adolf Hitler mondott néhány híres némafilmben, amelyet bajor visszavonulásakor készítettek, bár úgy tűnik, az alkalmazás azóta (tizenkét évvel később, Sir Peter Jackson) a homályba veszett. igénybe vették az emberi szájról olvasóknak, hogy állítsák helyre a helyreállítási projektben az első világháborús felvételek beszélgetéseit Nem fognak megöregedni).

A 2017, Szájról olvasott mondatok a vadonban, az Oxfordi Egyetem és a Google mesterséges intelligenciával foglalkozó kutatási részlege együttműködésével készült a szájról olvasó AI képes helyesen következtetni a beszéd 48%-ára hang nélkül a videóban, ahol az emberi szájról leolvasó ugyanabból az anyagból csak 12.4%-os pontosságot tudott elérni. A modellt több ezer órányi BBC TV-felvételen képezték ki.

Ez a munka az a különálló Oxford/Google kezdeményezés az előző évben, címmel LipNet, egy neurális hálózati architektúra, amely változó hosszúságú videoszekvenciákat képezett le szövegszekvenciákra egy Gated Recurrent Network (GRN) segítségével, amely funkcionalitást ad az ismétlődő neurális hálózat (RNN) alaparchitektúrájához. A modell 4.1-szer jobb teljesítményt ért el, mint az emberi ajakolvasók.

A pontos, valós idejű átírás kiváltásának problémája mellett a beszéd videóból való értelmezésének kihívása is elmélyül, ahogyan eltávolítja a hasznos kontextust, például a hanganyagot, a jól megvilágított „szemközti” felvételeket és a nyelvet/kultúrát, ahol a fonémák/ a visemek viszonylag különböznek egymástól.

Bár jelenleg nincs empirikus megértés arról, hogy mely nyelveket a legnehezebb szájról olvasni a hang teljes hiányában, a japán nyelv első számú versenyző. A japán bennszülöttek (valamint bizonyos más nyugat- és kelet-ázsiai bennszülöttek) arckifejezéseiket beszédük tartalmához képest máris nagyobb kihívás hangulatelemző rendszerekhez.

Érdemes azonban megjegyezni, hogy a témával kapcsolatos tudományos irodalom nagy része általában körültekintő, nem utolsósorban azért, mert még a jó szándékú objektív kutatások is e téren kockáztatják, hogy átlépnek a faji profilalkotásba és a meglévő sztereotípiák terjesztésébe.

A nagy arányban öblös összetevőket tartalmazó nyelvek, mint pl Csecsen és a Holland, különösen problematikusak az automatizált beszédkivonási technikák esetében, míg az olyan kultúrákban, ahol a beszélő félretekintéssel fejezheti ki érzelmeit vagy tiszteletét (ismét általában ázsiai kultúrákban) adjon hozzá egy újabb dimenziót, ahol a mesterséges intelligencia szájról olvasó kutatóknak további „kitöltési” módszereket kell kifejleszteniük más kontextuális nyomokból.