Изкуствен интелект

Четене по устни с Visemes и машинно обучение

Обновено on Декември 9, 2022

HAL чете по устните в 2001: Космическа одисея (1968)

Ново изследване от Училището по компютърно инженерство в Техеран предлага подобрен подход към предизвикателството за създаване на системи за машинно обучение, способни да четат по устните.

- хартия, озаглавена Четене на устни с помощта на Viseme декодиране, съобщава, че новата система постига 4% подобрение в процента на грешка в думата спрямо най-доброто от подобни предишни модели. Системата се справя с общата липса на полезни данни за обучение в този сектор чрез картографиране виземи към текстово съдържание, получено от шестте милиона проби в набора от данни на OpenSubtitles за преведени филмови заглавия.

Виземата е визуален еквивалент на фонема, всъщност аудио>изображение картография които могат да представляват „функция“ в модел на машинно обучение.

Visemes в действие. Източник: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Изследователите започнаха с установяване на най-ниския процент на грешки в наличните масиви от данни и разработване на виземни последователности от установени процедури за картографиране. Постепенно този процес развива визуален лексикон от думи – въпреки че е необходимо да се определят вероятностите за точност за различни думи, които споделят визема (като „сърце“ и „изкуство“).

Visemes извлечени от текст. Източник: https://arxiv.org/pdf/2104.04784.pdf

Когато две еднакви думи водят до една и съща визема, се избира най-често срещаната дума.

Моделът надгражда традиционния последователност към последователност обучение чрез добавяне на етап на подобработка, при който висемите се предвиждат от текст и се моделират в специален конвейер:

По-горе, традиционни методи от последователност до последователност в символен модел; по-долу, добавянето на моделиране на характер на висема в изследователския модел на Техеран. Източник: https://arxiv.org/pdf/2104.04784.pdf

Моделът е приложен без визуален контекст срещу Набор от данни LRS3-TED, освободен от Оксфордския университет през 2018 г., с най-лошия процент грешки в думата (WER), получен уважаваните 24.29%.

Изследването на Техеран също включва използването на a графема към фонема конвертор.

В тест срещу изследването на Оксфорд от 2017 г Четене на изречения по устни в дивата природа (вижте по-долу), методът Video-To-Viseme постигна процент на грешка в думата от 62.3%, в сравнение с 69.5% за метода на Оксфорд.

Изследователите заключават, че използването на по-голям обем текстова информация, съчетано с картографиране на графема към фонема и визема, обещава подобрения спрямо състоянието на техниката в автоматизираните машинни системи за четене по устните, като същевременно признава, че използваните методи могат да произведат дори по-добри резултати, когато са включени в по-сложни текущи рамки.

Машинно управляваното четене по устните е активна и продължаваща област на изследванията на компютърното зрение и НЛП през последните две десетилетия. Сред много други примери и проекти, през 2006 г. използването на автоматизиран софтуер за четене по устните уловени заглавия когато се използва за тълкуване на казаното от Адолф Хитлер в някои от известните неми филми, заснети при неговото убежище в Бавария, въпреки че приложението изглежда е изчезнало в неизвестност, тъй като (дванадесет години по-късно сър Питър Джаксън прибягва на човешки четци по устните, за да възстановят разговорите от кадри от Първата световна война в проекта за възстановяване Те няма да остареят).

В 2017, Изречения за четене на устни в дивата природа, сътрудничество между Оксфордския университет и изследователския отдел на Google за AI създаде a AI за четене по устните способен да изведе правилно 48% от речта във видео без звук, където човешкият четец по устните може да достигне само 12.4% точност от същия материал. Моделът беше обучен на хиляди часове телевизионни кадри на BBC.

Тази работа е продължение на a отделен Инициативата на Оксфорд/Гугъл от предходната година, озаглавена LipNet, архитектура на невронна мрежа, която картографира видео последователности с променлива дължина към текстови последователности, използвайки Gated Recurrent Network (GRN), която добавя функционалност към основната архитектура на Recurrent Neural Network (RNN). Моделът постигна 4.1 пъти подобрена производителност в сравнение с човешките четци по устните.

Освен проблема с извличането на точен препис в реално време, предизвикателството за тълкуване на реч от видео се задълбочава, когато премахвате полезен контекст, като аудио, кадри „лице в очите“, които са добре осветени, и език/култура, където фонемите/ висемите са относително различни.

Въпреки че понастоящем няма емпирично разбиране кои езици са най-трудни за четене по устните при пълната липса на аудио, японският е основен претендент. Различните начини, по които японските местни жители (както и някои други местни жители на Западна и Източна Азия) използват изражението на лицето срещу съдържанието на речта си, вече ги правят по-голямо предизвикателство за системи за анализ на настроението.

Все пак си струва да се отбележи, че голяма част от научната литература по темата е като цяло внимателен, не на последно място защото дори добронамереното обективно изследване в тази сфера рискува да премине в расово профилиране и прокарване на съществуващи стереотипи.

Езици с висок дял на гърлени компоненти, като напр чеченски намлява Dutch, са особено проблематични за автоматизираните техники за извличане на реч, докато култури, където говорещият може да изрази емоция или уважение, като гледа настрани (отново, като цяло в азиатските култури) добавете още едно измерение, където изследователите на четенето по устни с изкуствен интелект ще трябва да разработят допълнителни методи за „попълване“ от други контекстуални улики.