Взгляд Anderson
Чтение по губам с помощью визем и машинного обучения

Новое исследование школы компьютерной инженерии в Тегеране предлагает улучшенный подход к созданию систем машинного обучения, способных читать по губам.
В статье, озаглавленной Чтение по губам с помощью декодирования визем, сообщается, что новая система достигает 4% улучшения показателя ошибки слов по сравнению с лучшими предыдущими моделями. Система решает общую проблему нехватки полезных данных для обучения, сопоставляя виземы с текстовым содержанием, полученным из шести миллионов образцов в наборе данных OpenSubtitles переведенных названий фильмов.
Визема – это визуальный аналог фонемы, по сути, аудио-изображение сопоставления, которое может составлять “фичу” в модели машинного обучения.

Виземы в действии. Источник: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
Исследователи начали с установления наименьшей ошибки на доступных наборах данных и разработки последовательностей визем с помощью установленных процедур сопоставления. Постепенно этот процесс развивает визуальный словарь слов – хотя необходимо определить вероятности точности для разных слов, которые делят визему (например, “heart” и “art”).
Когда две идентичные слова приводят к одной и той же виземе, выбирается слово, которое чаще всего встречается.
Модель основана на традиционном последовательном обучении и добавляет подпроцесс, на котором виземы прогнозируются из текста и моделируются в выделенной трубопроводе:

Выше, традиционные методы последовательного обучения в модели символов; ниже, добавление моделирования визем в модели Тегерана. Источник: https://arxiv.org/pdf/2104.04784.pdf
Модель была применена без визуального контекста к набору данных LRS3-TED, выпущенному Оксфордским университетом в 2018 году, с худшим показателем ошибки слов (WER), полученным на уровне 24,29%.
Исследование в Тегеране также включает использование конвертера графем в фонемы.
В тесте против исследования Оксфордского университета 2017 года Чтение предложений по губам в дикой природе (см. ниже), метод “Видео-в-Визему” достиг показателя ошибки слов 62,3%, по сравнению с 69,5% для метода Оксфорда.
Исследователи заключили, что использование большего объема текстовой информации, в сочетании с графемно-фонемным и виземным сопоставлением, обещает улучшения над современным уровнем автоматизированных систем чтения по губам, признавая, что методы, используемые в этом исследовании, могут дать еще лучшие результаты при включении в более совершенные современные框架ы.
Машинное чтение по губам было активной и продолжающейся областью исследований компьютерного зрения и обработки естественного языка за последние два десятилетия. Среди многих других примеров и проектов, в 2006 году использование автоматического программного обеспечения для чтения по губам получило широкую известность при интерпретации того, что Адольф Гитлер говорил в некоторых знаменитых немых фильмах, снятых на его баварской вилле, хотя это применение, кажется, исчезло в безвестности с тех пор (через двенадцать лет сэр Питер Джексон обратился к человеческим читателям губ, чтобы восстановить разговоры кадров Первой мировой войны в проекте реставрации Они не состарятся).
В 2017 году Чтение предложений по губам в дикой природе, совместный проект Оксфордского университета и исследовательского отдела Google по искусственному интеллекту, произвел программное обеспечение для чтения по губам, способное правильно угадать 48% речи на видео без звука, где человеческий читатель губ мог достичь только 12,4% точности на том же материале. Модель была обучена на тысячах часов видеоматериалов BBC.
Эта работа последовала за отдельным инициативой Оксфордского университета и Google за предыдущий год, озаглавленным LipNet, нейронную сеть, которая сопоставляла видеопоследовательности переменной длины с текстовыми последовательностями с помощью рекуррентной нейронной сети (RNN) с функцией шлюза. Модель достигла 4,1-кратного улучшения производительности по сравнению с человеческими читателями губ.
Помимо проблемы получения точной транскрипции в реальном времени, задача интерпретации речи из видео углубляется, когда вы удаляете полезный контекст, такой как аудио, “лицом к камере” кадры, которые хорошо освещены, и язык/культуру, где фонемы/виземы относительно различимы.
Хотя в настоящее время нет эмпирического понимания того, какие языки являются наиболее трудными для чтения по губам в полном отсутствии аудио, японский язык является главным претендентом. Различные способы, которыми японские носители (а также некоторые другие западные и восточноазиатские носители) используют выражения лица против содержания своей речи, уже делают их большим вызовом для систем анализа настроений.
Однако стоит отметить, что большая часть научной литературы по этой теме обычно осторожна, не в последнюю очередь потому, что даже хорошо намеренное объективное исследование в этой области рискует перейти в расовую профилировку и распространение существующих стереотипов.
Языки с высоким процентом гуттуральных компонентов, таких как чеченский и голландский, особенно проблематичны для автоматических методов извлечения речи, в то время как культуры, где говорящий может выражать эмоции или почтение, отводя взгляд (снова, обычно в азиатских культурах), добавляют еще один измерение, где исследователям чтения по губам необходимо разработать дополнительные методы “заполнения” из других контекстных подсказок.













