Искусственный интеллект
Чтение по губам с помощью висем и машинного обучения

Новое исследование Школы компьютерной инженерии в Тегеране предлагает улучшенный подход к задаче создания систем машинного обучения, способных читать по губам.
Команда статье, озаглавленный Чтение по губам с использованием декодирования визем, сообщает, что новая система на 4 % снижает количество ошибок в словах по сравнению с лучшими из аналогичных предыдущих моделей. Система устраняет общую нехватку полезных обучающих данных в этом секторе путем картирования виземы к текстовому контенту, полученному из шести миллионов образцов переведенных названий фильмов в наборе данных OpenSubtitles.
Визема — это визуальный эквивалент фонемы, по сути аудио>изображение. отображение которые могут представлять собой «функции» в модели машинного обучения.

Виземы в действии. Источник: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
Исследователи начали с того, что установили самый низкий уровень ошибок в доступных наборах данных и разработали последовательности висем на основе установленных процедур картирования. Постепенно этот процесс развивает визуальный словарь слов, хотя необходимо определить вероятности точности для разных слов, которые имеют общую визему (например, «сердце» и «искусство»).
Если два идентичных слова приводят к одной и той же виземе, выбирается наиболее часто встречающееся слово.
Модель построена на традиционной последовательность к последовательности обучение путем добавления этапа подобработки, на котором виземы прогнозируются из текста и моделируются в специальном конвейере:

Выше традиционные методы последовательного преобразования в модели персонажа; ниже добавление моделирования персонажей визем в исследовательскую модель Тегерана. Источник: https://arxiv.org/pdf/2104.04784.pdf
Модель была применена без визуального контекста против Набор данных LRS3-TED, освобожден из Оксфордского университета в 2018 году с наихудшим коэффициентом ошибок в словах (WER) получил респектабельные 24.29%.
Тегеранское исследование также включает использование графема-фонема конвертер.
В тесте против Оксфордского исследования 2017 года Предложения чтения по губам в дикой природе (см. ниже), метод Video-To-Viseme достиг коэффициента ошибок в словах 62.3% по сравнению с 69.5% для оксфордского метода.
Исследователи пришли к выводу, что использование большего объема текстовой информации в сочетании с отображением графемы в фонему и визем обещает улучшения по сравнению с современными системами автоматизированных машин для чтения по губам, признавая при этом, что используемые методы могут производить даже лучшие результаты при включении в более сложные современные структуры.
Машинное чтение по губам было активной и постоянной областью исследований компьютерного зрения и НЛП на протяжении последних двух десятилетий. Среди многих других примеров и проектов, в 2006 году было использовано программное обеспечение для автоматического чтения по губам. захваченные заголовки когда использовалась для интерпретации того, что говорил Адольф Гитлер в некоторых известных немых фильмах, снятых в его баварском убежище, хотя с тех пор это применение, похоже, исчезло в безвестности (двенадцатью годами позже сэр Питер Джексон прибегли людям, читающим по губам, чтобы восстановить разговоры из кадров времен Первой мировой войны в проекте восстановления Они не состарятся).
В 2017 году Предложения чтения по губам в дикой природе, сотрудничество между Оксфордским университетом и исследовательским подразделением Google по искусственному интеллекту привело к читающий по губам AI способен правильно интерпретировать 48% речи в видео без звука, тогда как человек, читающий по губам, может достичь точности только 12.4% из того же материала. Модель обучалась на тысячах часов телепередач BBC.
Эта работа последовала за отдельный Инициатива Оксфорда/Гугла прошлого года под названием Липнет, архитектура нейронной сети, которая сопоставляет видеопоследовательности переменной длины с текстовыми последовательностями с помощью Gated Recurrent Network (GRN), что добавляет функциональность к базовой архитектуре рекуррентной нейронной сети (RNN). Модель продемонстрировала улучшение производительности в 4.1 раза по сравнению с человеческими устройствами чтения по губам.
Помимо проблемы получения точной расшифровки в режиме реального времени, проблема интерпретации речи из видео усложняется по мере того, как вы удаляете полезный контекст, такой как аудио, хорошо освещенные кадры «лицом к лицу» и язык/культуру, в которых фонемы/ виземы относительно различны.
Хотя в настоящее время нет эмпирического понимания того, какие языки труднее всего читать по губам при полном отсутствии звука, японский — это главный претендент. Различные способы, которыми аборигены Японии (а также некоторые другие аборигены Западной и Восточной Азии) используют выражение лица в зависимости от содержания своей речи, уже делают их большая проблема для систем анализа настроений.
Тем не менее, стоит отметить, что большая часть научной литературы по этой теме, как правило, осмотрительныйХотя бы потому, что даже благонамеренные объективные исследования в этой сфере рискуют перерасти в расовое профилирование и пропаганду существующих стереотипов.
Языки с высокой долей гортанных компонентов, такие как чеченец и Голландский, особенно проблематичны для автоматизированных методов извлечения речи, в то время как культуры, в которых говорящий может выражать эмоции или почтение, отводя взгляд (опять же, как правило, в азиатских культурах) добавить еще одно измерение, в котором исследователям ИИ, читающим по губам, потребуется разработать дополнительные методы «заполнения» другими контекстуальными подсказками.