Connect with us

Чтение по губам с помощью визем и машинного обучения

Искусственный интеллект

Чтение по губам с помощью визем и машинного обучения

mm
HAL reads lips in 2001: A Space Odyssey (1968)

Новые исследования школы компьютерного инжиниринга в Тегеране предлагают улучшенный подход к созданию систем машинного обучения, способных читать по губам.

Исследование paper, озаглавленное Чтение по губам с помощью декодирования визем, сообщает, что новая система достигает 4% улучшения коэффициента ошибки слов по сравнению с лучшими предыдущими моделями. Система решает общую проблему нехватки полезных тренировочных данных в этой области, сопоставляя виземы с текстовым содержанием, полученным из шести миллионов образцов в наборе данных OpenSubtitles переведенных названий фильмов.

Визема – это визуальный эквивалент фонемы, по сути, аудио-изображение сопоставления, которое может составлять ‘фичу’ в модели машинного обучения.

Виземы в действии

Виземы в действии. Источник: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Исследователи начали с установления наименьшей ошибки на доступных наборах данных и разработки последовательностей визем из установленных процедур сопоставления. Постепенно, этот процесс развивает визуальный словарь слов – хотя необходимо определить вероятности точности для разных слов, которые делят визему (например, ‘heart’ и ‘art’).

Декодированные виземы

Виземы, извлеченные из текста. Источник: https://arxiv.org/pdf/2104.04784.pdf

Когда две идентичные слова приводят к одной и той же виземе, выбирается наиболее часто встречающееся слово.

Модель основана на традиционном последовательном обучении и добавляет подпроцессорный этап, на котором виземы предсказываются из текста и моделируются в отдельной трубопроводе:

Архитектура виземы для чтения по губам

Выше, традиционные методы последовательного обучения в модели символов; ниже, добавление моделирования виземы в исследовательской модели Тегерана. Источник: https://arxiv.org/pdf/2104.04784.pdf

Модель была применена без визуального контекста к набору данных LRS3-TED, выпущенному Оксфордским университетом в 2018 году, с наихудшим коэффициентом ошибки слов (WER) 24,29%.

Исследование Тегерана также включает использование конвертера графемы в фонему.

В тесте против исследований Оксфордского университета 2017 года Чтение предложений по губам в дикой природе (см. ниже), метод Video-To-Viseme достиг коэффициента ошибки слов 62,3%, по сравнению с 69,5% для метода Оксфорда.

Исследователи заключили, что использование большего объема текстовой информации, в сочетании с графемой в фонему и сопоставлением визем, обещает улучшения над современным состоянием автоматических систем чтения по губам, признавая, что методы, используемые в исследовании, могут дать еще лучшие результаты при включении в более сложные современные框架ы.

Машинное чтение по губам было активной и непрерывной областью исследований компьютерного зрения и обработки естественного языка в течение последних двух десятилетий. Среди многих других примеров и проектов, в 2006 году использование автоматического программного обеспечения для чтения по губам получило заголовки когда оно было использовано для интерпретации того, что Адольф Гитлер говорил в некоторых знаменитых немых фильмах, снятых на его баварском отдыхе, хотя применение, кажется, исчезло в безвестности с тех пор (через двенадцать лет сэр Питер Джексон обратился к человеческим читателям губ, чтобы восстановить разговоры кадров Первой мировой войны в проекте реставрации Они не состарятся).

В 2017 году Чтение предложений по губам в дикой природе, сотрудничество между Оксфордским университетом и исследовательским отделом Google, произвело ИИ для чтения по губам, способный правильно выводить 48% речи в видео без звука, где человеческий читатель губ мог достичь только 12,4% точности из того же материала. Модель была обучена на тысячах часов видео BBC.

Эта работа последовала за отдельной инициативой Оксфордского университета и Google из предыдущего года, озаглавленной LipNet, нейронной сетевой архитектурой, которая сопоставляла видеопоследовательности переменной длины с текстовыми последовательностями, используя Гейтед Рекуррентную Сеть (GRN), которая добавляет функциональность к базовой архитектуре Рекуррентной Нейронной Сети (RNN). Модель достигла 4,1-кратного улучшения производительности по сравнению с человеческими читателями губ.

Помимо проблемы получения точной транскрипции в реальном времени, задача интерпретации речи из видео углубляется, когда вы удаляете полезный контекст, такой как аудио, ‘лицом к камере’ кадры, которые хорошо освещены, и язык/культура, где фонемы/виземы относительно различимы.

Хотя в настоящее время нет эмпирического понимания того, какие языки являются наиболее трудными для чтения по губам в полном отсутствии аудио, японский язык является главным претендентом. Различные способы, которыми японские коренные жители (а также некоторые другие западные и восточные азиатские коренные жители) используют выражения лица против содержания своей речи, уже делают их большей проблемой для систем анализа настроений.

Однако стоит отметить, что большая часть научной литературы по этой теме обычно осторожна, не в последнюю очередь потому, что даже хорошо намеренное объективное исследование в этой области рискует перейти в расовую профилировку и распространение существующих стереотипов.

Языки с высоким процентом гуттуральных компонентов, таких как чеченский и голландский, особенно проблематичны для автоматических методов извлечения речи, в то время как культуры, где говорящий может выражать эмоции или уважение, отводя взгляд (снова, обычно в азиатских культурах), добавляют еще одну размерность, где исследователи ИИ для чтения по губам будут нуждаться в разработке дополнительных методов ‘заполнения’ из других контекстных подсказок.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.