Connect with us

Штучний інтелект

Розпізнавання руху губ за допомогою візем і машинного навчання

mm
HAL reads lips in 2001: A Space Odyssey (1968)

Нові дослідження школи комп’ютерної інженерії в Тегерані пропонують покращений підхід до створення систем машинного навчання, здатних розпізнавати рух губ.

Дослідження статті, під назвою Розпізнавання руху губ за допомогою декодування візем, повідомляє, що нова система досягла 4% покращення показника помилок у словах порівняно з кращими попередніми моделями. Система вирішує загальну проблему нестачі корисних даних для навчання в цій галузі шляхом ánhування візем до текстового вмісту, отриманого з шести мільйонів зразків у наборі даних OpenSubtitles перекладених назв фільмів.

Візема є візуальним еквівалентом фонеми, фактично аудіо-образним ánhуванням, яке може складати “функцію” у моделі машинного навчання.

Віземи в дії

Віземи в дії. Джерело: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Дослідники розпочали роботу з встановлення найнижчої помилкової швидкості на доступних наборах даних та розробки послідовностей візем з встановлених процедур ánhування. Поступово цей процес розвиває візуальний словник слів – хоча й необхідно визначити ймовірності точності для різних слів, які мають спільну візему (наприклад, “серце” і “мистецтво”).

Віземи, витягнуті з тексту

Віземи, витягнуті з тексту. Джерело: https://arxiv.org/pdf/2104.04784.pdf

Коли дві ідентичні слова призводять до однієї й тієї ж віземи, обирається слово, яке найчастіше трапляється.

Модель будується на традиційному послідовному навчанні шляхом додавання підпроцесу, в якому віземи передбачаються з тексту та моделюються в окремому каналі:

Архітектура віземи для розпізнавання руху губ

Вгорі традиційні послідовні методи в моделі символів; внизу – додавання віземи символів у моделі Тегеранських досліджень. Джерело: https://arxiv.org/pdf/2104.04784.pdf

Модель була застосована без візуального контексту проти набору даних LRS3-TED, випущеного Оксфордським університетом у 2018 році, з найбільшою помилковою швидкістю слів (WER) на рівні 24,29%.

Тегеранські дослідження також включили використання конвертера графеми у фонему.

У тесті проти Оксфордських досліджень 2017 року Розпізнавання руху губ у реченні в дикій природі (див. нижче), метод відео-віземи досяг показника помилкової швидкості слів 62,3%, порівняно з 69,5% для Оксфордського методу.

Дослідники висновують, що використання більшої кількості текстової інформації, поєднаної з графемою-фонемою та ánhуванням візем, обіцяє покращення над станом мистецтва в автоматизованих системах розпізнавання руху губ, визнаючи, що методи, використані в цій роботі, можуть дати ще кращі результати при включенні до більш складних поточних рамках.

Машинне розпізнавання руху губ було активною та тривалою галуззю досліджень комп’ютерного зору та обробки природної мови протягом останніх двох десятиліть. Серед багатьох інших прикладів та проектів у 2006 році використання автоматизованого програмного забезпечення для розпізнавання руху губ зайняло заголовки преси, коли його використовували для інтерпретації того, що Адольф Гітлер говорив у деяких знаменитих німих фільмах, знятих у його баварському відпочинковому місці, хоча застосування цього програмного забезпечення, здається, зникло в забутті (через дванадцять років сер Пітер Джексон використовував людських читачів губ для відновлення розмов у фільмі про Першу світову війну в проекті Вони не постарішать).

У 2017 році Розпізнавання руху губ у реченні в дикій природі, спільний проект Оксфордського університету та дослідницької групи Google по штучному інтелекту, створив штучну систему розпізнавання руху губ, здатну правильно витягувати 48% мови з відео без звуку, тоді як людський читач губ міг досягти лише 12,4% точності з того самого матеріалу. Модель була навчена на тисячах годин відео з BBC.

Ця робота послідувала за окремим ініціативою Оксфордського університету та Google з попереднього року, під назвою LipNet, нейронної мережі, яка ánhувала послідовності відео змінної довжини у текстові послідовності за допомогою Гейтової рекурентної мережі (GRN), яка додає функціональність до базової архітектури рекурентної нейронної мережі (RNN). Модель досягла 4,1-кратного покращення продуктивності порівняно з людськими читачами губ.

Крім проблеми отримання точного транскрипту в реальному часі, завдання інтерпретації мови з відео поглиблюється при видаленні корисного контексту, такого як аудіо, “фронтальне” відео, яке добре освітлене, та мова/культура, де фонеми/віземи відносно відрізняються.

Хоча зараз немає εμπіричного розуміння, яке мови є найбільш важкими для розпізнавання руху губ у повній відсутності аудіо, японська мова є головним претендентом. Різні способи, якими японські носії (а також деякі інші західні та східні азіати) використовують вирази обличчя проти змісту мови, вже роблять їх більш складним завданням для систем аналізу настрою.

Однак варто зазначити, що більша частина наукової літератури на цю тему є загалом обережною, не в останню чергу тому, що навіть доброзичливе об’єктивне дослідження в цій сфері ризикує перетинатися з расовим профайлінгом та поширенням існуючих стереотипів.

Мови з високим вмістом гортанних складових, таких як чеченська та голландська, особливо проблематичні для автоматизованих методів витягування мови, тоді як культури, де мовець може виражати емоцію або повагу, відводячи погляд (знову ж таки, загалом в азіатських культурах), додають ще один вимір, де дослідники штучного інтелекту для розпізнавання руху губ повинні розробити додаткові методи “заповнення” з інших контекстних підказок.

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]