Штучний Інтелект
Читання з губ за допомогою Visemes і машинного навчання

Нове дослідження Школи комп’ютерної інженерії в Тегерані пропонує вдосконалений підхід до проблеми створення систем машинного навчання, здатних читати по губах.
Команда папір, має право Читання з губ за допомогою декодування Viseme, повідомляє, що нова система досягає 4% покращення рівня помилок у словах порівняно з найкращими аналогічними попередніми моделями. Система вирішує загальну нестачу корисних навчальних даних у цьому секторі шляхом картографування віземи до текстового вмісту, отриманого з шести мільйонів зразків у наборі даних OpenSubtitles перекладених назв фільмів.
Візема є візуальним еквівалентом фонеми, фактично звуковим>зображенням відображення що може становити «особливість» у моделі машинного навчання.

Віземи в дії. Джерело: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
Дослідники почали з встановлення найнижчого рівня помилок у доступних наборах даних та розробки послідовностей візем на основі встановлених процедур картування. Поступово цей процес розвиває візуальний лексикон слів, хоча необхідно визначити ймовірності точності для різних слів, які мають спільну візему (таких як «серце» та «мистецтво»).
Якщо два ідентичних слова призводять до однієї віземи, вибирається слово, яке найчастіше зустрічається.
Модель побудована на традиційних послідовність до послідовності навчання шляхом додавання етапу підобробки, на якому віземи прогнозуються з тексту та моделюються у спеціальному конвеєрі:

Вище традиційні методи послідовності в моделі символів; нижче, додавання моделювання персонажів вісем у дослідницьку модель Тегерана. Джерело: https://arxiv.org/pdf/2104.04784.pdf
Модель застосовано без візуального контексту проти Набір даних LRS3-TED, випущений з Оксфордського університету в 2018 році, з найгіршим коефіцієнтом помилок у словах (WER) отримав поважні 24.29%.
Тегеранське дослідження також включає використання a графема-фонема перетворювач.
У тесті проти Оксфордського дослідження 2017 року Читання по губах речень у дикій природі (див. нижче), метод Video-To-Viseme досяг рівня помилок у слові 62.3%, порівняно з 69.5% для Оксфордського методу.
Дослідники прийшли до висновку, що використання більшого обсягу текстової інформації в поєднанні з відображенням графем-фонем і візем обіцяє покращення в порівнянні з сучасними автоматизованими системами машин для читання з губ, визнаючи, що використовувані методи можуть давати навіть кращих результатів при включенні в більш складні поточні структури.
Машинне читання з губ було активною та постійною сферою досліджень комп’ютерного зору та НЛП протягом останніх двох десятиліть. Серед багатьох інших прикладів і проектів, у 2006 році використання автоматизованого програмного забезпечення для читання з губ захоплені заголовки коли використовувався для інтерпретації того, що Адольф Гітлер говорив у деяких із відомих німих фільмів, знятих під час його баварського відступу, хоча це застосування, здається, зникло в безвісті, оскільки (дванадцять років потому сер Пітер Джексон вдаються людям, які читають по губах, щоб відновити розмови на кадрах Першої світової війни в проекті реставрації Вони не старіють).
Ще у 2017 році Читання по губах речень у дикій природі, результатом співпраці між Оксфордським університетом та дослідницьким відділом штучного інтелекту компанії Google став читання з губ ШІ здатний правильно визначити 48% мовлення у відео без звуку, тоді як людина, яка читає по губах, може досягти лише 12.4% точності з того самого матеріалу. Модель тренувалася на тисячах годин телематеріалів BBC.
Ця робота стала продовженням а окремий Ініціатива Оксфорд/Google минулого року під назвою LipNet, архітектура нейронної мережі, яка відображала відеопослідовності змінної довжини на текстові послідовності за допомогою Gated Recurrent Network (GRN), що додає функціональність базовій архітектурі Recurrent Neural Network (RNN). Модель досягла в 4.1 рази кращої продуктивності в порівнянні з людськими пристроями для зчитування з губ.
Окрім проблеми отримання точної стенограми в режимі реального часу, складність інтерпретації мовлення з відео поглиблюється, оскільки ви видаляєте корисний контекст, такий як аудіо, добре освітлені кадри «віч-на-віч» та мову/культуру, де фонеми/віземи відносно різні.
Хоча наразі немає емпіричного розуміння того, які мови найважче читати по губах за повної відсутності аудіо, японська є головний претендент. Різні способи, якими корінні японці (а також деякі інші корінні жителі Західної та Східної Азії) впливають на вираз обличчя на зміст своєї мови, вже роблять їх більший виклик для систем аналізу настроїв.
Однак, варто зазначити, що значна частина наукової літератури з цієї теми, як правило, обачнийне в останню чергу тому, що навіть об’єктивне дослідження з благими намірами в цій сфері ризикує перерости в расове профілювання та оприлюднення існуючих стереотипів.
Мови з високою часткою гортанних компонентів, як-от Чеченська та Нідерландська, особливо проблематичні для автоматизованих методів вилучення мовлення, тоді як культури, де мовець може виражати емоції чи пошану, відводячи погляд (знову ж таки, загалом в азіатських культурах) додають ще один вимір, де дослідникам ШІ-читання по губах потрібно буде розробити додаткові методи «заповнення» з інших контекстних підказок.