Искусственный интеллект

Объединение речи и жестовой синтеза

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

Когда я вернулся в Британию после нескольких лет, проведенных в южной Италии, мне потребовалось довольно много времени, чтобы перестать жестикулировать во время разговора. В Великобритании поддержка своей речи смелыми движениями рук просто делает вас похожим на человека, который выпил слишком много кофе; в Италии, как человек, изучающий язык, это на самом деле помогало мне быть понятым. Даже сейчас, в более редких случаях, когда я говорю по-итальянски, “дикие руки” возвращаются в строй. Почти невозможно говорить по-итальянски без движений.

В последние годы жестовая поддержка коммуникации в итальянской и еврейской культуре привлекла общественное внимание как нечто большее, чем просто троп из работ Мартина Скорсезе и ранних фильмов Вуди Аллена. В 2013 году The New York Times составила короткую видеоисторию итальянских жестов рук; академия начинает изучать расовые склонности к жестикуляции, а не отвергать предмет как стереотип; и новые эмодзи от Консорциума Юникода закрывают пробел в жестикуляции, который возникает при чисто цифровой, текстовой коммуникации.

Унифицированный подход к речи и жестикуляции

Теперь новые исследования из Департамента речи, музыки и слуха Шведского королевского технологического института КТХ направлены на объединение речи и жестовой識别 в унифицированную, много-модальную систему, которая потенциально может увеличить наше понимание речевой коммуникации, используя язык тела как интегрированную добавку к речи, а не параллельную область исследования.

Визуальные материалы из тестовой страницы шведского проекта речи/жеста. Source: https://swatsw.github.io/isg_icmi21/

Исследования предлагают новую модель, называемую Интегрированной речью и жестикуляцией (ISG) синтезом, и объединяют ряд передовых нейронных моделей из исследований речи и жестов.

Новый подход отказывается от линейной модели конвейера (где информация о жестикуляции получается последовательно из речи как вторичной стадии обработки) в пользу более интегрированного подхода, который оценивается одинаково с существующими системами по мнению конечных пользователей, и который достигает более быстрого синтеза и уменьшенного количества параметров.

Линейный vs. интегрированный подходы. Source: https://arxiv.org/pdf/2108.11436.pdf

Новая много-модальная система включает в себя спонтанный синтезатор текста в речь и генератор жестов, управляемый аудио-речью, оба обученные на существующем наборе данных Trinity Speech Gesture наборе данных. Набор данных содержит 244 минуты аудио и захвата тела человека, говорящего на различные темы и жестикулирующего свободно.

Работа является новым и тангенсальным эквивалентом проекта DurIAN, который генерирует выражения лица и речь, а не жесты и речь, и который больше относится к области распознавания и синтеза выражений.

Архитектуры

Компоненты речи и визуальные (жестовые) компоненты проекта несбалансированы в плане данных; текст скуден, а жестикуляция богата и интенсивна в плане данных – это вызов в определении целей и метрик. Поэтому исследователи оценивали систему в основном по реакции человека на вывод, а не более очевидным механистическим подходам, таким как средняя квадратичная ошибка (MSE).

Две основные модели ISG были разработаны вокруг второй итерации проекта Google Tacotron 2017 года Tacotron и южнокорейского проекта Glow-TTS, опубликованного в 2020 году. Tacotron использует автoreгрессивную архитектуру LSTM, в то время как Glow-TTS действует параллельно через операторы свертки, с более быстрой производительностью GPU и без проблем стабильности, которые могут возникнуть у автoreгрессивных моделей.

Исследователи протестировали три эффективные системы речи/жеста во время проекта: модифицированную версию много-модальной системы генерации речи и жестов, опубликованную в 2021 году некоторыми из тех же исследователей, работающих над новым проектом; специальную и модифицированную версию ISG открытого синтезатора Tacotron 2; и сильно измененную версию ISG Glow-TTS.

Для оценки систем исследователи создали веб-окружение для обратной связи с анимированными 3D людьми, говорящими и движущимися в соответствии с предопределенными текстовыми сегментами (общий вид окружения можно увидеть на публичной странице проекта).

Тестовое окружение.

Тестовым участникам было предложено оценить производительность системы на основе речи и жестов, речи только и жестов только. Результаты показали небольшое улучшение новой версии ISG по сравнению со старой версией конвейера, хотя новая система работает быстрее и с уменьшенными ресурсами.

Спросили ‘На сколько человеку подобен жест?’, полностью интегрированная модель ISG немного опережает более медленную модель конвейера, с моделями Tacotron и Glow-Based еще дальше позади.

Встроенный пожимание плечами

Модель Tacotron2-ISG, наиболее успешный из трех подходов, демонстрирует уровень ‘сублимального’ обучения, связанного с некоторыми из наиболее распространенных фраз в наборе данных, таких как ‘Я не знаю’ – несмотря на отсутствие явных данных, которые бы заставили его генерировать пожимание плечами, чтобы сопровождать эту фразу, исследователи обнаружили, что генератор действительно пожимает плечами.

Исследователи отмечают, что очень специфический характер этого нового проекта неизбежно означает нехватку общих ресурсов, таких как специальные наборы данных, которые включают речь и жесты таким образом, чтобы они были подходящими для обучения такой системы. Тем не менее, и несмотря на авангардный характер исследования, они считают его перспективным и мало исследованным направлением в области речи, лингвистики и распознавания жестов.

Martin Anderson

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.

Unite.AI

Объединение речи и жестовой синтеза

Унифицированный подход к речи и жестикуляции

Архитектуры

Встроенный пожимание плечами

You may like