Свяжитесь с нами:

Объединение речи и синтеза жестов

Искусственный интеллект

Объединение речи и синтеза жестов

mm

Когда я вернулся в Великобританию после нескольких лет пребывания в Южной Италии, мне потребовалось довольно много времени, чтобы перестать жестикулировать во время разговора. В Великобритании, подкрепляя свою речь смелыми движениями рук, вы просто выглядите чрезмерно напившимся кофеином; в Италии, как человеку, изучающему язык, мне это действительно помогло быть понятым. Даже сейчас, в тех редких случаях, когда я говорю по-итальянски, «дикие руки» снова вступают в дело. Практически невозможно говорить по-итальянски, не двигаясь.

В последние годы общение с помощью жестов в итальянской и еврейской культуре привлек внимание общественности как нечто большее, чем просто образ из работ Мартина Скорсезе и ранних фильмов Вуди Аллена. В 2013 году New York Times составила краткая история видео итальянских жестов рук; академические круги начинают изучать расовые склонности к жестикуляции, а не отвергают этот предмет как стереотип; и новые эмодзи от Консорциума Unicode. устранение дефицита жестов это идет с чисто цифровым, текстовым общением.

Единый подход к речи и жестикуляции

Теперь, новые исследования из кафедры речи, музыки и слуха Королевского технологического института Швеции стремится объединить распознавание речи и жестов в единую многомодальную систему, которая потенциально могла бы расширить наше понимание речевой коммуникации, используя язык тела как интегрированное дополнение к речи, а не параллельную область изучения.

Визуальные эффекты с тестовой страницы шведского проекта речи/жестов. Источник: https://swatsw.github.io/isg_icmi21/

Визуальные эффекты с тестовой страницы шведского проекта речи/жестов. Источник: https://swatsw.github.io/isg_icmi21/

В исследовании предлагается новая модель под названием «Интегрированный синтез речи и жестов» (ISG), которая объединяет ряд современных нейронных моделей, полученных в результате исследований речи и жестов.

Новый подход отказывается от линейного модель трубопровода (где информация о жестах извлекается последовательно из речи в качестве вторичной стадии обработки) для более интегрированного подхода, который оценивается наравне с существующими системами в соответствии с конечными пользователями и обеспечивает более быстрое время синтеза и меньшее количество параметров.

Линейный и интегрированный подходы. Источник: https://arxiv.org/pdf/2108.11436.pdf

Линейный и интегрированный подходы. Источник: https://arxiv.org/pdf/2108.11436.pdf

Новая мультимодальная система включает в себя синтезатор спонтанного преобразования текста в речь и генератор жестов, управляемый аудиоречью, оба обучены на существующем жесте Trinity Speech Gesture. Набор данных. Набор данных содержит 244 минуты аудиозаписи и записи тела мужчины, говорящего на разные темы и свободно жестикулирующего.

Произведение является новым и тангенциальным эквивалентом ДЮРИАН проект, который генерирует выражения лица и речь, а не жесты и речь, и который больше относится к сфере распознавания и синтеза выражений.

Архитектуры

Речевая и визуальная (жестовая) составляющие проекта разбалансированы по данным; текст скуден, а жестикуляция богата и требует больших объемов данных — это проблема с точки зрения определения целей и показателей. Поэтому исследователи оценивали систему в первую очередь по реакции человека на выходные данные, а не по более очевидным механистическим подходам, таким как среднеквадратическая ошибка (MSE).

Две основные модели ISG были разработаны вокруг вторая итерация Google 2017 года Такотрон проект сквозного синтеза речи и южнокорейский Свечение-ТТС инициатива, опубликованная в 2020 году. Tacotron использует авторегрессионную архитектуру LSTM, в то время как Glow-TTS действует параллельно с помощью операторов свертки, с более высокой производительностью графического процессора и без проблем со стабильностью, которые могут возникнуть в моделях авторегрессии.

В ходе проекта исследователи протестировали три эффективные системы речи/жестов: модифицированную версию мультимодальной системы генерации речи и жестов. опубликовала в 2021 г. рядом тех же исследователей по новому проекту; специальная и модифицированная версия ISG Tacotron 2 с открытым исходным кодом; и сильно измененная версия ISG Glow-TTS.

Чтобы оценить системы, исследователи создали веб-среду обратной связи, в которой фигурируют трехмерные люди, говорящие и перемещающиеся по заранее заданным текстовым сегментам (общий вид среды можно увидеть на публичная страница проекта).

Тестовая среда.

Тестовая среда.

Испытуемых просили оценить производительность системы на основе речи и жестов, только речи и только жестов. Результаты показали небольшое улучшение новой версии ISG по сравнению со старой конвейерной версией, хотя новая система работает быстрее и использует меньше ресурсов.

На вопрос «Насколько человечен этот жест?» полностью интегрированная модель ISG немного опережает более медленную конвейерную модель, а модели на основе Tacotron и Glow отстают еще дальше.

На вопрос «Насколько человечен этот жест?» полностью интегрированная модель ISG немного опережает более медленную конвейерную модель, а модели на базе Tacotron и Glow отстают еще больше.

Встроенное пожимание плечами

Модель Tacotron2-ISG, наиболее успешная из трех подходов, демонстрирует уровень «подсознательного» обучения, связанного с некоторыми наиболее распространенными фразами в наборе данных, такими как «Я не знаю» — несмотря на отсутствие явных данных, которые заставили бы ее генерировать пожимание плечами в сопровождении этой фразы, исследователи обнаружили, что генератор действительно пожимает плечами.

Исследователи отмечают, что специфичность этого нового проекта неизбежно влечет за собой нехватку общих ресурсов, таких как специализированные наборы данных, включающие данные о речи и жестах в формате, пригодном для обучения такой системы. Тем не менее, несмотря на авангардный характер исследования, они считают его перспективным и малоизученным направлением в области речи, лингвистики и распознавания жестов.

 

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai