Штучний інтелект

Уніфікація синтезу мови та жестів

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

Коли я повернувся до Британії після кількох років у Південній Італії, мені довелося деякий час, щоб停止 гesticювати під час розмови. У Великій Британії підтримка мови жестикуляцією просто робить вас надміру збудженими; в Італії, як людина, яка вивчає мову, це насправді допомогло мені бути зрозумілим. Навіть зараз, у рідкісних випадках, коли я розмовляю італійською, “дикі руки” знову вступають у дію. Практично неможливо говорити італійською без рухів.

За останні роки комунікація, підтримана жестами в італійській та єврейській культурі привернула публічну увагу як щось більше, ніж просто троп з робіт Мартіна Скорсезе та ранніх фільмів Вуді Аллена. У 2013 році New York Times склав коротку відеоісторію італійських жестів рук; академія починає вивчати расові схильності до жестів, а не відкидати цю тему як стереотип; і нові емоджі від Unicode Consortium закривають брак жестів, який супроводжує чисто цифрову, текстову комунікацію.

Уніфікований підхід до мови та жестів

Тепер нове дослідження відділу мови, музики та слуху Королівського технологічного інституту Швеції в КТГ намагається об’єднати розпізнавання мови та жестів у уніфіковану, багатомодальну систему, яка потенційно може збільшити наше розуміння мовної комунікації, використовуючи мову тіла як інтегровану допоміжну систему до мови, а не паралельну галузь вивчення.

Візуальні дані з тестової сторінки шведського проекту мови/жестів. Джерело: https://swatsw.github.io/isg_icmi21/

Дослідження пропонує нову модель, названу Інтегрований синтез мови та жестів (ISG), і об’єднує ряд сучасних нейронних моделей з досліджень мови та жестів.

Новий підхід відмовляється від лінійної моделі конвеєра (де інформація про жести отримується послідовно з мови як вторинної стадії обробки) на користь більш інтегрованого підходу, який оцінюється рівнозначно з існуючими системами згідно з кінцевими користувачами, і який досягає швидшого синтезу та зменшеного числа параметрів.

Лінійний проти інтегрованого підходу. Джерело: https://arxiv.org/pdf/2108.11436.pdf

Нова багатомодальна система включає в себе спонтанний синтезатор тексту-у-мову та генератор жестів, керований мовою, обидва треновані на існуючому наборі даних Trinity Speech Gesture dataset. Набір даних містить 244 хвилини аудіо- та відеозапису людини, яка говорить на різні теми та жестикулює вільно.

Ця робота є новаторською та тангенсальною еквівалентністю проекту DurIAN, який генерує вирази обличчя та мову, а не жести та мову, і який більше відноситься до області розпізнавання та синтезу виразів.

Архітектури

Компоненти мови та візуальних (жестів) проекту нерівномірні за даними; текст рідкий, а жестикуляція багата та інтенсивна за даними – це виклик у визначенні цілей та метрик. Тому дослідники оцінювали систему головним чином за людською реакцією на вивід, а не за більш очевидними механічними підходами, такими як середня квадратична похибка (MSE).

Дві основні моделі ISG були розроблені навколо другої ітерації проекту енд-ту-енд синтезу мови Google 2017 року Tacotron, і південнокорейського проекту Glow-TTS, опублікованого в 2020 році. Tacotron використовує автoregresивну архітектуру LSTM, тоді як Glow-TTS діє паралельно через оператори свертання, з більш швидкою продуктивністю GPU та без проблем стабільності, які можуть супроводжувати автoregresивні моделі.

Дослідники протестували три ефективні системи мови/жестів під час проекту: модифіковану версію багатомодальної генерації мови та жестів опубліковану в 2021 році деякими з тих самих дослідників нового проекту; спеціальну та модифіковану версію ISG відкритого джерела Tacotron 2; і сильно змінену версію ISG Glow-TTS.

Для оцінки систем дослідники створили веб-середовище зворотного зв’язку з артикульованими 3D-персонажами, які говорять та рухаються до попередньо визначених текстових сегментів (загальний вигляд середовища можна побачити на публічній сторінці проекту).

Тестове середовище.

Тестові особи були прослені оцінити продуктивність системи на основі мови та жестів, мови лише, та жестів лише. Результати показали незначне покращення нової версії ISG над старішою версією конвеєра, хоча нова система працює швидше та з меншими ресурсами.

Запитання ‘Як людський жести?’, повністю інтегрована модель ISG трохи випереджає повільнішу модель конвеєра, з моделями Tacotron та Glow далі позаду.

Вбудований потрясіння плечима

Модель Tacotron2-ISG, найуспішніший з трьох підходів, демонструє рівень ‘сублімального’ навчання, пов’язаного з деякими найбільш поширеними фразами в наборі даних, такими як ‘Я не знаю’ – попри відсутність явних даних, які б змусили генератор створювати потрясіння плечима, щоб супроводжувати цю фразу, дослідники виявили, що генератор справді потрясає плечима.

Дослідники відзначають, що дуже специфічна природа цього нового проекту неминуче означає нестачу загальних ресурсів, таких як спеціалізовані набори даних, які включають мову та жести в спосіб, придатний для навчання такої системи. Тим не менше, і попри новаторський характер дослідження, вони вважають його перспективною та мало дослідженою галуззю мови, лінгвістики та розпізнавання жестів.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Unite.AI

Уніфікація синтезу мови та жестів

Уніфікований підхід до мови та жестів

Архітектури

Вбудований потрясіння плечима

You may like