Штучний Інтелект
Уніфікований синтез мовлення та жестів

Коли я повернувся до Британії після кількох років Південної Італії, мені знадобилося досить багато часу, щоб перестати жестикулювати під час розмови. У Великій Британії, підтримуючи свою промову сміливими рухами рук, ви просто виглядаєте надмірно впитими кофеїном; в Італії, як людині, яка вивчає мову, це дійсно допомогло мені бути зрозумілимНавіть зараз, у тих рідкісніших випадках, коли я розмовляю італійською, «дикі руки» знову втручаються в роботу. Майже неможливо розмовляти італійською, не рухаючись.
В останні роки комунікація підтримується жестами в італійській та єврейській культурі привернув увагу громадськості як не просто троп із творчості Мартіна Скорсезе та ранніх фільмів Вуді Аллена. У 2013 році New York Times склала коротка історія відео італійських жестів; академічні кола починають вивчати расову схильність до жестикуляції, а не відкидають цю тему як стереотип; і нові емодзі від консорціуму Unicode закриваючи дефіцит жесту що приходить із суто цифровим, текстовим спілкуванням.
Уніфікований підхід до мовлення та жестикуляції
тепер, нові дослідження з кафедри мовлення, музики та слуху Королівського технологічного інституту KTH у Швеції прагне об'єднати розпізнавання мовлення та жестів в єдину мультимодальну систему, яка потенційно могла б розширити наше розуміння мовленнєвої комунікації, використовуючи мову тіла як інтегроване доповнення до мовлення, а не як паралельну галузь дослідження.

Візуальні елементи з тестової сторінки проекту шведського мовлення/жестів. Джерело: https://swatsw.github.io/isg_icmi21/
Дослідження пропонує нову модель, яка називається інтегрованим синтезом мовлення та жестів (ISG), і об’єднує низку найсучасніших нейронних моделей із дослідження мовлення та жестів.
Новий підхід відмовляється від лінійного модель трубопроводу (де інформація про жести одержується послідовно з мовлення як вторинної стадії обробки) для більш інтегрованого підходу, який оцінюється однаково з існуючими системами відповідно до кінцевих користувачів, і який досягає швидшого часу синтезу та зменшення кількості параметрів.

Лінійний проти інтегрованого підходів. Джерело: https://arxiv.org/pdf/2108.11436.pdf
Нова мультимодальна система включає синтезатор спонтанного перетворення тексту в мовлення та генератор жестів, керованих аудіо-мовленням, обидва навчені на існуючому мовному жесті Trinity набору даних. Набір даних містить 244 хвилини аудіо та запису тіла чоловіка, який розмовляє на різні теми та вільно жестикулює.
Робота є романом і дотичним еквівалентом ДУРІАН проект, який генерує міміку та мову, а не жести та мову, і який потрапляє більше у сферу розпізнавання та синтезу виразів.
Архітектури
Мовна та візуальна (жестикова) складові проекту незбалансовані за даними; текст розріджений, а жестикуляція насичена та вимагає великої кількості даних – складно визначити цілі та показники. Тому дослідники оцінювали систему насамперед за реакцією людини на результат, а не за більш очевидними механічними підходами, такими як середня квадратична помилка (MSE).
Дві основні моделі ISG були розроблені навколо друга ітерація за 2017 рік від Google Такотрон проект наскрізного синтезу мовлення та південнокорейський Glow-TTS ініціатива, опублікована в 2020 році. Tacotron використовує архітектуру авторегресії LSTM, тоді як Glow-TTS діє паралельно через оператори згортки, з вищою продуктивністю графічного процесора та без проблем зі стабільністю, які можуть бути пов’язані з моделями авторегресії.
Під час проекту дослідники протестували три ефективні системи мовлення/жестів: модифіковану версію мультимодальної генерації мовлення та жестів. опублікований у 2021 р. кількома тими ж дослідниками за новим проектом; виділена та модифікована версія ISG відкритого коду Tacotron 2; і сильно змінена версія ISG Glow-TTS.
Щоб оцінити системи, дослідники створили веб-середовище зворотного зв’язку, у якому представлені чіткі 3D-люди, які говорять і рухаються до попередньо визначених сегментів тексту (загальний вигляд середовища можна побачити на публічна сторінка проекту).

Тестове середовище.
Суб’єктам тестування було запропоновано оцінити продуктивність системи на основі мови та жестів, лише мови та лише жестів. Результати показали незначне покращення нової версії ISG порівняно зі старою конвеєрною версією, хоча нова система працює швидше та з меншими ресурсами.

На запитання «Наскільки людським є цей жест?», повністю інтегрована модель ISG трохи випереджає повільнішу модель конвеєра, а моделі на базі Tacotron та Glow відстають далі.
Вбудований Shrug
Модель Tacotron2-ISG, найуспішніший з трьох підходів, демонструє певний рівень «підсвідомого» навчання, пов’язаного з деякими з найпоширеніших фраз у наборі даних, такими як «Я не знаю» – попри відсутність явних даних, які б змусили її генерувати знизування плечима, що супроводжує цю фразу, дослідники виявили, що генератор справді знизує плечима.
Дослідники зазначають, що дуже специфічний характер цього нового проєкту неминуче означає дефіцит загальних ресурсів, таких як спеціалізовані набори даних, які включають дані мовлення та жестів у спосіб, придатний для навчання такої системи. Тим не менш, незважаючи на авангардний характер дослідження, вони вважають його перспективним та малодослідженим напрямком у розпізнаванні мовлення, лінгвістики та жестів.