人工知能

スピーチとジェスチャーの統合

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

イタリア南部で数年間過ごした後、イギリスに戻ったとき、話しながらジェスチャーを止めるのに相当時間がかかった。イギリスでは、ボールドなハンドムーブメントで話すと、過剰にカフェインを摂取しているように見えてしまうが、イタリアでは、言語を学んでいる者として、実際に理解されるのに役立った。現在でも、イタリア語を話すとき、珍しい機会に「野性的なハンド」が再び使われる。イタリア語を話すのに、動かずにいるのはほぼ不可能だ。

近年、イタリア語とユダヤ人の文化におけるジェスチャーを使用したコミュニケーションは、マーティン・スコセッシと初期のウディ・アレンの映画作品からのトロープとしてではなく、注目を集めるようになった。2013年、ニューヨーク・タイムズはイタリアのハンドジェスチャーの短いビデオの歴史をまとめ、学界は、ステレオタイプとして主題を却下するのではなく、ジェスチャーを使用する人種的傾向を研究し始め、ユニコード・コンソーシアムからの新しい絵文字は、純粋にデジタルなテキストベースのコミュニケーションにおけるジェスチャーの不足を解消している。

スピーチとジェスチャーの統一的なアプローチ

現在、スウェーデンのKTH王立工科大学のスピーチ、音楽、聴覚学科からの新しい研究は、スピーチとジェスチャーの認識を統一されたマルチモーダル・システムに組み合わせ、ボディ・ランゲージをスピーチの統合された付加として使用することで、スピーチベースのコミュニケーションの理解を高めることを目指している。

スウェーデンのスピーチ/ジェスチャー・プロジェクトのテストページからのビジュアル ソース: https://swatsw.github.io/isg_icmi21/

研究では、統合スピーチとジェスチャー（ISG）シンセシスという新しいモデルが提案され、スピーチとジェスチャー研究からの最新のニューラル・モデルがまとめられている。

新しいアプローチは、ジェスチャー情報がスピーチから二次的な処理ステージとして順番に導かれるパイプライン・モデルを放棄し、統合的なアプローチを取る。これは、既存のシステムと同等のレートでエンドユーザーに評価され、シンセシス時間が短縮され、パラメータ数が削減される。

線形vs統合スピーチジェスチャーシンセシス ソース: https://arxiv.org/pdf/2108.11436.pdf

新しいマルチモーダル・システムには、自発的なテキスト・トゥ・スピーチ・シンセサイザーとオーディオ・スピーチ・ドリブン・ジェスチャー・ジェネレーターが含まれ、両方とも既存のTrinity Speech Gesture データセットでトレーニングされている。このデータセットには、さまざまなトピックについて話し、自由にジェスチャーをする男性の244分間のオーディオとボディ・キャプチャーが含まれている。

この研究は、DurIANプロジェクトの新しい、斜め上の同等のもので、ジェスチャーとスピーチではなく、顔の表情とスピーチを生成し、表情の認識とシンセシスの領域にさらに近い。

アーキテクチャ

プロジェクトのスピーチと視覚（ジェスチャー）コンポーネントは、データの観点からバランスが取れていない。テキストはスパースで、ジェスチャーは豊富でデータ・インテンシブであるため、目標とメトリックを定義することが課題となる。したがって、研究者は、より明らかな機械的なアプローチ（例：平均二乗誤差（MSE））ではなく、主に人間の反応に基づいてシステムを評価した。

2つの主要なISGモデルは、2017年のGoogleの第二版のTacotronエンド・ツー・エンドのスピーチ・シンセシス・プロジェクトと、2020年に公開された韓国のGlow-TTSイニシアチブを中心に開発された。Tacotronは、自己回帰LSTMアーキテクチャを使用するのに対し、Glow-TTSは並列に演算子を使用し、GPUのパフォーマンスが速く、自己回帰モデルに伴う安定性の問題がない。

研究者は、プロジェクト中に3つの有効なスピーチ/ジェスチャー・システムをテストした。2021年に同じ研究者の一部によって公開されたマルチモーダル・スピーチ・アンド・ジェスチャー・ジェネレーションの改訂版；改訂されたISG版のオープンソースのTacotron 2；そして、改訂されたISG版のGlow-TTS。

システムを評価するために、研究者は、事前に定義されたテキスト・セグメントに基づいて話し、動く3Dの人間が表示されるウェブベースのフィードバック・環境を作成した（一般的な環境の見た目は、パブリック・プロジェクト・ページで見ることができる）。

テスト環境

テスト参加者は、システムのパフォーマンスをスピーチとジェスチャー、スピーチのみ、ジェスチャーのみに基づいて評価するよう求められた。結果は、新しいISGバージョンが古いパイプライン・バージョンよりもわずかに改善されたことを示したが、新しいシステムはより迅速に動作し、リソースが削減された。

「ジェスチャーはどのくらい人間的か？」と聞かれた場合、完全に統合されたISGモデルは、遅いパイプライン・モデルよりもわずかに優れており、TacotronとGlowベースのモデルはさらに後ろにある。

埋め込まれた肩すかし

Tacotron2-ISGモデルは、3つのアプローチの中で最も成功したもので、データセットの中で最も一般的なフレーズのいくつかに関連する「潜在的な」学習のレベルを示している。たとえば、「私は知らない」というフレーズに対して、ジェスチャーを生成するための明示的なデータがないにもかかわらず、ジェネレーターは実際に肩をすかしている。

研究者は、この新しいプロジェクトの非常に特定の性質は、専用のデータセットが不足していることを意味し、これらのシステムをトレーニングするのに適したスピーチとジェスチャーのデータを組み込んでいる。にもかかわらず、そして、研究の先駆的な性質にもかかわらず、彼らはこれをスピーチ、言語学、ジェスチャー認識における約束のある、そしてあまり探索されていない分野と見なしている。

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。

Unite.AI

スピーチとジェスチャーの統合

スピーチとジェスチャーの統一的なアプローチ

アーキテクチャ

埋め込まれた肩すかし

You may like