人工知能
スピーチとジェスチャーの統合

イタリア南部で数年間過ごした後、イギリスに戻ったとき、話しながらジェスチャーを止めるのに相当時間がかかった。イギリスでは、ボールドなハンドムーブメントで話すと、過剰にカフェインを摂取しているように見えてしまうが、イタリアでは、言語を学んでいる者として、実際に理解されるのに役立った。現在でも、イタリア語を話すとき、珍しい機会に「野性的なハンド」が再び使われる。イタリア語を話すのに、動かずにいるのはほぼ不可能だ。
近年、イタリア語とユダヤ人の文化におけるジェスチャーを使用したコミュニケーションは、マーティン・スコセッシと初期のウディ・アレンの映画作品からのトロープとしてではなく、注目を集めるようになった。2013年、ニューヨーク・タイムズはイタリアのハンドジェスチャーの短いビデオの歴史をまとめ、学界は、ステレオタイプとして主題を却下するのではなく、ジェスチャーを使用する人種的傾向を研究し始め、ユニコード・コンソーシアムからの新しい絵文字は、純粋にデジタルなテキストベースのコミュニケーションにおけるジェスチャーの不足を解消している。
スピーチとジェスチャーの統一的なアプローチ
現在、スウェーデンのKTH王立工科大学のスピーチ、音楽、聴覚学科からの新しい研究は、スピーチとジェスチャーの認識を統一されたマルチモーダル・システムに組み合わせ、ボディ・ランゲージをスピーチの統合された付加として使用することで、スピーチベースのコミュニケーションの理解を高めることを目指している。

スウェーデンのスピーチ/ジェスチャー・プロジェクトのテストページからのビジュアル ソース: https://swatsw.github.io/isg_icmi21/
研究では、統合スピーチとジェスチャー(ISG)シンセシスという新しいモデルが提案され、スピーチとジェスチャー研究からの最新のニューラル・モデルがまとめられている。
新しいアプローチは、ジェスチャー情報がスピーチから二次的な処理ステージとして順番に導かれるパイプライン・モデルを放棄し、統合的なアプローチを取る。これは、既存のシステムと同等のレートでエンドユーザーに評価され、シンセシス時間が短縮され、パラメータ数が削減される。

線形vs統合スピーチジェスチャーシンセシス ソース: https://arxiv.org/pdf/2108.11436.pdf
新しいマルチモーダル・システムには、自発的なテキスト・トゥ・スピーチ・シンセサイザーとオーディオ・スピーチ・ドリブン・ジェスチャー・ジェネレーターが含まれ、両方とも既存のTrinity Speech Gesture データセットでトレーニングされている。このデータセットには、さまざまなトピックについて話し、自由にジェスチャーをする男性の244分間のオーディオとボディ・キャプチャーが含まれている。
この研究は、DurIANプロジェクトの新しい、斜め上の同等のもので、ジェスチャーとスピーチではなく、顔の表情とスピーチを生成し、表情の認識とシンセシスの領域にさらに近い。
アーキテクチャ
プロジェクトのスピーチと視覚(ジェスチャー)コンポーネントは、データの観点からバランスが取れていない。テキストはスパースで、ジェスチャーは豊富でデータ・インテンシブであるため、目標とメトリックを定義することが課題となる。したがって、研究者は、より明らかな機械的なアプローチ(例:平均二乗誤差(MSE))ではなく、主に人間の反応に基づいてシステムを評価した。
2つの主要なISGモデルは、2017年のGoogleの第二版のTacotronエンド・ツー・エンドのスピーチ・シンセシス・プロジェクトと、2020年に公開された韓国のGlow-TTSイニシアチブを中心に開発された。Tacotronは、自己回帰LSTMアーキテクチャを使用するのに対し、Glow-TTSは並列に演算子を使用し、GPUのパフォーマンスが速く、自己回帰モデルに伴う安定性の問題がない。
研究者は、プロジェクト中に3つの有効なスピーチ/ジェスチャー・システムをテストした。2021年に同じ研究者の一部によって公開されたマルチモーダル・スピーチ・アンド・ジェスチャー・ジェネレーションの改訂版;改訂されたISG版のオープンソースのTacotron 2;そして、改訂されたISG版のGlow-TTS。
システムを評価するために、研究者は、事前に定義されたテキスト・セグメントに基づいて話し、動く3Dの人間が表示されるウェブベースのフィードバック・環境を作成した(一般的な環境の見た目は、パブリック・プロジェクト・ページで見ることができる)。

テスト環境
テスト参加者は、システムのパフォーマンスをスピーチとジェスチャー、スピーチのみ、ジェスチャーのみに基づいて評価するよう求められた。結果は、新しいISGバージョンが古いパイプライン・バージョンよりもわずかに改善されたことを示したが、新しいシステムはより迅速に動作し、リソースが削減された。

「ジェスチャーはどのくらい人間的か?」と聞かれた場合、完全に統合されたISGモデルは、遅いパイプライン・モデルよりもわずかに優れており、TacotronとGlowベースのモデルはさらに後ろにある。
埋め込まれた肩すかし
Tacotron2-ISGモデルは、3つのアプローチの中で最も成功したもので、データセットの中で最も一般的なフレーズのいくつかに関連する「潜在的な」学習のレベルを示している。たとえば、「私は知らない」というフレーズに対して、ジェスチャーを生成するための明示的なデータがないにもかかわらず、ジェネレーターは実際に肩をすかしている。
研究者は、この新しいプロジェクトの非常に特定の性質は、専用のデータセットが不足していることを意味し、これらのシステムをトレーニングするのに適したスピーチとジェスチャーのデータを組み込んでいる。にもかかわらず、そして、研究の先駆的な性質にもかかわらず、彼らはこれをスピーチ、言語学、ジェスチャー認識における約束のある、そしてあまり探索されていない分野と見なしている。












