Artificial Intelligence

EchoSpeech: 沈黙音声認識技術でコミュニケーションに革命を起こす

公開済み

1年前

2023 年 4 月 19 日

画像: 張瑞東/コーネル大学

コーネル大学の研究者は、音響センシングと人工知能を採用し、唇と口の動きに基づいて最大 31 個の音声にならないコマンドを継続的に認識する無言音声認識インターフェイスである EchoSpeech を開発しました。この低電力のウェアラブルインターフェイスはスマートフォンで操作でき、コマンド認識に必要なユーザートレーニングデータはわずか数分です。

情報科学の博士課程の学生である Ruidong Zhang は、「」の主著者です。EchoSpeech: 音響センシングを利用した、目立たないメガネでの連続的な無音音声認識この内容は、今月ドイツのハンブルクで開催されるコンピューティングシステムにおけるヒューマンファクターに関するコンピューティング機械協会会議 (CHI) で発表されます。

「音を発声できない人にとって、このサイレントスピーチ技術は音声合成装置への優れた入力となる可能性があります。患者の声を取り戻すことができるかもしれない」とチャン氏は述べ、さらなる発展によるこの技術の応用可能性を強調した。

現実世界のアプリケーションとプライバシーの利点

現在の形式では、EchoSpeech は、騒がしいレストランや静かな図書館など、音声が不便または不適切な環境でスマートフォンを介して他のユーザーと通信するために使用できます。サイレントスピーチインターフェイスはスタイラスと組み合わせて CAD などの設計ソフトウェアで利用することもできるため、キーボードやマウスの必要性が大幅に軽減されます。

EchoSpeech メガネは鉛筆消しゴムよりも小さいマイクとスピーカーを備えており、ウェアラブルな AI 搭載ソナーシステムとして機能し、顔全体で音波を送受信し、口の動きを検出します。次に、深層学習アルゴリズムがこれらのエコープロファイルを約 95% の精度でリアルタイムに分析します。

「私たちはソナーを人体に搭載しています」と情報科学の助教授であり、コーネル大学の未来インタラクションのためのスマート・コンピュータ・インターフェース（SciFi）研究所の所長であるチェン・チャン氏は語った。

既存の無言音声認識技術は通常、限られた所定のコマンドのセットに依存しており、ユーザーはカメラに直面するか、カメラを装着する必要があります。 Cheng Zhang 氏は、これは現実的でも実現不可能であり、ユーザーとそのユーザーがやり取りする人々の両方に重大なプライバシー上の懸念を引き起こすと説明しました。

EchoSpeech の音響センシング技術により、ウェアラブルビデオカメラが不要になります。さらに、情報科学教授のフランソワ・ガンブルティエール氏によると、オーディオデータは画像やビデオデータよりも小さいため、処理に必要な帯域幅が少なく、Bluetooth 経由でスマートフォンにリアルタイムで送信できます。

「そして、データはクラウドにアップロードされるのではなく、スマートフォン上でローカルに処理されるため、プライバシーに関わる情報があなたの管理下を離れることはありません。」と彼は言いました。