人工知能

研究者が新しい手話認識アルゴリズムを開発

Published December 28, 2021

Updated March 21, 2026

Alex McFarland

中山大学のZhiyi Yu氏率いる研究チームは、複雑で正確かつ応用可能な新しい手話認識アルゴリズムを開発しました。手話はヒューマンコンピュータインタラクションに採用されることが増えており、カメラシステム、画像解析、機械学習の最近の進歩により、光学ベースのジェスチャー認識は大幅に改善されました。とはいえ、現在の手法は、計算の複雑さが高い、速度が低い、精度が悪い、認識可能なジェスチャーの数が少ないといった制限により、多くの課題に直面しています。チームが開発した新しいアルゴリズムは、これらの制限を克服しようとするもので、Journal of Electronic Imagingに掲載された論文で詳細が説明されています。チームの主な目標の一つは、これらの課題を克服するだけでなく、消費者レベルのデバイスにも容易に適用できるアルゴリズムを作成することでした。

異なる手のタイプへの適応性

このアルゴリズムの最も印象的な側面の一つは、異なる手のタイプへの適応性です。まず、ユーザーの手のタイプを細い、普通、広いのいずれかに分類しようと試みます。これは、手のひらの幅、手のひらの長さ、指の長さの関係を考慮した3つの測定値に基づいて行われます。分類が成功した後、手話認識プロセスは、入力されたジェスチャーを同じ手のタイプの保存されたサンプルと比較します。「従来の単純なアルゴリズムは、異なる手のタイプに対処できないため、認識率が低くなる傾向があります。入力ジェスチャーをまず手のタイプで分類し、次にこのタイプに一致するサンプルライブラリを使用することで、全体の認識率をほぼ無視できるほどのリソース消費で改善することができます」とYu氏は述べています。

事前認識ステップ

チームの手法はまた、「ショートカット特徴」を使用して事前認識ステップを実行することにも依存しています。認識アルゴリズムは、9つの可能なジェスチャーの中から入力ジェスチャーを識別することができますが、入力ジェスチャーのすべての特徴を、すべての可能なジェスチャーに対する保存されたサンプルの特徴と比較するのは非常に時間がかかります。これを克服するために、アルゴリズムの事前認識ステップは、手の面積の比率を計算して、可能な9つのジェスチャーの中から最も可能性の高い3つのジェスチャーを選択します。これにより候補ジェスチャーの数が3つに絞られ、最終的なジェスチャーは「Hu不変モーメント」に基づく、より複雑で高精度な特徴抽出によって決定されます。「ジェスチャー事前認識ステップは、必要な計算回数とハードウェアリソースを削減するだけでなく、精度を損なうことなく認識速度を向上させます」とYu氏は述べています。このアルゴリズムは、商用PCプロセッサとUSBカメラを使用したFPGAプラットフォームでテストされました。チームは40人のボランティアに9つの手話を複数回行ってもらい、さらに40人を使用してシステムの精度を決定しました。このシステムは、手話を93%以上の精度でリアルタイムに認識できることを実証しました。これは、入力されたジェスチャー画像が回転、平行移動、またはスケーリングされた場合でも同様でした。研究者らは、今後、異なる照明条件下でのアルゴリズムの性能向上と、可能なジェスチャーの数の増加に焦点を当てていきたいと述べています。