Connect with us

人工知能

ビジエムと機械学習を用いた口唇読み

mm
HAL reads lips in 2001: A Space Odyssey (1968)

テヘランのコンピューターエンジニアリング学校からの新しい研究は、口唇を読むことができる機械学習システムの作成という課題に対する改善されたアプローチを提供しています。

論文では、ビジエム解码を用いた口唇読みというタイトルの新しいシステムが、以前の類似したモデルの中で最高のものよりも4%の単語エラー率の改善を達成したと報告しています。このシステムは、6百万のサンプルを持つOpenSubtitlesデータセットからのテキストコンテンツにビジエムをマッピングすることで、この分野での有用なトレーニングデータの一般的な欠如に対処しています。

ビジエムは、音響的なフォネームの視覚的な同等であり、実質的にオーディオ>イメージマッピングであり、機械学習モデルの「特徴」であることができます。

ビジエムの動き

ビジエムの動き ソース: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

研究者は、利用可能なデータセットで最低のエラー率を確立し、既存のマッピング手順からビジエムのシーケンスを開発することから始めました。徐々に、このプロセスは視覚的な単語の辞書を開発します。ただし、ビジエムを共有する異なる単語(たとえば「心」と「芸術」)の精度の確率を定義する必要があります。

テキストからのビジエムの抽出

テキストからのビジエムの抽出 ソース: https://arxiv.org/pdf/2104.04784.pdf

2つの同一の単語が同じビジエムを生成する場合、最も頻繁に出現する単語が選択されます。

モデルは、ビジエムをテキストから予測し、専用のパイプラインでモデル化するサブプロセッシングステージを追加することで、伝統的なシーケンスツーシーケンス学習を構築しています:

ビジエムアーキテクチャの口唇読み

上: 文字モデルにおける伝統的なシーケンスツーシーケンス方法; 下: テヘラン研究モデルにおけるビジエム文字モデルの追加 ソース: https://arxiv.org/pdf/2104.04784.pdf

モデルは、視覚的なコンテキストなしでLRS3-TEDデータセットに適用され、最悪の単語エラー率(WER)が24.29%でした。

テヘランの研究では、グラフィームからフォネームへのコンバーターの使用も含まれています。

2017年のオックスフォード研究リリース野外での口唇読みに対するテストでは、ビデオからビジエムへの方法は、オックスフォード方法の69.5%に対して62.3%の単語エラー率を達成しました。

研究者は、テキスト情報のより大きなボリュームの使用とグラフィームからフォネームへのマッピングとビジエムのマッピングの組み合わせが、自動化された口唇読み取りマシンシステムの最先端を超える改善を約束することを結論付けています。ただし、使用される方法は、より洗練された現在のフレームワークに組み込まれたときに、さらに優れた結果をもたらす可能性があることを認めています。

機械駆動の口唇読み取りは、過去20年間でコンピュータビジョンとNLP研究の活発で継続的な分野でした。多くの他の例やプロジェクトの中で、2006年に自動化された口唇読み取りソフトウェアの使用は、有名な無声映画でアドルフ・ヒットラーが何を言っていたかを解釈するために使用されたときに注目を集めました。ただし、このアプリケーションは、その後から見えなくなったようです(12年後、ピーター・ジャクソンは人間の口唇読み取り者に頼って、WW1の映像の会話を復元するためにリソースを使用しました)。

2017年、野外での口唇読み取りは、オックスフォード大学とGoogleのAI研究部門の共同研究であり、音なしのビデオで48%のスピーチを正しく推論できる口唇読み取りAIを生成しました。人間の口唇読み取り者は、同じ素材から12.4%の精度しか達成できませんでした。モデルは、BBC TVの数千時間の映像でトレーニングされました。

この研究は、前年の別のオックスフォード/Googleイニシアチブに続き、LipNetという名前のニューラルネットワークアーキテクチャを発表しました。これは、Gated Recurrent Network(GRN)を使用して、変数の長さのビデオシーケンスをテキストシーケンスにマッピングしました。GRNは、Recurrent Neural Network(RNN)の基本アーキテクチャに機能を追加します。モデルは、人間の口唇読み取り者よりも4.1倍のパフォーマンスの改善を達成しました。

音や「顔の前」の映像、または言語/文化が比較的明確なフォネーム/ビジエムを持っているなどの有用なコンテキストを除去するにつれて、ビデオからスピーチを解釈するという課題は、実時間に正確なトランスクリプトを生成するという問題に加えて、深まります。

現在、オーディオの完全な欠如において、どの言語が口唇読み取りに最も難しいかについての経験的な理解はありません。ただし、日本語は主要な候補者です。日本語のネイティブスピーカー(および他の東アジアおよび西アジアのネイティブスピーカーの一部)が、顔の表情をスピーチの内容に対してどのように利用するかは、すでに感情分析システムにとってより大きな課題です。

ただし、科学文献の大部分は一般的に慎重です。なぜなら、この分野での研究は、善意を持って行われても、人種プロファイリングや既存の固定観念の普及につながる可能性があるからです。

内発的な要素の割合が高い言語、たとえばチェチェン語オランダ語は、自動化されたスピーチ抽出技術にとって特に問題があります。話者が感情や敬意を表現するために目をそらす文化(一般的にアジア文化)は、AIの口唇読み取り研究者が他のコンテキストのヒントから「埋め込む」ための追加の方法を開発する必要がある別の次元を追加します。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。