Artificial Intelligence
AI はビデオ会議中に緊張している発言者を「部屋の空気を読む」のに役立ちます

2013 年、一般的な恐怖症に関する世論調査では、人前で話す可能性は低いと判明しました。 死の見通しよりも悪い 回答者の大多数にとって。 この症候群は次のように知られています グロフォフォビア.
新型コロナウイルスによる 移行 「対面」会議からZoomやGoogle SpacesなどのプラットフォームでのオンラインZoom会議に至るまで、驚くべきことに状況は改善されていない。 会議に多数の参加者が含まれる場合、参加者の低解像度の行やアイコン、および顔の表情やボディランゲージの微妙な視覚信号を読み取ることが困難であるため、私たちの自然な脅威評価能力が損なわれます。 たとえば、Skype は非言語的な合図を伝えるプラットフォームとしては不十分であることがわかっています。
認識された関心と反応が人前で話すパフォーマンスに与える影響は、これまでに十分に文書化されており、私たちのほとんどにとって直感的に明らかです。聴衆の反応が不透明だと、講演者がためらい、後戻りしてしまう可能性があります。 フィラースピーチ、自分の議論が同意、軽蔑、無関心のいずれに該当しているのかを認識していないため、話し手と聞き手の両方にとって不快な経験となることがよくあります。
新型コロナウイルスの制限や予防措置に触発されたオンラインビデオ会議への予期せぬ移行による圧力を受けて、問題は間違いなく悪化しており、コンピュータビジョンでは数多くの改善的な視聴者フィードバックスキームが提案されており、ここ数年研究コミュニティに影響を与えている。
ハードウェアに重点を置いたソリューション
しかし、これらのほとんどには、プライバシーや物流の問題を引き起こす可能性のある追加の機器や複雑なソフトウェアが含まれており、パンデミック以前からの比較的高コストまたはリソースに制約のあるアプローチ スタイルです。 2001 年に MIT は次のように提案しました。 電流活性化剤、聴衆の参加者の感情状態を推測する手持ち式デバイスで、一日にわたるシンポジウム中にテストされました。

2001 年からは、聴衆の感情とエンゲージメントを理解するために皮膚の伝導率反応を測定する MIT の Galvactivator が始まりました。 出典: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf
多大な学術的エネルギーもまた、可能性を探るために注がれてきた。 「クリッカー」の導入 視聴者応答システム (ARS) として、視聴者の積極的な参加を増やすための手段 (視聴者に積極的なフィードバック ノードの役割を強制するため、自動的にエンゲージメントが高まります) ですが、講演者を奨励する手段としても想定されています。 。
講演者と聴衆を「接続」する他の試みとしては、以下のものがあります。 心拍数モニタリング、脳波検査、「チアメーター」、コンピュータービジョンベースの複雑な身体装着装置の使用 感情認識 デスクワークをするワーカー向け、および視聴者から送信されたビデオの使用 絵文字 講演者の演説中。

2017 年から、LMU ミュンヘンとシュトゥットガルト大学による共同学術研究プロジェクト EngageMeter が始まりました。 出典: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf
視聴者分析という儲かる分野の副次的な追求として、民間部門は視線の推定と追跡に特に関心を持っています。これは、各聴衆メンバー(最終的には自分の順番で話さなければならない可能性がある)が対象となるシステムです。 眼球追跡 エンゲージメントと承認の指標として。
これらの方法はすべて、かなり高い摩擦を伴います。 その多くは、オーダーメイドのハードウェア、実験室環境、専用のカスタムメイドのソフトウェア フレームワーク、高価な商用 API のサブスクリプション、またはこれらの制限要因の組み合わせを必要とします。
したがって、ビデオ会議用の一般的なツールにすぎない最小限のシステムの開発が、過去 18 か月間で注目を集めてきました。
視聴者の支持を慎重に報告する
この目的を達成するために、東京大学とカーネギーメロン大学との新しい共同研究は、Web カメラ対応 Web サイトのみを使用して、標準的なビデオ会議ツール (Zoom など) に便乗できる新しいシステムを提供します。見積りソフトが起動中です。 このようにして、ローカル ブラウザ プラグインの必要性さえも回避されます。
ユーザーのうなずきと推定された視線は代表的なデータに変換され、それが視覚化されて話者に返されるため、コンテンツが視聴者をどの程度惹きつけているかを「ライブ」でリトマス試験紙にすることができ、少なくとも期間を漠然と示す指標にもなります。講演者が聴衆の興味を失いつつある可能性のある談話。

CalmResponses を使用すると、ユーザーの注意とうなずきが聴衆のフィードバックのプールに追加され、講演者に利益をもたらす視覚的な表現に変換されます。 詳細と例については、記事の最後にある埋め込みビデオを参照してください。 出典: https://www.youtube.com/watch?v=J_PhB4FCzk0
オンライン講義などの多くの学術的な場面では、学生は自分の背景や現在の容姿についての自意識のためにカメラをオンにしていないため、講演者にまったく見えていない可能性があります。 CalmResponses は、視聴者がカメラを起動する必要なく、話者がコンテンツをどのように見ているか、うなずいているかどうかについて知っていることを報告することで、話者のフィードバックに対するこの厄介な障害に対処できます。
この 紙 というタイトルです CalmResponses: リモート通信における視聴者の集団的な反応の表示、これは UoT の XNUMX 人の研究者とカーネギーメロン大学の XNUMX 人の研究者の共同研究です。
作者はウェブベースのライブデモを提供しており、 GitHub のソースコード.
CalmResponses フレームワーク
他の考えられる頭の性質とは対照的に、うなずくことに対する CalmResponses の関心は、研究に基づいています (一部の研究では、 ダーウィンの時代に戻る) これは、すべてのリスナーの頭の動きが 80% 以上であることを示しています。 うなずくことで構成されています (たとえそうであったとしても 意見の相違を表明する)。 同時に視線の動きが示されました が 多数の 研究 関心や関与の信頼できる指標となること。
CalmResponses は HTML、CSS、JavaScript で実装されており、視聴者クライアント、講演者クライアント、サーバーの XNUMX つのサブシステムで構成されています。 オーディエンス クライアントは、ユーザーの Web カメラからの視線や頭の動きのデータを、WebSocket 経由でクラウド アプリケーション プラットフォーム Heroku に渡します。

観客のうなずきは、CalmResponses の下のアニメーションの動きで右側に視覚化されています。 この場合、動きの視覚化は講演者だけでなく聴衆全体が利用できます。 出典:https://arxiv.org/pdf/2204.02308.pdf
プロジェクトの視線追跡セクションでは、研究者らは以下を使用しました。 ウェブゲイザー、軽量の JavaScript ベースのブラウザベースの視線追跡フレームワークで、Web サイトから直接低遅延で実行できます (研究者独自の Web ベースの実装については、上記のリンクを参照してください)。
単純な実装と大まかな集合的な応答認識の必要性が、視線と姿勢の推定における高精度の必要性を上回るため、入力姿勢データは、全体的な応答推定で考慮される前に平均値に従って平滑化されます。
うなずきアクションは JavaScript ライブラリを介して評価されます clmtrackr、画像またはビデオ内で検出された顔に顔モデルを適合させます。 正規化されたランドマークの平均シフト。 経済性と低遅延の目的で、著者の実装では、うなずき動作を追跡するには十分であるため、検出された鼻のランドマークのみがアクティブに監視されます。
ヒートマップ
うなずきの動作は動的に動くドットで表されますが (上の画像と最後のビデオを参照)、視覚的な注意は、共有プレゼンテーション画面や共有プレゼンテーション画面に一般的な注意の焦点が集中している講演者と聴衆を示すヒート マップの観点から報告されます。ビデオ会議環境。

すべての参加者は、一般ユーザーの注目がどこに集中しているかを確認できます。 この論文では、さまざまな理由から、ユーザーが他の参加者の「ギャラリー」を見ることができる場合にこの機能が利用できるかどうかについては言及されていない。これにより、特定の参加者への集中が明らかになる可能性がある。
テスト
CalmResponses 用の XNUMX つのテスト環境は、XNUMX つのさまざまな状況セットを使用して、暗黙のアブレーション研究の形で定式化されました。「条件 B」(ベースライン) では、著者は、大多数の学生が Web カメラを向けたままにする典型的なオンライン学生講義を再現しました。オフの場合、スピーカーは聴衆の顔を見ることができません。 「条件 CR-E」では、話者は視線フィードバック (ヒート マップ) を見ることができました。 「条件 CR-N」では、講演者は聴衆のうなずきと視線の両方の動きを見ることができました。
最初の実験シナリオは条件 B と条件 CR-E で構成されていました。 XNUMX 番目には条件 B と条件 CR-N が含まれます。 講演者と聴衆の両方からフィードバックが得られました。
各実験では、次の XNUMX つの要素が評価されました。プレゼンテーションの客観的評価と主観的評価 (プレゼンテーションの進み具合についての感想に関する講演者からの自己申告アンケートを含む)。 瞬間的な不安と予断を示す「つなぎ」スピーチのイベントの数。 そして定性的なコメント。 これらの基準は、 一般的な 推定者 スピーチの質と話者の不安。
テスト対象者は38~19歳の44名で構成され、男性29名、女性24.7名、平均年齢6歳、全員日本人または中国人で、全員が日本語に堪能であった。 彼らはランダムに7〜XNUMX人の参加者からなるXNUMXつのグループに分けられ、被験者は誰もお互いを個人的に知りませんでした。
テストはZoomで行われ、最初の実験ではXNUMX人の講演者が、XNUMX番目の実験ではXNUMX人の講演者がプレゼンテーションを行った。

オレンジ色のボックスでマークされたフィラー条件。 一般に、フィラー コンテンツは、システムからの視聴者のフィードバックの増加に比例して減少しました。
研究者らは、ある話者のフィラーフレーズが著しく減少し、「条件 CR-N」では話者がフィラーフレーズをほとんど発声しなかったことに注目している。 報告された非常に詳細かつ詳細な結果については、論文を参照してください。 しかし、最も顕著な結果は、講演者と聴衆参加者からの主観的な評価でした。
聴衆からは次のようなコメントがありました。
「自分がプレゼンテーションに参加していると感じた」[AN2]、「発表者のスピーチが改善されたかどうかはわかりませんでしたが、他の人の頭の動きが視覚化されることで一体感を感じました。」 [AN6]
「講演者のスピーチが改善されたかどうかはわかりませんでしたが、他の人の頭の動きが視覚化されることで一体感を感じました。」
研究者らは、講演者は先に進む前に視覚システムを参照して聴衆のフィードバックを評価する傾向があるため、このシステムは講演者のプレゼンテーションに新しい種類の人為的な一時停止を導入すると指摘しています。
彼らはまた、実験環境では回避が困難な一種の「白衣効果」についても指摘しており、一部の参加者は、生体認証データが監視されることによるセキュリティへの影響の可能性によって束縛されていると感じていた。
まとめ
このようなシステムの注目すべき利点の XNUMX つは、そのようなアプローチに必要な非標準の付属テクノロジーがすべて、使用終了後に完全に消えることです。 アンインストールすべきブラウザ プラグインが残っていないため、各システム上に残すべきかどうかについて参加者の心に疑問を抱かせることはありません。 また、インストールのプロセスをユーザーに案内する必要もありません (ただし、Web ベースのフレームワークでは、ユーザーによる最初の調整に XNUMX ~ XNUMX 分が必要です)。また、ユーザーがローカル ソフトウェアをインストールするための適切な権限を持っていない可能性を回避する必要もありません。ブラウザベースのアドオンや拡張機能が含まれます。
評価された顔と目の動きは、専用のローカル機械学習フレームワーク (YOLO シリーズなど) が使用される可能性がある状況ほど正確ではありませんが、視聴者を評価するこのほぼスムーズなアプローチは、広範な感情とスタンスの分析に十分な精度を提供します。典型的なビデオ会議シナリオで。何よりも、とても安いです。
詳細と例については、以下の関連プロジェクトのビデオをご覧ください。
初版は11年2022月XNUMX日。