人工知能

スピーチスコアリングの未来 – 思考リーダー

Published May 21, 2020

Updated April 28, 2026

Keelan Evanini and Klaus Zechner

世界中で、英語を学習する人の数は増加し続けています。教育機関や雇用主は、英語学習者の英語能力を評価する必要があります。特に、話し手の能力を評価する必要があります。なぜなら、話し手の能力は、最も重要な言語能力の1つだからです。課題は、評価開発者とエンドユーザーにとって、正確で、迅速で、費用対効果の高い方法で評価を行う方法を見つけることです。この課題の一部として、評価のスコアリングには独自の要素があります。特に、テスト対象者が評価されるさまざまな分野（スピーチ、ライティングなど）を考慮する必要があります。英語スキルの需要は世界中で増加するだけです。スピーチスコアリングの未来は、これらのニーズを満たすためにどのようなものであるべきでしょうか。

その答えは、一部、スピーチスコアリングの進化にあります。構築されたスピーチの評価は、従来、人間の評価者によって行われてきました。このプロセスは、高価で遅く、スケーラビリティや人間の評価者の主観性や偏見などの課題があります。私たちの本 Automated Speaking Assessment: Using Language Technologies to Score Spontaneous Speech で議論されているように、これらの課題に対処するために、評価の多くは、自動スピーチスコアリング技術を唯一のスコアリング源または人間の評価者と組み合わせて使用しています。ただし、自動スコアリングエンジンを展開する前に、そのパフォーマンスをスコアの信頼性、妥当性（システムが測定するべきものを測定しているか）、公平性（システムが性別や母国語などの人口サブグループに関する偏見を導入しない）について徹底的に評価する必要があります。

2006年以来、ETSのスピーチスコアリングエンジン、SpeechRater®は、TOEFL® Practice Online（TPO）評価（TOEFL iBT®評価の準備として使用される）で運用化されてきました。また、2019年以来、SpeechRaterは、人間の評価者とともに、TOEFL iBT®評価のスピーチセクションのスコアリングに使用されてきました。エンジンは、発音や流暢さ、語彙の範囲や文法、アイデアの連携や進歩などの広範なスピーチ能力を評価します。これらの機能は、自然言語処理（NLP）やスピーチ処理アルゴリズムを使用して計算されます。次に、統計モデルをこれらの機能に適用して、テスト受験者の回答に最終的なスコアを割り当てます。

このモデルは、人間の評価者によって評価された以前のデータでトレーニングされていますが、コンテンツの専門家によってレビューされ、妥当性を最大化します。回答がオーディオ品質やその他の問題によりスコアリングできない場合、エンジンは、信頼性や妥当性のないスコアを生成することを避けるために、回答をさらにレビューするためにフラグを設定できます。人間の評価者は、常に、ハイステークスのTOEFL iBTスピーチ評価におけるスピーチ回答のスコアリングに関与しています。

人間の評価者とSpeechRaterが現在、ハイステークスのスピーチ評価におけるテスト受験者の回答のスコアリングに一緒に使用されているため、両者は、英語能力のスコアリングの未来の一部を担っています。人間の評価者は、スピーチ回答のコンテンツや談話の構成を深く理解する能力があります。一方、自動スピーチスコアリングエンジンは、流暢さや発音などのスピーチの詳細な側面をより正確に測定できます。時間の経過とともに完全な一貫性を示し、全体的なスコアリング時間とコストを削減できます。また、大規模なテストボリュームをサポートするためにスケーラビリティが高くなります。人間の評価者と自動スピーチスコアリングシステムを組み合わせると、結果として得られるシステムは、各スコアリングアプローチの強みを活用できます。

自動スピーチスコアリングエンジンを継続的に進化させるために、研究と開発は、以下の側面に焦点を当てる必要があります。

高精度の自動スピーチ認識システムの構築: スピーチスコアリングシステムの機能の多くは、直接的または間接的に、このシステムのコンポーネントに依存しているため、テスト受験者のスピーチをテキストトランスクリプションに変換するため、高精度の自動スピーチ認識は、妥当な機能を取得するために不可欠です。
人間と自動スコアの組み合わせ方の探索: 人間の評価者のスコアと自動エンジンのスコアのそれぞれの強みを最大限に活用するために、スコアを組み合わせる方法をさらに探索する必要があります。
回答の技術的または行動的異常の考慮: 高性能のフィルタが必要です。そうでない場合、自動スコアリングから除外して、評価スコアの妥当性と信頼性を確保するために、回答をフラグ設定する必要があります。
日常生活で最も頻繁に発生する自発的または会話的なスピーチの評価: 自動スコアリングの会話スピーチの評価は重要な目標ですが、これらのアイテムは、全体的な評価とスコアリングを含む、スコアリングの課題を多く提示します。
自動スピーチスコアリングのためのディープラーニング技術の探索: この機械学習の比較的新しいパラダイムは、最近の数年間で、自動スピーチ認識や画像認識などの多くのAIタスクで大幅なパフォーマンスの向上をもたらしてきました。したがって、自動スコアリングもこの技術を使用することで利益を得る可能性があります。しかし、これらのシステムは「ブラックボックス」アプローチとみなされることが多いため、結果として得られるスコアの解釈可能性に注意を払う必要があります。

英語学習者の人口が増加し変化するため、次世代のスピーチスコアリングシステムは、自動化と測定可能な範囲を拡大し、一貫性とスケーラビリティを実現する必要があります。ただし、人間の要素が完全に除去されるわけではありません。特にハイステークスの評価では、人間の評価者は、自動スコアリングシステムが正確に評価するのが難しいスピーチの特定の側面を捉えるために不可欠です。人間の評価者と自動スコアリングシステムを組み合わせて使用することが、ハイステークスの評価におけるスピーチのスコアリングの最良の方法である可能性があります。特に、自発的または会話的なスピーチが評価される場合です。

Written by: Keelan Evanini, Director of Speech Research, ETS & Klaus Zechner, Managing Senior Research Scientist, Speech, ETS

ETSは、教育機関、企業、政府と協力して、研究を行い、評価プログラムを開発して、人やプログラムを評価するために頼りになる情報を提供しています。ETSは、年間5,000万以上のテストを180以上の国で9,000以上の場所で開発、管理、スコアリングしています。業界をリードする洞察、厳格な研究、品質への取り組みをもとに、評価を設計しています。詳細については、ETSを訪問してください。

Keelan Evanini

研究開発部門でのスピーチ研究ディレクター at Educational Testing Service (ETS).

Klaus Zechner

Managing Senior Research Scientist, Speech, in Research and Development at Educational Testing Service
(ETS).

Unite.AI

スピーチスコアリングの未来 – 思考リーダー

You may like