人工知能
アナスタシア・ルーキナ、ETSのシニアリサーチサイエンティスト(NLP/スピーチ)- インタビューシリーズ

アナスタシア・ルーキナは、Educational Testing Services(ETS)での研究科学者であり、自動スピーチ評価に従事しています。
彼女の研究関心は、幅広いトピックに及んでいます。彼女は、現代ギリシャ語の方言、スピーチのリズム、自動プロソディ分析などに取り組んできました。
現在の彼女の仕事は、スピーチ技術と機械学習のツールや方法を、スピーチの感覚/生成に関する研究の洞察と組み合わせて、非ネイティブスピーチを評価する自動評価モデルを構築することに焦点を当てています。
あなたは明らかに言語に対する愛を持っています。どんな経験があなたをこの情熱に導いたのですか?
私はロシアのサンクトペテルブルクでロシア語を話し始めました。私は初めて英語に出会ったときに、あるパターンがロシア語の単語を英語の単語に「変換」できることを発見し、驚きました。すると、私のパターンが機能しない単語に出会い、より一般的なルールを考えるようにしました。当時、私は言語学の分類や借用語の違いについて知りませんでしたが、これが私の好奇心と言語を学ぶ欲求を刺激しました。このパターンを識別し、データでテストする情熱が、私を音響学、機械学習、そして現在の仕事につながりました。
現在のNLP(自然言語処理)での仕事以前には、英語-ロシア語と現代ギリシャ語-ロシア語の翻訳者でした。翻訳者の仕事がNLPに関連するニュアンスや問題に対する貴方の洞察を深めたと思いますか?
私の主なアイデンティティは常に研究者でした。私は現代ギリシャ語、またはより具体的には現代ギリシャ語の音響学を研究する学者としてキャリアを始めました。私の博士論文では、現代ギリシャ語の方言間の音響学的違いと、これらの違いが言語接触の結果として生じた可能性について調査しました。私は現在、現代ギリシャ語ではありませんが、言語間の接触が生じることの核となる部分は、私の仕事の中心です。ただし、今回は、個人が新しい言語を学ぶときに何が起こるか、そして技術がこれを最も効率的に行うのにどのように役立つかに焦点を当てています。
英語には多数のアクセントがあります。どのようにして、すべてのアクセントを理解できるNLPを設計しますか?これは、各アクセントタイプから追加のビッグデータをディープラーニングアルゴリズムに供給することで簡単に解決できる問題ですか?
過去には、すべてのアクセントをカバーする大きなモデルを構築することに加えて、いくつかのアプローチが使用されてきました。アクセントを特定し、カスタムモデルを使用するか、または複数のモデルを同時に使用し、どれが最も効果的かを選択することができます。最終的には、幅広いアクセントに対して優れたパフォーマンスを達成するには、システムが遭遇する可能性のある多くのアクセントを表現するトレーニングと評価データが必要です。
ETSでは、自動システムによって生成されるスコアが、学習者の性別、人種、または出身国などの人口統計学的特性によって影響を受けないことを確認するために、包括的な評価を実施しています。
子供や言語学習者は、完璧な発音に苦労することがよくあります。発音の問題をどのように克服しますか?
完璧な発音というものはありません。私たちが話す言葉は、私たちのアイデンティティと密接に結びついています。開発者や研究者としての私たちの目標は、システムがすべてのユーザーにとって公平であることを確認することです。
言語学習者や子供は、スピーチベースのシステムにとって特に課題をもたらします。たとえば、子供の声は音響的特性が大きく異なり、子供は大人と異なり、子供同士でも多くの変異があります。したがって、子供用の自動スピーチ認識システムを開発することは、通常、多量の子供のスピーチデータを必要とする別のタスクです。
同様に、同じ背景を持つ言語学習者には多くの類似点がありますが、学習者は音響的、文法的、語彙的パターンの使用において幅広い変異を示すため、スピーチ認識は特に課題をもたらすタスクです。英語言語能力の評価スコアを構築する際には、幅広い言語能力と母国語を持つ学習者のデータを使用しています。
2018年1月に、自動スピーチスコアリングシステムのトレーニングと評価にエクサンプルレスポンスを使用するという論文を発表しました。この論文からわかる主なブレークスルーと基本原理は何ですか?
この論文では、トレーニングとテストデータの品質が自動スコアリングシステムのパフォーマンスにどのように影響するかを調査しました。
自動スコアリングシステムは、通常、人間によってラベル付けされたデータでトレーニングされます。この場合、これらは人間の評価者によって割り当てられたスコアです。人間の評価者は、スコアの割り当てにおいて常に一致しません。評価で報告される最終的なスコアが、個々の質問レベルの人間の合意の変動にもかかわらず、高い信頼性を維持することを保証するために、さまざまな戦略が使用されています。ただし、自動スコアリングエンジンは通常、レスポンスレベルのスコアでトレーニングされるため、これらのスコアの不一致は、人間の評価者の間の合意の変動などのさまざまな理由により、システムのパフォーマンスに悪影響を及ぼす可能性があります。
私たちは、人間の評価者の間でさまざまなレベルの合意を持つ大量のデータにアクセスでき、システムのパフォーマンスをさまざまな条件下で比較することができました。私たちが発見したのは、完璧なデータでシステムをトレーニングすることは、ノイズのあるラベルを持つデータでトレーニングされたシステムのパフォーマンスを向上させることにはならないということです。完璧なラベルは、トレーニングセットのサイズが非常に小さい場合にのみ優位性をもたらします。他方、人間のラベルの品質はシステムの評価に大きな影響を与えます。クリーンなラベルで評価すると、パフォーマンスの推定値は最大30%高くなる可能性があります。
主なメッセージは、多量のデータとリソースがあれば、トレーニングセットのラベルをクリーンアップするのではなく、評価セットのラベルをクリーンアップする方が賢明であるということです。この発見は、自動スコアリングに限らず、多くの他の分野にも適用されます。
ETSでのあなたの仕事について説明してください。
私は、教育の文脈で話された言語を処理するスピーチスコアリングエンジンシステムに取り組んでいます。SpeechRater®はそのようなシステムの1つで、先進的なスピーチ認識と分析技術を使用して英語のスピーチ能力を評価し、詳細なフィードバックを提供します。SpeechRaterは非常に成熟したアプリケーションで、10年以上前からあります。私はさまざまなアプリケーション用のスコアリングモデルを構築し、ETSの他の同僚と協力して、私たちのスコアがすべてのテスト受験者にとって信頼性が高く、公平で、妥当であることを確認しています。私たちはまた、他のETSグループと協力して、システムのパフォーマンスを継続的に監視しています。
運用システムのメンテナンスと改善に加えて、私たちは新しいシステムのプロトタイピングも行っています。私が非常に興奮しているプロジェクトの1つは、RelayReader™です。これは、発達途上の読者が流暢さと自信を身につけるのを支援するために設計されたアプリケーションです。RelayReaderで本を読むとき、ユーザーは本を読みながら聞いたり、本を朗読したりします。その読み取りは、フィードバックを提供するために私たちのサーバーに送信されます。スピーチ処理の観点から、このアプリケーションの主な課題は、読者の本との関わりを邪魔せずに、学習を測定し、信頼性が高く、行動可能なフィードバックを提供する方法を見つけることです。
ETSでのあなたの仕事で最も好きな部分は何ですか?
私をETSに引きつけたのは、世界中のすべての人の教育の質を向上させるという非営利組織の使命です。研究が製品につながることは素晴らしいことですが、将来の製品開発に役立つ基礎的なプロジェクトに取り組む機会を持つことを評価しています。また、ETSはデータプライバシーと公平性の問題を非常に真剣に考慮しており、すべてのシステムは運用的に展開される前に非常に厳格な評価を受けることを評価しています。
しかし、ETSを素晴らしい職場にするのは、人々です。私たちは、多様な背景を持つ科学者、エンジニア、開発者の素晴らしいコミュニティを持っています。これにより、多くの面白いコラボレーションが可能になります。
あなたは、AIが将来、チューリングテストに合格することができるかと思いますか?
1950年代以来、チューリングテストを実践でどのように実行するかについて、多くの解釈がありました。哲学的な意味で、人間のように考えられるAIシステムがないということについては、おそらく一般的な合意があるでしょう。ただし、これは非常にニッチな主題になりました。多くの人は、システムをチューリングテストに合格させるために構築しません。私たちは、特定の目標を達成するシステムを構築したいと思います。
これらのタスクのいくつか、たとえばスピーチ認識や自然言語理解の場合、人間のパフォーマンスは、正しくゴールドスタンダードと見なされる可能性があります。ただし、人間が上回るパフォーマンスを期待するタスクもあり、または自動システムと人間のエキスパートが協力して最良の結果を達成するタスクもあります。たとえば、教育の文脈では、AIシステムが教師を置き換えるのではなく、教師を支援することを望みます。たとえば、学生の学習トラジェクトリーのパターンを特定するのを支援したり、採点を支援したり、最良の教材を見つけるのを支援したりします。
ETSまたはNLPについて、他に共有したいことはありますか?
多くの人は、ETSを評価と自動スコアリングシステムで知っています。しかし、私たちはそれ以上のことを行っています。ボイスバイオメトリクス、スピーチダイアログアプリケーションなど、多くの機能があり、学習に技術を統合する新しい方法を常に探しています。現在、多くの学生が自宅で学んでいるため、私たちのいくつかの研究機能を一般に公開しています。
インタビューに感謝し、NLPとスピーチ認識の最新の進歩についての洞察を提供してください。詳細については、Educational Testing Servicesを訪問してください。












