スタブ Anastassia Loukina、ETS 上級研究員 (NLP/スピーチ) - インタビュー シリーズ - Unite.AI
私達と接続

記事執筆

Anastassia Loukina、ETS 上級研究員 (NLP/スピーチ) – インタビュー シリーズ

mm
更新中 on

アナスタシア・ロウキナは、次の研究者です。 教育試験サービス (ETS) そこで彼女は音声の自動採点に取り組んでいます。

彼女の研究関心は幅広いトピックに及びます。 彼女は、特に現代ギリシャ語の方言、音声リズム、自動韻律分析に取り組んできました。

彼女の現在の研究は、非母語音声を評価するための自動スコアリング モデルを構築するために、音声テクノロジーや機械学習のツールや方法と、音声の知覚/生成に関する研究からの洞察を組み合わせることに重点を置いています。

あなたは言語が大好きであることは明らかですが、その情熱を持つようになったきっかけは何ですか?

私はロシアのサンクトペテルブルクでロシア語を話して育ちましたが、初めて英語に触れたとき、とても魅了されたことを覚えています。いくつかの単語には、ロシア語の単語を英語の単語に「変換」できるパターンがありました。 そして、「私の」パターンが失敗した単語を見つけて、より良い、より一般的なルールを考え出そうとしました。 もちろん当時、私は言語類型論や同族語と外来語の違いについて何も知りませんでしたが、これが私の好奇心と、もっと言語を学びたいという欲求を刺激しました。 人々の話し方のパターンを特定し、それをデータでテストするという情熱が、私の音声学、機械学習、そして現在の仕事につながっています。

現在の自然言語処理 (NLP) の仕事に就く前は、英語 - ロシア語と現代ギリシャ語 - ロシア語の間の翻訳者でした。翻訳者としてのあなたの仕事によって、NLP に関連するニュアンスや問題についてさらに洞察が得られたと思いますか?

私の主なアイデンティティは常に研究者です。 確かに、私は現代ギリシャ語、より具体的には現代ギリシャ語音声学の研究者として学術的なキャリアをスタートしました。 博士課程の研究では、いくつかの現代ギリシャ語方言間の音声の違いと、これらの方言間の違いが地域の歴史にどのように関連付けられるかを調査しました。 私は、方言間の違いの一部は、各方言とその地域で話されている他の言語との言語接触の結果として現れた可能性があると主張しました。 私はもう現代ギリシャ語には取り組んでいませんが、XNUMX つの言語が互いに接触したときに起こる変化は依然として私の仕事の中心です。今回のみ、個人が新しい言語を学習するときに何が起こるか、そしてテクノロジーがどのように影響するかに焦点を当てています。これを最も効率的に行うのに役立ちます。

英語に関しては、無数のアクセントが存在します。 さまざまな方言をすべて理解できる NLP をどのように設計すればよいでしょうか? それぞれのタイプのアクセントから追加のビッグデータを深層学習アルゴリズムに供給するという単純な問題なのでしょうか?

これに対処するために、これまでにいくつかのアプローチが使用されてきました。 すべてのアクセントをカバーする XNUMX つの大きなモデルを構築することに加えて、最初にアクセントを特定してからこのアクセントにカスタム モデルを使用することも、複数のモデルを一度に試して最も効果的なモデルを選択することもできます。 最終的に、幅広いアクセントで良好なパフォーマンスを達成するには、システムが遭遇する可能性のある多くのアクセントを表すトレーニング データと評価データが必要です。

ETS では、自動システムによって生成されたスコアが、測定したい実際のスキルの差異を反映しており、性別、人種、出身国などの学習者の人口統計的特徴の影響を受けていないことを確認するために、包括的な評価を実施しています。

子供および/または言語学習者 完璧な発音が難しいことがよくあります。 発音の問題をどうやって克服しますか?

完璧な発音などというものはありません。私たちの話し方は私たちのアイデンティティと密接に関係しており、開発者および研究者としての私たちの目標は、システムがすべてのユーザーに対して公平であることを確認することです。

言語学習者も子どもも、音声ベースのシステムには特有の課題を抱えています。 たとえば、子供の声は音響特性が大きく異なるだけでなく、話し方も大人とは異なり、子供間で大きなばらつきがあります。 その結果、子供向けの自動音声認識の開発は通常、大量の子供の音声データを必要とする別個のタスクになります。

同様に、同じバックグラウンドを持つ言語学習者の間には多くの類似点がありますが、学習者は音声、文法、語彙パターンの使用において大きく異なる可能性があり、音声認識が特に困難なタスクとなっています。 英語能力をスコアリングするシステムを構築する際、私たちは幅広い英語能力と母国語を持つ言語学習者のデータを使用します。

2018年XNUMX月に『』を出版されましたね。自動音声スコアリング システムのトレーニングと評価に模範応答を使用する'。 この文書から理解すべき主要なブレークスルーの基礎は何ですか?

このペーパーでは、トレーニング データとテスト データの品質が自動スコアリング システムのパフォーマンスにどのような影響を与えるかを検討しました。

自動スコアリング システムは、他の多くの自動システムと同様、人間用にラベル付けされたデータに基づいてトレーニングされます。 この場合、これらは人間の評価者によって割り当てられたスコアです。 人間の評価者は、割り当てたスコアに常に同意するとは限りません。 個々の質問レベルで人間の同意が異なる場合でも、受験者に報告される最終スコアの信頼性が高く保たれることを保証するために、評価にはいくつかの異なる戦略が使用されます。 ただし、自動スコアリング エンジンは通常、応答レベルのスコアを使用してトレーニングされるため、上で概説したさまざまな理由によるそのようなスコアの不一致は、システムに悪影響を与える可能性があります。

人間の評価者間で一致が異なる大量のデータにアクセスし、さまざまな条件下でシステムのパフォーマンスを比較することができました。 私たちが発見したのは、完璧なデータでシステムをトレーニングしても、ノイズの多いラベルを含むデータでトレーニングされたシステムよりも実際にはパフォーマンスが向上しないということです。 完璧なラベルは、トレーニング セットの合計サイズが非常に小さい場合にのみ利点をもたらします。 一方で、人によるラベルの品質はシステム評価に大きな影響を与えました。クリーンなラベルで評価した場合、パフォーマンスの推定値は最大 30% 向上する可能性があります。

重要なメッセージは、ゴールドスタンダード ラベルをクリーンアップするためのデータとリソースが大量にある場合、トレーニング セットのラベルよりも評価セットのラベルをクリーンアップする方が賢明である可能性があるということです。 そして、この発見は自動採点だけでなく、他の多くの分野にも当てはまります。

ETS でのあなたの仕事について説明していただけますか?

私は、教育現場で話し言葉を処理する音声スコアリング エンジン システムに取り組んでいます。 そのようなシステムの 10 つである SpeechRater® は、高度な音声認識および分析テクノロジーを使用して、英語のスピーキング能力を評価し、詳細なフィードバックを提供します。 SpeechRater は、XNUMX 年以上存在する非常に成熟したアプリケーションです。 私はさまざまなアプリケーションのスコアリング モデルを構築し、ETS 全体の他の同僚と協力して、スコアがすべての受験者にとって信頼性が高く、公平で、有効なものであることを確認しています。 また、ETS の他のグループと協力して、システム パフォーマンスを継続的に監視しています。

運用システムの維持および改善に加えて、新しいシステムのプロトタイプも作成します。 私がとても楽しみにしているプロジェクトの XNUMX つは RelayReader™ です。これは、開発中の読者が流暢さと自信を獲得できるように設計されたアプリケーションです。 RelayReader で読書をするとき、ユーザーは順番に本を聞いたり、声に出して読んだりします。 測定値はフィードバックを提供するために当社のサーバーに送信されます。 音声処理に関して言えば、このアプリケーションの主な課題は、読者の本への関与を妨げることなく、学習を測定し、実用的で信頼できるフィードバックを目立たないように提供する方法です。

ETS との仕事で一番気に入っていることは何ですか?

私が最初に ETS に惹かれたのは、ETS が世界中のすべての人々の教育の質を向上させるという使命を持った非営利団体であるということでした。 研究が製品につながるのはもちろん素晴らしいことですが、本質的にはより基礎的な、しかし将来の製品開発に役立つプロジェクトに取り組む機会があることに感謝します。 また、ETS がデータのプライバシーや公平性などの問題を非常に真剣に受け止めており、すべてのシステムが運用に導入される前に非常に厳しい評価を受けているという事実も私は大切にしています。

しかし、ETS を本当に働きやすい場所にしているのは、その従業員です。 当社には、さまざまな背景を持つ科学者、エンジニア、開発者の素晴らしいコミュニティがあり、多くの興味深いコラボレーションが可能です。

AI がチューリング テストに合格できるようになると思いますか?

1950 年代以来、実際にチューリング テストをどのように行うべきかについて多くの解釈が行われてきました。 おそらく、人間のように考えるAIシステムは存在しないという哲学的な意味でのチューリングテストは合格していないという一般的な合意があるだろう。 しかし、これは非常にニッチなテーマでもあります。 ほとんどの人はチューリング テストに合格するためにシステムを構築しているわけではありません。私たちは、彼らに特定の目標を達成してもらいたいと考えています。

音声認識や自然言語理解など、これらのタスクの一部では、人間のパフォーマンスが最も重要な基準と考えられる場合があります。 しかし、自動化システムが人間よりもはるかに優れたパフォーマンスを期待できるタスクや、最良の結果を達成するために自動化システムと人間の専門家が協力する必要があるタスクは他にもたくさんあります。 たとえば、教育の場面では、AI システムが教師に取って代わることを望んでいません。私たちは AI システムが教師を支援することを望んでいます。それは、生徒の学習軌跡のパターンの特定を通じて、採点や最適な教材の発見を支援するためです。

ETS または NLP について他に共有したいことはありますか?

ETS の評価と自動採点システムは多くの人に知られています。 しかし、私たちはそれ以上のことを行っています。 当社は音声生体認証から音声対話アプリケーションまで多くの機能を備えており、テクノロジーを学習に統合する新しい方法を常に模索しています。 現在、多くの学生が自宅で学習しているため、私たちは研究機能のいくつかを一般に公開しました。

インタビューに応じていただき、NLP と音声認識の最新の進歩についての洞察を提供していただきありがとうございました。 もっと詳しく知りたい人は誰でも訪問できます 教育試験サービス.

Unite.AI の創設パートナーであり、 フォーブステクノロジー評議会、 アントワーヌさんは、 未来派 AI とロボット工学の未来に情熱を持っている人。

彼はの創設者でもあります 証券.io、破壊的テクノロジーへの投資に焦点を当てたウェブサイト。