人工智能

Anastassia Loukina，ETS的高级研究科学家（NLP/语音）- 采访系列

Published March 30, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Anastassia Loukina 是教育测试服务 (ETS) 的一名研究科学家，她在那里从事自动语音评分的工作。

她的研究兴趣涵盖了广泛的主题。她曾经从事过现代希腊方言、语音节奏和自动语调分析等方面的工作。

她的当前工作重点是将语音技术和机器学习的工具和方法与语音感知/产生研究的见解相结合，以构建自动评分模型来评估非母语语音。

您显然对语言有着浓厚的兴趣，是什么让您对语言产生了这种热情？

我在俄罗斯圣彼得堡长大，讲俄语，我记得当我第一次接触到英语时，我感到非常着迷：有些词语有一个模式，可以将俄语单词“转换”成英语单词。而当我遇到一个词语时，我的“模式”就失效了，我会尝试找到一个更好的、更一般的规则。当然，当时我对语言学类型学或同源词和借词的区别一无所知，但这激发了我的好奇心和学习更多语言的愿望。这种识别人们说话的模式和在数据上测试它们的热情正是我进入语音学、机器学习和现在的工作的原因。

在您从事自然语言处理（NLP）工作之前，您曾经是英语-俄语和现代希腊语-俄语的翻译。您是否认为您的翻译工作给您带来了对NLP中一些细微差别和问题的额外见解？

我的主要身份一直是研究人员。的确，我以现代希腊语学者的身份开始了我的学术生涯，或者更具体地说，是现代希腊语音学。我的博士论文探讨了现代希腊语几个方言之间的音韵学差异，以及这些差异如何与该地区的历史联系起来。我认为，方言之间的一些差异可能是由于该地区所说的其他语言与每个方言之间的语言接触而产生的。虽然我不再从事现代希腊语的研究，但语言接触所发生的变化仍然是我的工作的核心：只是这次，我关注的是个体学习新语言时会发生什么，以及如何利用技术来实现这一点最有效地。

当谈到英语时，有很多种口音。您如何设计一个NLP系统，使其能够理解所有不同的方言？是否只是将更多的大数据从每种口音中输入到深度学习算法中？

过去曾经使用过几种方法来解决这个问题。除了构建一个大型模型来涵盖所有口音外，您还可以首先识别口音，然后使用自定义模型，或者尝试多个模型并选择最有效的模型。最终，要实现良好的性能并覆盖广泛的口音，您需要具有代表性的大量训练和评估数据。

在ETS，我们进行全面评估，以确保我们的自动系统产生的评分反映了我们要衡量的实际技能的差异，并不受受测者的 демограф特征（如性别、种族或国籍）影响。

儿童和/或语言学习者 通常难以掌握完美的发音。您如何克服发音问题？

没有所谓的完美发音：我们的说话方式与我们的身份密切相关，作为开发人员和研究人员，我们的目标是确保我们的系统对所有用户都是公平的。

语言学习者和儿童都对基于语音的系统提出了特殊挑战。例如，儿童的声音不仅具有非常不同的音质，而且儿童的说话方式也与成人不同，儿童之间也存在很大的差异。因此，开发儿童的自动语音识别系统通常是一个单独的任务，需要大量的儿童语音数据。

同样，尽管来自同一背景的语言学习者之间存在许多相似之处，但学习者在使用语音、语法和词汇模式方面可能存在很大的差异，使得语音识别成为一个特别具有挑战性的任务。在构建评估英语语言能力的系统时，我们使用了来自不同语言能力和母语背景的语言学习者的数据。

2018年1月，您发表了‘使用示例响应训练和评估自动语音评分系统‘。您认为这篇论文中应该理解的主要突破和基本原理是什么？

在这篇论文中，我们研究了训练和测试数据的质量如何影响自动评分系统的性能。

自动评分系统与其他自动系统一样，是使用人类标记的数据进行训练的。在这种情况下，这些是人类评分员分配的评分。人类评分员并不总是对他们分配的评分达成一致。有几种策略被用于评估，以确保最终报告给受测者的评分在人类评分员之间的评分水平上保持高度可靠。然而，由于自动评分引擎通常使用响应级评分进行训练，因此由于上述各种原因导致的评分不一致可能会对系统产生负面影响。

我们能够访问大量具有不同人类评分员之间一致性数据，并比较了系统在不同条件下的性能。我们发现，训练系统使用完美数据实际上并没有比训练使用带有噪声标签的数据的系统表现得更好。完美标签只有在训练集非常小时才会带来优势。另一方面，人类标签的质量对系统评估产生了巨大的影响：如果您在干净的标签上评估，性能估计可能会高出30%。

主要结论是，如果您拥有大量数据和清理金标准标签的资源，可能更明智的做法是清理评估集的标签，而不是训练集的标签。这种发现不仅适用于自动评分，还适用于其他许多领域。

您能描述一下您在ETS的工作吗？

我从事语音评分引擎系统的开发，该系统处理教育环境中的口语。其中一个系统是SpeechRater®，它使用先进的语音识别和分析技术来评估和提供有关英语语言口语能力的详细反馈。SpeechRater是一个非常成熟的应用程序，已经存在超过10年了。我为不同的应用程序构建评分模型，并与ETS的其他同事合作，以确保我们的评分对于所有受测者都是可靠、公平和有效的。我们还与ETS的其他团队合作，持续监测系统性能。

除了维护和改进我们的运营系统外，我们还开发原型系统。其中一个我非常兴奋的项目是RelayReader™：一个旨在帮助初学者提高流利度和信心的应用程序。当使用RelayReader阅读时，用户会轮流聆听和朗读一本书。然后，他们的朗读会被发送到我们的服务器，以提供反馈。在语音处理方面，该应用程序的主要挑战是如何在不干扰读者与书籍互动的情况下无缝地衡量学习并提供可靠的反馈。

您在ETS工作的最喜欢的部分是什么？

最初吸引我加入ETS的是它是一家非营利组织，旨在提高世界各地所有人的教育质量。虽然当然，当研究导致产品开发时很好，但我欣赏有机会从事更基础性的项目，但这些项目将在未来有助于产品开发。我也珍视ETS认真对待数据隐私和公平等问题的事实，我们的所有系统在部署之前都会经过严格的评估。

但是真正使ETS成为一个很好的工作场所的是它的人们。我们拥有来自不同背景的科学家、工程师和开发人员的惊人社区，这使得合作非常有趣。

您是否认为AI会通过图灵测试？

自20世纪50年代以来，图灵测试的实施方式已经有了很多解释。可能有一个共识，即图灵测试在哲学意义上尚未通过，即没有一个AI系统像人类一样思考。然而，这已经成为一个很小众的主题。大多数人不构建系统来通过图灵测试——我们希望它们实现特定的目标。

对于一些任务，例如语音识别或自然语言理解，人类的性能可能被认为是金标准。然而，也有许多其他任务，我们希望自动系统比人类表现得更好，或者自动系统和人类专家需要合作以实现最佳结果。例如，在教育环境中，我们不希望AI系统取代教师——我们希望它帮助教师，无论是通过识别学生学习轨迹中的模式、帮助评分还是找到最好的教学材料。

您是否还有其他关于ETS或NLP的信息想要分享？

许多人只知道ETS的评估和自动评分系统。但我们做的远不止这些。我们拥有从语音生物识别到语音对话应用等多种能力，我们始终在寻找将技术融入学习的新方法。现在，许多学生在家学习，我们已经向公众开放了一些研究能力。

感谢您的采访，并感谢您对NLP和语音识别的最新进展提供的见解。任何想要了解更多信息的人都可以访问教育测试服务。

Antoine Tardif, CEO & Founder of Unite.AI

安托万是一位具有远见的领导者和Unite.AI的创始合伙人，他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者，他相信AI将对社会产生与电力一样的颠覆性影响，他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家，他致力于探索这些创新将如何塑造我们的世界。另外，他也是Securities.io的创始人，这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。

Unite.AI

Anastassia Loukina，ETS的高级研究科学家（NLP/语音）- 采访系列

You may like