人工智能
语音评分的未来 - 思想领袖

在世界各地,英语学习者的数量持续增加。 教育机构和雇主需要能够评估语言学习者的英语水平,特别是他们的口语能力,因为口语仍然是最重要的语言能力之一。 对于评估开发人员和最终用户来说,面临的挑战是找到一种准确、快速且经济上可行的方法。 作为这一挑战的一部分,对这些评估进行评分有其自身的一系列因素,特别是当我们考虑正在测试的不同领域(演讲、写作等)时。 随着全球对英语语言技能的需求预计只会增加,为了满足这些需求,未来的语音评分需要是什么样子?
这个问题的部分答案可以从迄今为止语音评分的演变中找到。 历史上,对构建的口头回答进行评分是由人类评分者完成的。 然而,这个过程往往昂贵且缓慢,并且具有额外的挑战,包括可扩展性和人类评估者本身的各种缺点(例如,评估者主观性或偏见)。 正如我们书中所讨论的 自动口语评估:使用语言技术对自发语音进行评分为了应对这些挑战,现在越来越多的评估使用自动语音评分技术作为唯一的评分来源或与人类评分者结合使用。 然而,在部署自动评分引擎之前,需要对其性能进行彻底评估,特别是与评分可靠性、有效性(系统是否测量其应有的结果?)和公平性(即系统不应引入与评分相关的偏差)相关的性能。人口亚组,例如性别或母语)。
自 2006 年以来,ETS 自己的语音评分引擎 SpeechRater® 已在 TOEFL® Practice Online (TPO) 评估中投入使用(潜在考生用来准备 TOEFL iBT® 评估),自 2019 年起,SpeechRater 也已开始使用与人工评分员一起对 TOEFL iBT® 评估的口语部分进行评分。该引擎评估自发非母语语音的各种口语熟练程度,包括发音和流利性、词汇范围和语法,以及与思想的连贯性和进展相关的高级口语能力。这些特征是通过使用自然语言处理 (NLP) 和语音处理算法来计算的。然后将统计模型应用于这些特征,以便为测试者的反应分配最终分数。
虽然该模型是根据人类评分者之前观察到的数据进行训练的,但它也经过内容专家的审查,以最大限度地提高其有效性。 如果发现由于音频质量或其他问题而无法对响应进行评分,引擎可以将其标记为进一步审查,以避免生成可能不可靠或无效的分数。 在高风险的 TOEFL iBT 口语评估中,人工评分者始终参与口语回答的评分。
由于人类评分员和 SpeechRater 目前一起用于对高风险口语评估中考生的反应进行评分,因此两者都在未来英语语言能力评分中发挥着重要作用。 人类评分者有能力深入理解口头回答的内容和话语组织。 相比之下,自动语音评分引擎可以更精确地测量语音的某些细节方面,例如流畅性或发音,随着时间的推移表现出完美的一致性,可以减少总体评分时间和成本,并且更容易扩展以支持大量测试。 当人工评分者和自动语音评分系统相结合时,生成的系统可以受益于每种评分方法的优势。
为了不断发展自动语音评分引擎,研发需要重点关注以下几个方面:
- 构建更高精度的自动语音识别系统:由于语音评分系统的大多数功能都直接或间接依赖于系统中将考生语音转换为文本转录的组件,因此高精度的自动语音识别对于获得有效特征至关重要;
- 探索结合人类和自动评分的新方法:为了充分利用人类评分者评分和自动引擎评分各自的优势,需要探索更多结合这些证据的方法;
- 考虑到技术和行为方面的异常反应:需要能够标记此类反应并将其排除在自动评分之外的高性能过滤器,以帮助确保最终评估分数的有效性和可靠性;
- 对日常生活中最常发生的自发或会话言语进行评估:虽然对此类交互式言语的自动评分是一个重要目标,但这些项目提出了许多评分挑战,包括总体评估和评分;
- 探索用于自动语音评分的深度学习技术:近年来,机器学习中这种相对较新的范例已经在许多人工智能(AI)任务(例如自动语音识别、图像识别)上产生了显着的性能提升,因此很可能自动化评分也可能受益于使用这项技术。然而,由于大多数这些系统都可以被视为“黑盒”方法,因此关注结果分数的可解释性对于保持一定程度的透明度非常重要。
为了适应不断增长和变化的英语学习者群体,下一代语音评分系统必须扩大自动化程度和测量范围,从而实现一致性和可扩展性。 这并不是说人为因素将被消除,尤其是对于高风险的评估。 人类评分员对于捕捉语音的某些方面可能仍然至关重要,在未来一段时间内,自动评分系统仍然难以准确评估这些方面,包括口语内容和话语的详细方面。 单独使用自动语音评分系统进行后续评估还存在无法识别考生有问题的回答的风险,例如偏离主题或抄袭的回答,因此可能导致有效性和可靠性降低。 在可预见的未来,结合使用人工评分者和自动评分系统可能是对高风险评估中的语音进行评分的最佳方式,特别是在评估自发或会话语音时。
作者:Keelan Evanini,语音研究总监, 二手烟 & Klaus Zechner,管理高级研究科学家,演讲, 二手烟
ETS 与教育机构、企业和政府合作开展研究和开发评估项目,为他们提供可用来评估人员和项目的有意义的信息。 ETS 每年在全球 50 多个国家/地区的 180 多个地点开发、管理和评分超过 9,000 万次测试。 我们以行业领先的洞察力、严谨的研究和对质量的坚定承诺来设计评估,以便我们能够帮助教育和工作场所社区做出明智的决策。 要了解更多信息,请访问 ETS。