研究与开发部语音研究总监在 Educational Testing Service (ETS)。
在全球范围内,英语学习者的数量不断增加。教育机构和雇主需要能够评估英语学习者的英语水平,特别是他们的口语能力,因为口语仍然是最重要的语言能力之一。挑战在于,既要找到一种准确、快速和经济可行的评估方法,又要考虑到评估开发者和最终用户的需求。作为这一挑战的一部分,评分这些评估也带来了自己的挑战,特别是当我们考虑到被测试的不同领域(如语音、写作等)时。随着全球对英语技能的需求不断增加,语音评分的未来需要是什么样的才能满足这些需求?答案的一部分在于语音评分的演变史。传统上,构造性口语反应的评分是通过人工评分来完成的。然而,这个过程往往昂贵且耗时,并且存在诸如可扩展性和人工评分者的主观性或偏见等挑战。正如我们在《自动化口语评估:使用语言技术评估自发性语音》一书中所讨论的,为了应对这些挑战,越来越多的评估开始使用自动语音评分技术作为唯一的评分来源或与人工评分者结合使用。然而,在部署自动评分引擎之前,必须彻底评估其性能,特别是在评分可靠性、有效性(系统是否测量它应该测量的内容)和公平性(系统不应引入与人口子群相关的偏见,例如性别或母语)方面。自2006年以来,ETS自己的语音评分引擎SpeechRater®已经在TOEFL® Practice Online(TPO)评估中投入使用,TPO评估是为准备TOEFL iBT®评估的潜在考生提供的。自2019年以来,SpeechRater也被用于TOEFL iBT®评估的口语部分,结合人工评分者。该引擎评估广泛的口语能力,包括发音、流利度、词汇范围、语法和更高级的口语能力,如连贯性和思想进展。这些特征是通过使用自然语言处理(NLP)和语音处理算法计算的。然后,应用统计模型来这些特征,以便为考生的反应分配最终分数。虽然该模型是基于之前由人工评分者评分的数据训练的,但也由内容专家审查,以最大限度地提高其有效性。如果响应由于音频质量或其他问题而无法评分,引擎可以将其标记为进一步审查,以避免生成潜在的不可靠或无效分数。人工评分者始终参与高风险口语评估的评分。由于人工评分者和SpeechRater目前共同用于评分考生的反应,因此两者都在决定英语语言能力评分的未来方面发挥着作用。人工评分者能够深入地理解口语反应的内容和话语组织。相比之下,自动语音评分引擎可以更精确地衡量某些详细的语音方面,如流利度或发音,表现出一致性,减少整体评分时间和成本,并且更容易扩展以支持大规模的测试量。当人工评分者和自动语音评分系统结合使用时,所得到的系统可以利用每种评分方法的优势。为了不断演进自动语音评分引擎,研究和开发需要关注以下方面,包括: 构建更高精度的自动语音识别系统:由于语音评分系统的大多数特征直接或间接地依赖于该系统的这一组件,即将考生的语音转换为文本转录,因此需要高度准确的自动语音识别来获得有效的特征; 探索新的方法来组合人工和自动评分:为了充分利用人工评分者评分和自动引擎评分的各自优势,需要探索更多的方法来组合这些证据; 考虑响应中的异常,包括技术和行为异常:需要高性能的过滤器来标记这些响应并将其排除在自动评分之外,以确保评估分数的有效性和可靠性; 评估日常生活中最常见的自发或对话式语音:虽然自动评分这种交互式语音是重要的目标,但这些项目带来了许多评分挑战,包括整体评估和评分; 探索深度学习技术用于自动语音评分:这个相对较新的机器学习范式在近年来为许多人工智能任务带来了显著的性能提升(例如自动语音识别、图像识别),因此可能自动评分也能从使用这种技术中受益。然而,由于大多数这些系统可以被认为是“黑盒”方法,需要注意所得分数的可解释性,以保持一定的透明度。 为了适应不断增长和变化的英语学习者人群,下一代语音评分系统必须扩大自动化和测量范围,实现一致性和可扩展性。这并不意味着人工元素将被移除,特别是在高风险评估中。人工评分者可能仍将在捕捉某些语音方面方面发挥至关重要的作用,这些方面在可预见的未来仍将难以通过自动评分系统准确评估,包括口语内容和话语的详细方面。仅使用自动语音评分系统进行有后果的评估也存在未能识别问题响应的风险——例如,离题或抄袭的响应,这可能导致有效性和可靠性降低。同时使用人工评分者和自动评分系统可能是评估高风险口语的最佳方法,特别是当评估自发或对话式语音时。由Keelan Evanini,ETS语音研究主任和Klaus Zechner,ETS语音高级研究科学家撰写ETS与教育机构、企业和政府合作,开展研究和开发评估计划,为他们提供有价值的信息,以评估人员和项目。ETS每年在180多个国家的9000多个地点开发、管理和评分超过5000万份考试。我们以行业领先的洞察力、严格的研究和对质量的坚定承诺来设计我们的评估,以帮助教育和工作场所社区做出明智的决定。要了解更多,请访问ETS。