Искусственный интеллект
Будущее оценки речи – лидеры мнений

По всему миру количество изучающих английский язык продолжает расти. Образовательным учреждениям и работодателям необходимо уметь оценивать владение английским языком у изучающих язык – в частности, их способность говорить, поскольку устная речь остается одной из наиболее важных языковых способностей. Вызовом, как для разработчиков оценок, так и для конечных пользователей, является нахождение способа сделать это так, чтобы это было точным, быстрым и финансово жизнеспособным. В рамках этого вызова оценка этих оценок сопряжена с собственным набором факторов, особенно когда мы рассматриваем различные области (речь, письмо и т. д.), по которым проводится тестирование. С учетом того, что спрос на навыки английского языка по всему миру ожидается только увеличиваться, каким должно быть будущее оценки речи, чтобы удовлетворять этим потребностям?
Ответ на этот вопрос, частично, заключается в эволюции оценки речи на сегодняшний день. Оценка сконструированных устных ответов исторически осуществлялась с помощью человеческих оценщиков. Однако этот процесс, как правило, является дорогим и медленным и имеет дополнительные проблемы, включая масштабируемость и различные недостатки самих человеческих оценщиков (например, субъективность или предвзятость оценщика). Как обсуждается в нашей книге Automated Speaking Assessment: Using Language Technologies to Score Spontaneous Speech, чтобы решить эти проблемы, все большее количество оценок сейчас использует технологию автоматической оценки речи как единственный источник оценки или в сочетании с человеческими оценщиками. Однако перед развертыванием автоматических систем оценки их производительность должна быть тщательно оценена, особенно в отношении надежности оценки, валидности (измеряет ли система то, что она должна?) и справедливости (т. е. система не должна вводить предвзятость, связанную с подгруппами населения, такими как пол или родной язык).
С 2006 года система оценки речи ETS, SpeechRater®, была операционализирована в оценке TOEFL® Practice Online (TPO) (используемой потенциальными тестируемыми для подготовки к оценке TOEFL iBT®) и с 2019 года SpeechRater также используется, вместе с человеческими оценщиками, для оценки раздела речи оценки TOEFL iBT®. Двигатель оценивает широкий спектр речевых способностей для спонтанной неродной речи, включая произношение и плавность, диапазон словарного запаса и грамматику, а также более высокие речевые способности, связанные с связностью и прогрессией идей. Эти функции вычисляются с помощью обработки естественного языка (NLP) и алгоритмов обработки речи. Затем статистическая модель применяется к этим функциям для присвоения окончательного балла ответу тестируемого.
Хотя эта модель обучена на ранее наблюдаемых данных, оцененных человеческими оценщиками, она также рассматривается экспертами по содержанию, чтобы максимизировать ее валидность. Если ответ признается неоцениваемым из-за качества аудио или других проблем, двигатель может пометить его для дальнейшего рассмотрения, чтобы избежать генерации потенциально ненадежного или недействительного балла. Человеческие оценщики всегда участвуют в оценке устных ответов в высокорисковых оценках речи TOEFL iBT.
Поскольку человеческие оценщики и SpeechRater в настоящее время используются вместе для оценки ответов тестируемых в высокорисковых оценках речи, оба играют роль в том, что может быть будущим оценки английской языковой профессиональности. Человеческие оценщики имеют возможность глубоко понимать содержание и организацию дискурса устного ответа. Напротив, автоматические системы оценки речи могут более точно измерять определенные подробные аспекты речи, такие как плавность или произношение, демонстрировать идеальную последовательность во времени, уменьшать общее время и стоимость оценки, и более легко масштабироваться для поддержки крупных объемов тестирования. Когда человеческие оценщики и автоматические системы оценки речи объединяются, полученная система может извлечь пользу из сильных сторон каждого подхода к оценке.
Чтобы непрерывно развивать автоматические системы оценки речи, исследования и разработка должны сосредоточиться на следующих аспектах, среди прочего:
- Создание систем автоматического распознавания речи с более высокой точностью: Поскольку большинство функций системы оценки речи напрямую или косвенно зависят от этого компонента системы, который преобразует речь тестируемого в текстовую транскрипцию, высокая точность автоматического распознавания речи является необходимой для получения действительных функций;
- Изучение новых способов объединения человеческих и автоматических оценок: Чтобы максимально использовать сильные стороны оценок человеческих оценщиков и оценок автоматического двигателя, необходимо изучить больше способов объединения этой информации;
- Учет аномалий в ответах, как технических, так и поведенческих: Высокопроизводительные фильтры, способные пометить такие ответы и исключить их из автоматической оценки, необходимы для обеспечения действительности и надежности полученных оценок;
- Оценка спонтанной или разговорной речи, которая происходит чаще всего в повседневной жизни: Хотя автоматическая оценка такой интерактивной речи является важной целью, эти элементы представляют многочисленные проблемы оценки, включая общую оценку и оценку;
- Изучение технологий глубокого обучения для автоматической оценки речи: Этот относительно недавний парадигма в машинном обучении произвел значительные увеличения производительности на многих задачах искусственного интеллекта (ИИ) в последние годы (например, автоматическое распознавание речи, распознавание изображений), и, следовательно, вероятно, что автоматическая оценка также может извлечь пользу из использования этой технологии. Однако, поскольку большинство этих систем можно считать “черными ящиками”, внимание к интерпретируемости полученного балла будет важно для поддержания некоторого уровня прозрачности.
Чтобы удовлетворять растущему и меняющемуся населению изучающих английский язык, системы следующего поколения оценки речи должны расширять автоматизацию и диапазон того, что они могут измерять, обеспечивая последовательность и масштабируемость. Это не означает, что человеческий элемент будет удален, особенно для высокорисковых оценок. Человеческие оценщики, вероятно, останутся необходимыми для захвата определенных аспектов речи, которые будут трудно оценить точно автоматическими системами оценки в ближайшее время, включая подробные аспекты устного содержания и дискурса. Использование автоматических систем оценки речи в изоляции для значимых оценок также несет риск не выявления проблемных ответов тестируемых – например, ответов, которые находятся вне темы или являются плагиатом, и, как следствие, могут привести к снижению действительности и надежности. Использование как человеческих оценщиков, так и автоматических систем оценки в сочетании может быть лучшим способом оценки речи в высокорисковых оценках на ближайшее будущее, особенно если оценивается спонтанная или разговорная речь.
Написано: Киланом Эванини, Директором исследований речи, ETS и Клаусом Зехнером, Руководителем старшего исследователя, Речь, ETS
ETS работает с образовательными учреждениями, бизнесом и правительствами для проведения исследований и разработки программ оценки, которые предоставляют значимую информацию, которую они могут использовать для оценки людей и программ. ETS разрабатывает, проводит и оценивает более 50 миллионов тестов ежегодно в более чем 180 странах на более чем 9 000 местах по всему миру. Мы проектируем наши оценки с помощью ведущих знаний отрасли, строгих исследований и непоколебимой приверженности качеству, чтобы мы могли помочь образовательным и рабочим сообществам принимать обоснованные решения. Чтобы узнать больше, посетите ETS.













