Штучний інтелект

Майбутнє оцінювання мови – лідери думок

Published May 21, 2020

Updated April 28, 2026

Keelan Evanini and Klaus Zechner

По всьому світу кількість учнів англійської мови продовжує зростати. Освітні установи та роботодавці повинні мати можливість оцінювати рівень англійської мови учнів – зокрема, їхню здатність говорити, оскільки розмовна мова залишається однією з найважливіших мовних здібностей. Виклик, як для розробників оцінювання, так і для кінцевих користувачів, полягає в тому, щоб знайти спосіб зробити це точно, швидко та фінансово доцільно. Як частина цього виклику, оцінювання цих оцінок супроводжується власним набором факторів, особливо коли ми розглядаємо різні галузі (мова, письмо тощо), за які проводиться тестування. З урахуванням зростаючого попиту на англійську мову по всьому світу, яким повинно бути майбутнє оцінювання мови, щоб задовольнити ці потреби?

Відповідь на це питання, частково, знаходить свій вияв в еволюції оцінювання мови на сьогоднішній день. Оцінювання конструктивних усних відповідей історично проводилось людьми-оцінювачами. Однак цей процес часто виявляється дорогим і повільним, і має додаткові виклики, включаючи масштабованість та різні недоліки самих оцінювачів (наприклад, суб’єктивність або упередженість оцінювача). Як обговорюється в нашій книзі Автоматизоване оцінювання мови: використання мовних технологій для оцінювання спонтанної мови, щоб подолати ці виклики, все більше оцінювань тепер використовують технологію автоматизованого оцінювання мови як єдине джерело оцінювання або в поєднанні з людьми-оцінювачами. Однак перед розгортанням автоматизованих систем оцінювання їхню продуктивність потрібно ретельно оцінити, особливо щодо надійності оцінювання, валідності (чи система вимірює те, що вона повинна?) та справедливості (тобто система не повинна вводити упередженість, пов’язану з підгрупами населення, такими як стать або рідна мова).

З 2006 року власний двигун оцінювання мови ETS, SpeechRater®, був оперативний у оцінюванні TOEFL® Practice Online (TPO) (яке використовується потенційними тестируваними для підготовки до оцінювання TOEFL iBT®), а з 2019 року SpeechRater також використовується, разом з людьми-оцінювачами, для оцінювання розділу мови оцінювання TOEFL iBT®. Двигун оцінює широкий спектр мовної компетентності для спонтанної нерідної мови, включаючи вимову та плавність, лексичний діапазон та граматику, а також вищу мовну компетентність, пов’язану з узгодженість та розвиток ідей. Ці функції обчислюються за допомогою обробки природної мови (NLP) та мовних алгоритмів. Статистична модель потім застосовується до цих функцій для призначення остаточного балу відповіді тестируваного.

Хоча ця модель тренується на попередньо спостережуваних даних, оцінених людьми-оцінювачами, її також переглядають експерти з вмісту для максимізації її валідності. Якщо відповідь визнається неоцінюваною через якість аудіо чи інші питання, двигун може позначити її для подальшого розгляду, щоб уникнути генерації потенційно ненадійного або невалідного балу. Люди-оцінювачі завжди беруть участь в оцінюванні усних відповідей у високоризикових оцінюваннях мови TOEFL iBT.

Оскільки люди-оцінювачі та SpeechRater зараз використовуються разом для оцінювання відповідей тестируваних у високоризикових оцінюваннях мови, обидва грають роль у тому, яким може бути майбутнє оцінювання англійської мови. Люди-оцінювачі мають можливість глибоко зрозуміти зміст та організацію дискурсу усної відповіді. Натомість автоматизовані системи оцінювання мови можуть більш точно виміряти певні деталі мови, такі як плавність або вимова, демонструють ідеальну узгодженість у часі, можуть зменшити загальний час та вартість оцінювання, та легше масштабуються для підтримки великих об’ємів тестування. Коли люди-оцінювачі та автоматизовані системи оцінювання мови поєднуються, результатом є система, яка може користуватися сильними сторонами кожного підходу до оцінювання.

Для безперервної еволюції автоматизованих систем оцінювання мови дослідження та розвиток повинні зосередитися на таких аспектах, серед інших:

Будівництво автоматичних систем розпізнавання мови з вищою точністю: оскільки більшість функцій системи оцінювання мови залежать безпосередньо або опосередковано від цього компонента системи, який перетворює мову тестируваного на текстову транскрипцію, висока точність автоматичного розпізнавання мови є суттєвою для отримання валідних функцій;
Дослідження нових способів поєднання людських та автоматизованих оцінок: щоб повністю використати сильні сторони оцінок людей-оцінювачів та автоматизованих систем оцінювання, потрібно дослідити більше способів поєднання цих даних;
Врахування аномалій у відповідях, як технічних, так і поведінкових: високопродуктивні фільтри, здатні позначити такі відповіді та виключити їх з автоматизованого оцінювання, необхідні для забезпечення валідності та надійності результатів оцінювання;
Оцінювання спонтанної чи розмовної мови, яка відбувається найчастіше в повсякденному житті: хоча автоматизоване оцінювання такої інтерактивної мови є важливою метою, ці елементи представляють численні виклики для оцінювання, включаючи загальну оцінку та оцінювання;
Дослідження технологій глибокого навчання для автоматизованого оцінювання мови: цей відносно недавній парадигма у машинному навчанні призвела до суттєвого підвищення продуктивності багатьох завдань штучного інтелекту (наприклад, автоматичне розпізнавання мови, розпізнавання зображень) за останні роки, і тому ймовірно, що автоматизоване оцінювання також може виграти від використання цієї технології. Однак, оскільки більшість цих систем можна вважати “чорними скриньками”, увага до інтерпретації результатуючого балу буде важливою для підтримання деякого рівня прозорості.

Для задоволення зростаючої та змінюваної популяції учнів англійської мови наступні системи оцінювання мови повинні розширити автоматизацію та діапазон того, що вони можуть виміряти, забезпечуючи узгодженість та масштабованість. Це не означає, що людський елемент буде видалений, особливо для високоризикових оцінювань. Люди-оцінювачі, ймовірно, залишаться суттєвими для захоплення певних аспектів мови, які будуть важко оцінити точно автоматизованими системами оцінювання протягом деякого часу, включаючи детальні аспекти мовного змісту та дискурсу. Використання автоматизованих систем оцінювання мови в ізоляції для оцінювання наслідків також несло б ризик неідентифікації проблемних відповідей тестируваних – наприклад, відповідей, які є поза темою або плагіатом, і, як наслідок, можуть привести до зниження валідності та надійності. Використання людей-оцінювачів та автоматизованих систем оцінювання в поєднанні може бути найкращим способом оцінювання мови у високоризикових оцінюваннях на найближче майбутнє, особливо якщо оцінюється спонтанна чи розмовна мова.

Написано: Кіланом Еваніні, Директором досліджень мови, ETS та Клаусом Зехнером, Старшим науковим співробітником, Мова, ETS

ETS працює з освітніми закладами, підприємствами та урядами для проведення досліджень та розробки програм оцінювання, які забезпечують важливу інформацію, на яку вони можуть покластися для оцінювання людей та програм. ETS розробляє, адмініструє та оцінює понад 50 мільйонів тестів щорічно у понад 180 країнах та понад 9 000 місцях по всьому світу. Ми проектуємо наші оцінювання з лідерством галузі, суворими дослідженнями та непохитною відданістю якості, щоб допомогти освітнім та робочим спільнотам приймати обґрунтовані рішення. Для отримання більшої інформації відвідайте ETS.

Keelan Evanini

Директор відділу дослідження мови в дослідженні та розробці в Educational Testing Service (ETS).

Klaus Zechner

Managing Senior Research Scientist, Speech, in Research and Development at Educational Testing Service
(ETS).

Unite.AI

Майбутнє оцінювання мови – лідери думок

You may like