Штучний інтелект
Анастасія Луїкіна, Старший науковий співробітник (NLP/Speech) в ETS – Серія інтерв’ю

Анастасія Луїкіна – науковий співробітник в Educational Testing Services (ETS), де вона працює над автоматичним оцінюванням мови.
Її дослідницькі інтереси охоплюють широкий спектр тем. Вона працювала, серед іншого, над сучасними грецькими діалектами, ритмом мови та автоматичним аналізом просодії.
Її поточна робота зосереджена на поєднанні інструментів і методів зі сфери мовних технологій та машинного навчання з висновками зі студій про сприйняття та виробництво мови для створення автоматичних моделей оцінювання для оцінки мови нерідних мовців.
Ви явно маєте любов до мов, що ввело вас в цю пристрасть?
Я виросла, спілкуючись російською в Санкт-Петербурзі, Росія, і пам’ятаю, як мене зацікавило, коли я вперше познайомилася з англійською мовою: для деяких слів існувала певна закономірність, яка дозволяла “перетворити” російське слово на англійське. І тоді я натrafляла на слово, де “моя” закономірність не спрацьовувала, і намагалася придумати кращу, більш загальну правило. На той час, звичайно, я нічого не знала про лінгвістичну типологію чи різницю між когнатами та запозиченими словами, але це розбурхало мою цікавість і бажання вивчити більше мов. Ця пристрасть до виявлення закономірностей у тому, як люди говорять, і перевірки їх на даних – це те, що привело мене до фонетики, машинного навчання та роботи, яку я зараз роблю.
До вашої поточної роботи в галузі природної мови (NLP) ви були перекладачем між англійською-російською та сучасною грецькою-російською. Ви вважаєте, що ваша робота як перекладача дала вам додаткові знання про деякі нюанси та проблеми, пов’язані з NLP?
Моя основна ідентичність завжди була ідентичністю дослідника. Це правда, що я почала свою академічну кар’єру як вчений сучасної грецької мови, або, більш конкретно, фонетики сучасної грецької мови. Для моєї докторської роботи я досліджувала фонетичні відмінності між декількома сучасними грецькими діалектами та тим, як відмінності між цими діалектами могли бути пов’язані з історією регіону. Я стверджувала, що деякі з цих відмінностей могли виникнути в результаті мовного контакту між кожним діалектом та іншими мовами, які говорили в цьому регіоні. Хоча я більше не працюю над сучасною грецькою, зміни, які відбуваються, коли дві мови вступають у контакт, все ще є у центрі моєї роботи: тільки цього разу я зосереджуюся на тому, що відбувається, коли людина вивчає нову мову, та на тому, як технології можуть допомогти зробити це найбільш ефективно.
Когда мова йде про англійську мову, існує величезна кількість акцентів. Як ви проектуєте NLP з можливістю розуміти всі різні діалекти? Чи це проста справа – надати глибинному алгоритму додаткові великі дані з кожного типу акценту?
Існує кілька підходів, які використовувалися в минулому для вирішення цієї проблеми. Окрім створення однієї великої моделі, яка охоплює всі акценти, ви можете спочатку визначити акцент, а потім використовувати спеціальну модель для цього акценту, або ви можете спробувати декілька моделей одночасно та вибрати ту, яка працює найкраще. В кінцевому підсумку, щоб досягти хорошої продуктивності на широкому спектрі акцентів, вам потрібно мати навчальні та оціночні дані, які представляють багато акцентів, з якими система може зустрітися.
В ETS ми проводимо комплексні оцінки, щоб забезпечити те, що оцінки, вироблені нашими автоматичними системами, відображають відмінності в фактичних навичках, які ми хочемо виміряти, та не залежать від демографічних характеристик учнів, таких як їх стать, раса чи країна походження.
Діти та/або мовні учні часто мають труднощі з ідеальною вимовою. Як ви подолаєте проблему вимови?
Не існує такого поняття, як ідеальна вимова: те, як ми говоримо, тісно пов’язано з нашою ідентичністю, а наша мета як розробників та дослідників полягає в тому, щоб забезпечити справедливість наших систем для всіх користувачів.
І діти, і мовні учні представляють особливі виклики для систем, заснованих на мовленні. Наприклад, дитячий голос не тільки має зовсім іншу акустичну якість, але діти також говорять інакше, ніж дорослі, та існує велика різноманітність між дітьми. В результаті розробка автоматичного розпізнавання мови для дітей зазвичай є окремим завданням, яке вимагає великої кількості дитячих мовних даних.
Аналогічно, хоча існує багато подібностей між мовними учнями з однієї й тієї ж країни походження, учні можуть сильно відрізнятися у використанні фонетичних, граматичних та лексичних моделей, що робить розпізнавання мови особливо складним завданням. Коли ми будуємо наші системи для оцінювання англійської мови, ми використовуємо дані від мовних учнів з різними рівнями володіння та рідними мовами.
У січні 2018 року ви опублікували ‘Використання зразкових відповідей для навчання та оцінювання автоматичних систем оцінювання мови‘. Які деякі з основних проривів та фундаментальних знань, які слід зрозуміти з цієї статті?
У цій статті ми розглянули, як якість навчальних та тестових даних впливає на продуктивність автоматичних систем оцінювання.
Автоматичні системи оцінювання, як і багато інших автоматичних систем, тренуються на даних, які були позначені людьми. У цьому випадку ці дані представляють собою оцінки, призначені людськими оцінювачами. Людські оцінювачі не завжди погоджуються в оцінках, які вони призначують. Існує кілька різних стратегій, які використовуються в оцінюванні для забезпечення того, щоб остаточна оцінка, повідомлена тестируваному, залишалася дуже надійною, незважаючи на варіативність людської згоди на рівні окремого питання. Однак, оскільки автоматичні системи оцінювання зазвичай тренуються за допомогою оцінок на рівні відповідей, будь-які несумісності в таких оцінках через різні причини, перелічені вище, можуть негативно вплинути на систему.
Ми мали можливість отримати доступ до великої кількості даних з різною згодою між людьми-оцінювачами та порівняти продуктивність системи за різних умов. Що ми виявили, так це те, що тренування системи на ідеальних даних не фактично покращує її продуктивність над системою, тренованою на даних з більш шумними мітками. Ідеальні мітки дають вам перевагу тільки тоді, коли розмір вашого навчального набору дуже малий. З іншого боку, якість людських міток мала величезний вплив на оцінку системи: ваші оцінки продуктивності можуть бути на 30% вищими, якщо ви оцінюєте систему на чистих мітках.
Основний висновок полягає в тому, що якщо у вас багато даних та ресурсів для очищення ваших золотих стандартних міток, це може бути розумніше очистити мітки в наборі оцінювання, а не мітки в навчальному наборі. І це відкриття застосовується не тільки до автоматичного оцінювання, але й до багатьох інших галузей.
Чи можете ви описати деяку свою роботу в ETS?
Я працюю над системою оцінювання мови, яка обробляє усну мову в освітньому контексті. Однією з таких систем є SpeechRater®, яка використовує передові технології розпізнавання мови та аналізу для оцінювання та надання детальної зворотної зв’язки щодо англійської мови. SpeechRater – це дуже зріла aplicación, яка існує понад 10 років. Я створюю моделі оцінювання для різних застосунків та працюю з іншими колегами в ETS, щоб забезпечити те, що наші оцінки є надійними, справедливими та дійсними для всіх тестируваних. Ми також працюємо з іншими групами в ETS, щоб безперервно моніторити продуктивність системи.
Крім підтримки та поліпшення наших операційних систем, ми створюємо прототипи нових систем. Одним з проектів, над яким я дуже рада працювати, є RelayReader™: застосунок, призначений для того, щоб допомогти розвивати читачам здобувати витримку та впевненість. Коли ви читаєте з RelayReader, користувач чергується, слухаючи та читючи вголос книгу. Їхнє читання потім надсилається на наші сервери для надання зворотної зв’язки. Що стосується обробки мови, основною проблемою цього застосунку є те, як виміряти навчання та надавати дієву та надійну зворотню зв’язку непомітно, без втручання в зацікавленість читача книгою.
Яке ваше улюблене місце роботи в ETS?
То, що спочатку привернуло мене до ETS, полягає в тому, що це некомерційна організація з місією просування якості освіти для всіх людей у світі. Хоча, звичайно, добре, коли дослідження призводять до продукту, я ціную можливість працювати над проектами, які мають більш фундаментальний характер, але допоможуть у розробці продукту в майбутньому. Я також ціную той факт, що ETS дуже серйозно ставиться до питань, таких як захист даних та справедливість, та всі наші системи проходять дуже сувору оцінку перед тим, як бути розгорнутими оперативно.
Але те, що справді робить ETS чудовим місцем для роботи, – це люди. У нас є чудова спільнота вчених, інженерів та розробників з багатьох різних країн, що дозволяє здійснювати багато цікавих співробітництв.
Ви вважаєте, що штучний інтелект коли-небудь зможе пройти тест Тюрінга?
З 1950-х років існує багато різних інтерпретацій того, як тест Тюрінга повинен бути здійснений на практиці. Імовірно, існує загальна згода в тому, що тест Тюрінга не був пройдений у філософському сенсі, тобто немає системи штучного інтелекту, яка думає як людина. Однак це також стало дуже вузькою темою. Більшість людей не будують свої системи для проходження тесту Тюрінга – ми хочемо, щоб вони досягали конкретних цілей.
Для деяких з цих завдань, наприклад, розпізнавання мови або розуміння природної мови, людська продуктивність може бути справедливо розглянута як золотий стандарт. Однак існують також багато інших завдань, де ми очікуємо, що автоматична система буде працювати значно краще, ніж люди, або де автоматична система та людина-експерт повинні працювати разом, щоб досягти найкращого результату. Наприклад, в освітньому контексті ми не хочемо, щоб система штучного інтелекту замінила вчителя: ми хочемо, щоб вона допомогла вчителям, чи то шляхом виявлення закономірностей у навчанні учнів, допомоги в оцінюванні або пошуку найкращих навчальних матеріалів.
Чи є щось інше, що ви хотіли б поділитися про ETS чи NLP?
Багато людей знають ETS за його оцінки та автоматичні системи оцінювання. Але ми робимо значно більше. У нас є багато можливостей, від біометрії голосу до застосунків діалогового мовлення, та ми завжди шукаємо нові способи інтегрувати технології в навчання. Тепер, коли багато учнів вивчають вдома, ми відкрили деякі з наших дослідницьких можливостей для загальної публіки.
Дякую за інтерв’ю та за те, що надали цю інформацію про останні досягнення в галузі NLP та розпізнавання мови. Хто бажає дізнатися більше, може відвідати Educational Testing Services.












