Connect with us

Анастассия Лукина, старший научный сотрудник (NLP/Speech) в ETS – Интервью-серия

Искусственный интеллект

Анастассия Лукина, старший научный сотрудник (NLP/Speech) в ETS – Интервью-серия

mm

Анастассия Лукина – исследовательский ученый в Educational Testing Services (ETS), где она работает над автоматизированной оценкой речи.

Ее исследовательские интересы охватывают широкий спектр тем. Она работала, среди прочего, над современными греческими диалектами, ритмом речи и автоматическим анализом просодии.

Ее текущая работа сосредоточена на объединении инструментов и методов из технологий речи и машинного обучения с идеями из исследований по восприятию и производству речи, чтобы создать автоматические модели оценки для оценки речи не-родных носителей.

Вы явно любите языки, что привело вас к этому увлечению?

Я выросла, говоря по-русски в Санкт-Петербурге, Россия, и помню, как меня увлекало, когда я впервые познакомилась с английским языком: для некоторых слов существовала закономерность, которая позволяла “превратить” русское слово в английское. И затем я сталкивалась с словом, где “моя” закономерность не работала, и я пыталась придумать лучшее, более общее правило. В то время, конечно, я ничего не знала о лингвистической типологии или различии между когнатами и заимствованными словами, но это разожгло мое любопытство и желание изучать больше языков. Эта страсть к выявлению закономерностей в том, как люди говорят, и проверке их на данных – это то, что привело меня к фонетике, машинному обучению и работе, которую я делаю сейчас.

До своей текущей работы в области обработки естественного языка (NLP) вы были переводчиком между английским-русским и современным греческим-русским. Считаете ли вы, что ваша работа в качестве переводчика дала вам дополнительные идеи о некоторых нюансах и проблемах, связанных с NLP?

Моя основная идентичность всегда была той, что я исследователь. Правда, что я начала свою академическую карьеру как ученый современного греческого языка, или, более конкретно, фонетики современного греческого языка. Для моей докторской диссертации я исследовала фонетические различия между несколькими диалектами современного греческого языка и то, как различия между этими диалектами могли быть связаны с историей региона. Я утверждала, что некоторые из этих различий между диалектами могли возникнуть в результате языкового контакта между каждым диалектом и другими языками, на которых говорили в регионе. Хотя я больше не работаю над современным греческим языком, изменения, которые происходят, когда два языка вступают в контакт друг с другом, по-прежнему являются центральной темой моей работы: только теперь я фокусируюсь на том, что происходит, когда человек учит новый язык и как технологии могут помочь сделать это наиболее эффективно.

Когда речь идет об английском языке, существует множество акцентов. Как вы проектируете NLP с возможностью понимать все разные диалекты? Это простой вопрос о том, чтобы подать глубокому алгоритму обучения дополнительные большие данные из каждого типа акцента?

Существует несколько подходов, которые использовались в прошлом, чтобы решить эту проблему. В дополнение к созданию одной большой модели, которая охватывает все акценты, вы можете сначала определить акцент, а затем использовать индивидуальную модель для этого акцента, или вы можете попробовать несколько моделей одновременно и выбрать ту, которая работает лучше всего. В конечном итоге, чтобы добиться хорошей производительности на широком диапазоне акцентов, вам нужны данные для обучения и оценки, представляющие многие акценты, с которыми может столкнуться система.

В ETS мы проводим комплексные оценки, чтобы убедиться, что оценки, произведенные нашими автоматизированными системами, отражают различия в фактических навыках, которые мы хотим измерить, и не зависят от демографических характеристик учащегося, таких как его пол, раса или страна происхождения.

Дети и/или языковые ученики часто испытывают трудности с идеальной произношением. Как вы преодолеваете проблему произношения?

Не существует такого понятия, как идеальное произношение: то, как мы говорим, тесно связано с нашей идентичностью, и как разработчики и исследователи, наша цель – убедиться, что наши системы справедливы для всех пользователей.

И дети, и языковые ученики представляют особые проблемы для систем, основанных на речи. Например, детские голоса не только имеют очень разное акустическое качество, но дети также говорят по-другому, чем взрослые, и существует много вариативности между детьми. В результате разработка автоматического распознавания речи для детей обычно является отдельной задачей, которая требует большого количества данных детской речи.

Аналогично, хотя между языковыми учениками из одной и той же среды существует много сходств, ученики могут сильно различаться в использовании фонетических, грамматических и лексических моделей, что делает распознавание речи особенно сложной задачей. При построении наших систем для оценки профессиональности английского языка мы используем данные от языковых учеников с широким диапазоном профессиональности и родных языков.

В январе 2018 года вы опубликовали ‘Использование образцовых ответов для обучения и оценки автоматических систем оценки речи‘. Какие основные прорывы и фундаментальные положения следует понять из этой статьи?

В этой статье мы рассмотрели, как качество данных для обучения и оценки влияет на производительность автоматических систем оценки.

Автоматические системы оценки, как и многие другие автоматические системы, обучаются на данных, которые были помечены для людей. В этом случае это оценки, присвоенные человеческими оценщиками. Человеческие оценщики не всегда соглашаются в оценках, которые они присваивают. Существует несколько разных стратегий, используемых в оценке, чтобы обеспечить, что окончательная оценка, сообщаемая тестируемому, остается высоко надежной, несмотря на вариативность человеческого согласия на уровне отдельного вопроса. Однако, поскольку автоматические системы оценки обычно обучаются с помощью оценок на уровне ответа, любые несоответствия в таких оценках из-за различных причин, упомянутых выше, могут негативно повлиять на систему.

У нас была возможность получить доступ к большому количеству данных с различным согласием между человеческими оценщиками и сравнить производительность системы в разных условиях. То, что мы обнаружили, заключается в том, что обучение системы на идеальных данных не улучшает ее производительность по сравнению с системой, обученной на данных с более шумными метками. Идеальные метки дают вам преимущество только тогда, когда размер вашего набора обучения очень мал. С другой стороны, качество человеческих меток оказало огромное влияние на оценку системы: ваши оценки производительности могут быть на 30% выше, если вы оцениваете их на чистых метках.

Основное послание заключается в том, что если у вас есть много данных и ресурсов, чтобы очистить ваши золотые стандартные метки, может быть умнее очистить метки в наборе оценки, а не метки в наборе обучения. И это открытие применимо не только к автоматической оценке, но и к многим другим областям.

Можете ли вы описать некоторые из своей работы в ETS?

Я работаю над системой оценки речи, которая обрабатывает устную речь в образовательном контексте. Одна из таких систем – SpeechRater®, которая использует передовые технологии распознавания и анализа речи для оценки и предоставления подробной обратной связи о профессиональности английского языка. SpeechRater – это очень зрелое приложение, которое существует более 10 лет. Я строю модели оценки для разных приложений и работаю с другими коллегами в ETS, чтобы убедиться, что наши оценки надежны, справедливы и действительны для всех тестируемых. Мы также работаем с другими группами в ETS, чтобы постоянно контролировать производительность системы.

В дополнение к поддержанию и улучшению наших операционных систем мы создаем прототипы новых систем. Одним из проектов, который меня очень интересует, является RelayReader™: приложение, предназначенное для того, чтобы помочь развивающимся читателям получить навыки и уверенность. Когда вы читаете с RelayReader, пользователь по очереди слушает и читает вслух книгу. Его чтение затем отправляется на наши серверы, чтобы предоставить обратную связь. В плане обработки речи основной задачей этого приложения является то, как измерить обучение и предоставить действенную и надежную обратную связь незаметно, не мешая вовлечению читателя в книгу.

Что вам нравится больше всего в работе с ETS?

То, что изначально привлекло меня в ETS, – это то, что это некоммерческая организация с миссией улучшить качество образования для всех людей во всем мире. Хотя, конечно, это здорово, когда исследования приводят к продукту, я ценю возможность работать над проектами, которые более фундаментальны по своей природе, но помогут в разработке продукта в будущем. Я также ценю тот факт, что ETS очень серьезно относится к вопросам, таким как конфиденциальность данных и справедливость, и все наши системы проходят очень строгую оценку перед развертыванием.

Но то, что действительно делает ETS отличным местом для работы, – это люди. У нас есть удивительное сообщество ученых, инженеров и разработчиков из многих разных слоев общества, что позволяет много интересных сотрудничеств.

Считаете ли вы, что ИИ когда-нибудь сможет пройти тест Тьюринга?

С 1950-х годов существует много интерпретаций того, как тест Тьюринга должен быть проведен на практике. Существует, вероятно, общее согласие с тем, что тест Тьюринга не был пройден в философском смысле, что нет системы ИИ, которая думает как человек. Однако это также стало очень нишевым предметом. Большинство людей не строят свои системы, чтобы пройти тест Тьюринга – мы хотим, чтобы они достигали конкретных целей.

Для некоторых из этих задач, например, распознавания речи или понимания естественного языка, человеческая производительность может быть справедливо рассмотрена как золотой стандарт. Но есть также многие другие задачи, где мы ожидаем, что автоматизированная система будет работать намного лучше, чем люди, или где автоматизированная система и человеческий эксперт должны работать вместе, чтобы достичь лучшего результата. Например, в образовательном контексте мы не хотим, чтобы система ИИ заменила учителя: мы хотим, чтобы она помогала учителям, будь то выявление закономерностей в траекториях обучения студентов, помощь в оценке или поиск лучших учебных материалов.

Есть ли что-то еще, что вы хотели бы поделиться об ETS или NLP?

Многие люди знают ETS за его оценки и автоматические системы оценки. Но мы делаем гораздо больше, чем это. У нас есть многие возможности, от биометрии голоса до приложений для диалоговой речи, и мы всегда ищем новые способы интеграции технологий в обучение. Теперь, когда многие студенты учатся дома, мы открыли несколько наших исследовательских возможностей для широкой общественности.

Спасибо за интервью и за предоставление этого взгляда на последние достижения в NLP и распознавании речи. Все, кто хочет узнать больше, могут посетить Educational Testing Services.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.