заглушки Нитин Маднани, старший научный сотрудник ETS — серия интервью — Unite.AI
Свяжитесь с нами:

Интервью

Нитин Маднани, старший научный сотрудник ETS – серия интервью

mm
обновленный on

Нитин Маднан — старший научный сотрудник исследовательской группы обработки естественного языка (НЛП) в Служба образовательного тестирования (ЭТС). ETS была основана в 1947 году и является крупнейшей в мире частной некоммерческой образовательной организацией по тестированию и оценке.

Не могли бы вы начать с объяснения, в чем заключается миссия ETS?

Миссия ETS заключается в повышении качества и справедливости в образовании для всех учащихся во всем мире. Эта миссия лежит в основе наших продуктов, услуг, исследований и разработок с целью содействия обучению, поддержки образования, профессионального развития и измерения знаний и навыков для всех.

Мы считаем, что любой человек в любом месте может изменить свою жизнь к лучшему посредством обучения, и работа ETS по исследованиям, оценке, измерению и политике может сыграть важную роль в обеспечении возможности такого обучения.

Что такого в НЛП, что вас так увлекло?

Все человеческие языки так красиво сложны и беспорядочны. Они позволяют нам выражать целый ряд эмоций в нашей речи и даже в письме, и со временем они развиваются. С другой стороны, компьютер настолько детерминист и педантичен в обработке своих входных данных. Обработка естественного языка (NLP) — это область искусственного интеллекта, которая пытается заставить это в высшей степени нечеловеческое устройство понимать прекрасные сложности человеческого языка, комбинируя методы компьютерных наук, лингвистики и статистики. Как вы могли не найти это увлекательным?

ETS NLP и специалисты по речи недавно разработали RSMTool. Не могли бы вы поделиться с нами тем, что делает RSMTool?

Как мы видели за последние несколько лет, все модели машинного обучения потенциально могут демонстрировать предвзятое поведение независимо от области, в которой они применяются, и образование не является исключением. Автоматизированные системы выставления оценок, используемые для присвоения баллов или оценок за речь или эссе учащихся на тестах или в классах, часто используют модели машинного обучения. Поэтому вполне возможно, что такие системы будут вести себя предвзято. Такая предвзятость может иметь серьезные последствия, особенно если результаты таких систем используются для принятия важных решений.

РСМИнструмент это инструмент с открытым исходным кодом, который мой коллега Анастасия Лукина (ранее СПЕЦЦЕНА на Unite.AI) и я разработали в ETS, чтобы гарантировать, что любые систематические, вредные предубеждения в автоматизированных системах оценивания выявляются как можно раньше, надеюсь, даже до того, как системы будут развернуты в реальном мире. RSMTool предназначен для всесторонней оценки механизмов оценки ИИ, включая не только стандартные метрики точности прогнозирования, но также меры справедливости модели и метрики, основанные на теории тестирования, помогая разработчикам таких движков выявлять возможные предубеждения или другие проблемы в их системах.

Откуда взялось название RSMTool?

В сфере образовательной оценки того, кто выставляет оценку (или «оценивает») эссе, часто называют «оценщиком». Существуют оценщики-люди, а также автоматические оценщики. RSMTool — сокращение от Rater Scoring Modeling Tool — предназначен для создания (и оценки) моделей оценки, используемых автоматическими оценщиками.

Как этот инструмент может помочь разработчикам выявить возможную предвзятость или другие проблемы в их механизмах оценки ИИ?

За последние пять десятилетий специалисты по образовательным измерениям, в том числе многие из наших коллег из ETS, провели ценные исследования того, что делает автоматизированную (и человеческую) оценку справедливой. В рамках этого исследования они разработали множество статистических и психометрических анализов для расчета показателей систематической предвзятости. Однако, поскольку психометрические сообщества и сообщества НЛП редко взаимодействуют друг с другом, возможности для перекрестного опыления идей невелики. В результате исследователи и разработчики НЛП, которые создают настоящие автоматизированные системы оценки, особенно отдельные исследователи и те, кто работает в небольших компаниях, не имеют легкого доступа к психометрическим анализам, которые они должны использовать для проверки своих систем на предвзятость. RSMTool пытается решить эту проблему, предоставляя большой и разнообразный набор психометрических анализов в едином, простом в использовании пакете Python, который может быть легко включен любым исследователем НЛП в свои исследовательские или рабочие процессы.

В типичном случае использования исследователь предоставляет в качестве входных данных файл или фрейм данных с оценками числовой системы, золотыми стандартными (человеческими) оценками и метаданными, если это применимо. RSMTool обрабатывает эти данные и создает отчет в формате HTML, содержащий всестороннюю оценку, включая описательную статистику, а также множество показателей производительности и справедливости системы, среди прочего. Образец отчета RSMTool можно найти по адресу https://bit.ly/fair-tool. RSMTool может работать с традиционными моделями машинного обучения, основанными на функциях (например, из библиотеки scikit-learn), и с моделями глубокого обучения. Хотя основным выходом RSMTool является отчет в формате HTML, который облегчает совместное использование, он также создает файлы табличных данных (в форматах CSV, TSV или XLSX) в качестве промежуточных выходных данных для более опытных пользователей. И, наконец, чтобы обеспечить максимально индивидуальную настройку, RSMTool реализует каждый раздел своего отчета в виде блокнота Jupyter, чтобы пользователи могли не только выбирать, какие разделы относятся к их конкретным моделям оценки, но и легко выполнять настраиваемый анализ и включать их в отчет. с очень небольшим количеством работы.

Существуют многих последний исследования по автоматизированному скорингу, которые использовали RSMTool для оценки предложенных моделей скоринга.

Каковы распространенные типы предвзятости, которые могут повлиять на автоматизированные системы подсчета очков?

Наиболее распространенным типом смещения, влияющим на автоматизированную систему подсчета очков, является дифференциальная производительность подгрупп, т. е. когда автоматизированная система работает по-разному для разных подгрупп населения. Например, предвзятая система оценки может давать систематически более низкие оценки за эссе, написанные, например, чернокожими женщинами, по сравнению с оценками для белых мужчин, даже если не будет систематических различий в фактических навыках письма, демонстрируемых этими двумя подгруппами в их эссе, что касается человека.

ETS имеет богатую историю проведения исследований справедливости для автоматизированных систем подсчета очков. Например, у нас есть посмотрела на демонстрирует ли e-rater® — наш автоматизированный механизм подсчета очков — какие-либо различия в производительности для подгрупп, определенных по этническому происхождению, полу и стране (они обнаружили некоторые незначительные различия, которые были устранены последующими изменениями политики). Исследования также посмотрела на обрабатывает ли e-rater® ответы, написанные тестируемыми GRE® с нарушениями обучаемости и/или СДВГ, в среднем систематически по-разному (это не так). Совсем недавно своевременное изучение проверяет, проявляет ли автоматизированная система оценки разговорной речи какую-либо систематическую предвзятость в отношении испытуемых, которые должны были носить маски, по сравнению с теми, кто не носил маски (это не так). RSMTool содержит несколько психометрических анализов, которые пытаются количественно оценить дифференциальную производительность подгрупп по подгруппам, которые пользователь может определить по своим собственным данным.

ETS решила сделать RSMTool открытым исходным кодом, не могли бы вы объяснить причину и важность этого?

Да, RSMTool доступен на GitHub с лицензией Apache 2.0. Мы считаем важным, чтобы такой инструмент был с открытым исходным кодом и не являлся частной собственностью, чтобы сообщество могло (а) проверять исходный код уже доступных анализов, чтобы обеспечить их соответствие стандартам справедливости, и (б) вносить новые анализы. по мере развития и изменения стандарта. Мы также хотим облегчить исследователям и разработчикам НЛП использование RSMTool в своей работе и помочь нам сделать его лучше. Предоставление RSMTool с открытым исходным кодом является ярким примером постоянной приверженности ETS ответственному использованию ИИ в образовании.

Какие уроки вы извлекли из разработки и обслуживания RSMTool?

За последние пять лет, в течение которых мы с Анастасией разрабатывали и поддерживали RSMTool — с помощью многих коллег из ETS и участников GitHub, не входящих в ETS, — мы усвоили два важных урока. Во-первых, разные пользователи имеют разные потребности, и универсальный подход не будет работать для междисциплинарного программного обеспечения, такого как RSMTool. Второй урок, который мы усвоили, заключался в том, что для того, чтобы сделать программное обеспечение с открытым исходным кодом более вероятным, вы действительно должны сделать все возможное, чтобы сделать его максимально надежным.

За время работы в качестве сопровождающих RSMTool мы выявили множество типов пользователей RSMTool. Некоторые из них являются «опытными пользователями» (например, исследователями и разработчиками НЛП), которые хотят выбирать определенные функции RSMTool для включения в свой собственный конвейер машинного обучения, а также использовать другие пакеты Python. Чтобы удовлетворить таких пользователей, мы в конечном итоге создали довольно всеобъемлющий API для предоставления различных функций предварительной и последующей обработки, а также пользовательских показателей, содержащихся в RSMTool. Другая группа пользователей — это то, что мы называем «минималистами»: аналитики данных и инженеры, которым может не хватать статистического опыта или знаний в области программирования для взаимодействия с API, и вместо этого они предпочитают готовый конвейер. Чтобы удовлетворить таких пользователей, мы создали инструменты командной строки, которые можно легко вызывать, например, в сценариях оболочки-оболочки. Мы также обнаружили, что пользователи-минималисты часто не хотят читать (правда, большой) список опций конфигурации RSMTool. Поэтому мы создали интерактивный генератор конфигурации с автозаполнением, который может помочь таким пользователям создавать файлы конфигурации в соответствии с их конкретными потребностями.

Чтобы удовлетворить потребности всех наших групп пользователей, нам пришлось принять методы, которые, по нашему мнению, были необходимы для обеспечения надежности RSMTool. Что мы подразумеваем под надежным программным обеспечением? Чтобы быть надежной, любая часть программного обеспечения должна соответствовать следующим критериям: влияние любого изменения кода на его точность и производительность может быть измерено (хорошо протестировано), его документация всегда актуальна (хорошо документирована) и программное обеспечение (вместе со своими зависимостями) легко устанавливается пользователями. Для RSMTool мы использовали несколько инструментов и сервисов с открытым исходным кодом, чтобы он соответствовал нашему определению. У нас есть комплексный набор тестов (покрытие кода >90%), который мы автоматически запускаем посредством непрерывной интеграции для любых изменений, вносимых в код. Мы поддерживаем обширную документацию (включая несколько практических руководств) и любые новые функции, предлагаемые для RSMTool. должен включать компонент документации, который также проверяется в рамках проверки кода. Наконец, мы выпускаем RSMTool в виде пакетов, которые можно легко установить (через pip или conda), и все необходимые зависимости также устанавливаются автоматически.

Чего ETS надеется достичь, выпустив RSMTool?

В секторе образования за последние несколько лет произошло одно из самых значительных расширений ИИ, когда автоматическая оценка текста и речи становится все более распространенным приложением НЛП. ETS уже давно является лидером в области автоматизированного подсчета очков и с момента своего создания стремится создавать справедливые продукты и оценки, предназначенные для учащихся во всем мире. Выпустив RSMTool, разработанный в тесном сотрудничестве между учеными НЛП и специалистами по психометрии, ETS хочет продолжить свою пропаганду ответственного использования ИИ в образовании очень ощутимым образом; в частности, мы хотим прояснить, что, когда исследователи ИИ думают о «производительности» автоматизированной системы подсчета очков, они должны учитывать не только стандартные показатели точности предсказания (например, корреляцию Пирсона), но и показатели справедливости модели. В более широком смысле, мы также хотели бы, чтобы RSMTool служил примером того, как исследователи НЛП и специалисты по психометрии могут и должны работать вместе.

Есть ли что-нибудь еще, чем вы хотели бы поделиться о RSMTool?

Мы хотим призвать читателей помочь нам улучшить RSMTool! Им не нужно быть психометристом или экспертом НЛП, чтобы внести свой вклад. У нас есть много нерешенных вопросов, связанных с документацией и программированием на Python, которые идеально подходят для любого программиста Python от начинающего до среднего. Мы также приглашаем участников SKLL (лаборатория Scikit-Learn), — еще один пакет ETS с открытым исходным кодом для эффективного запуска настраиваемых пользователем пакетных экспериментов по машинному обучению, который используется в основе RSMTool.

Партнер-основатель unite.AI и член Технологический совет Форбс, Антуан - это футурист который увлечен будущим искусственного интеллекта и робототехники.

Он также является основателем Ценные бумаги.io, веб-сайт, посвященный инвестициям в прорывные технологии.