Свяжитесь с нами:

За пределами контрольных показателей: почему оценка ИИ нуждается в проверке в реальных условиях

Искусственный интеллект

За пределами контрольных показателей: почему оценка ИИ нуждается в проверке в реальных условиях

mm

Если вы следите за ИИ в последнее время, вы, вероятно, видели заголовки, сообщающие о прорывных достижениях моделей ИИ, достигающих рекордов. От задач распознавания изображений ImageNet до достижения сверхчеловеческих результатов в переводе и диагностике медицинских изображений, бенчмарки долгое время были золотым стандартом для измерения производительности ИИ. Однако, какими бы впечатляющими ни были эти цифры, они не всегда отражают сложность реальных приложений. Модель, которая безупречно работает на бенчмарке, все равно может не соответствовать требованиям при тестировании в реальных условиях. В этой статье мы углубимся в то, почему традиционные бенчмарки не отражают истинную ценность ИИ, и рассмотрим альтернативные методы оценки, которые лучше отражают динамические, этические и практические проблемы развертывания ИИ в реальном мире.

Привлекательность бенчмарков

В течение многих лет бенчмарки были основой оценки ИИ. Они предлагают статические наборы данных, предназначенные для измерения конкретных задач, таких как распознавание объектов или машинный перевод. IMAGEnet, например, является широко используемым эталоном для тестирования классификации объектов, в то время как СИНИЙ и RED Оцените качество машинного текста, сравнивая его с текстами, написанными человеком. Эти стандартизированные тесты позволяют исследователям сравнивать прогресс и создавать здоровую конкуренцию в этой области. Контрольные показатели сыграли ключевую роль в продвижении основных достижений в этой области. Например, конкурс ImageNet играл сыграл решающую роль в революции глубокого обучения, продемонстрировав значительное повышение точности.

Однако бенчмарки часто упрощают реальность. Поскольку модели ИИ обычно обучаются для улучшения одной четко определенной задачи в фиксированных условиях, это может привести к чрезмерной оптимизации. Чтобы достичь высоких результатов, модели могут полагаться на шаблоны наборов данных, которые не выдерживают бенчмарка. Известный пример это модель зрения, обученная отличать волков от хаски. Вместо того, чтобы изучать отличительные черты животных, модель полагалась на наличие снежных фонов, обычно связанных с волками в обучающих данных. В результате, когда модели был представлен хаски на снегу, она уверенно ошибочно маркировала его как волка. Это демонстрирует, как переобучение эталону может привести к ошибочным моделям. Как Закон Гудхарта гласит: «Когда мера становится целью, она перестает быть хорошей мерой». Таким образом, когда контрольные показатели становятся целью, модели ИИ иллюстрируют закон Гудхарта: они показывают впечатляющие результаты в таблицах лидеров, но испытывают трудности в решении реальных задач.

Человеческие ожидания против метрических оценок

Одним из самых больших ограничений бенчмарков является то, что они часто не отражают то, что действительно важно для людей. Рассмотрим машинный перевод. Модель может получить хорошие баллы по метрике BLEU, которая измеряет совпадение между машинными переводами и справочными переводами. Хотя метрика может оценить, насколько правдоподобен перевод с точки зрения совпадения на уровне слов, она не учитывает беглость или значение. Перевод может получить плохие баллы, несмотря на то, что он более естественный или даже более точный, просто потому, что в нем использовались другие формулировки, чем в справочном тексте. Однако пользователи-люди заботятся о смысле и беглости переводов, а не только о точном совпадении со справочным текстом. Та же проблема касается и реферирования текста: высокий балл ROUGE не гарантирует, что реферирование будет последовательным или будет отражать ключевые моменты, которые ожидает читатель-человек.

Для генеративных моделей ИИ проблема становится еще более сложной. Например, большие языковые модели (LLM) обычно оцениваются на бенчмарке ММЛУ для проверки их способности отвечать на вопросы в различных областях. Хотя этот бенчмарк может помочь проверить производительность LLM для ответов на вопросы, он не гарантирует надежности. Эти модели все еще могут «галлюцинировать», представляющие ложные, но правдоподобно звучащие факты. Этот разрыв нелегко обнаружить с помощью бенчмарков, которые фокусируются на правильных ответах без оценки правдивости, контекста или связности. В одном широко разрекламированном , признали, помощник ИИ, используемый для составления юридического резюме, ссылался на полностью фиктивные судебные дела. ИИ может выглядеть убедительно на бумаге, но не оправдал базовых человеческих ожиданий правдивости.

Проблемы статических бенчмарков в динамических контекстах

  • Адаптация к изменяющимся условиям

Статические бенчмарки оценивают производительность ИИ в контролируемых условиях, но реальные сценарии непредсказуемы. Например, разговорный ИИ может преуспеть в заданных одношаговых вопросах в бенчмарке, но испытывать трудности в многошаговом диалоге, который включает в себя последующие действия, сленг или опечатки. Аналогично, беспилотные автомобили часто хорошо показывают себя в тестах на обнаружение объектов в идеальных условиях, но неудача в необычных обстоятельствах, таких как плохое освещение, неблагоприятные погодные условия или неожиданные препятствия. Например, знак «стоп», измененный наклейками, может спутать система зрения автомобиля, что приводит к неправильной интерпретации. Эти примеры подчеркивают, что статические бенчмарки не позволяют надежно измерять сложность реального мира.

  • Этические и социальные соображения

Традиционные бенчмарки часто не в состоянии оценить этические показатели ИИ. Модель распознавания изображений может достичь высокой точности, но неправильно идентифицировать лиц из определенных этнических групп из-за предвзятых данных обучения. Аналогично, языковые модели могут хорошо оцениваться по грамматике и беглости, создавая предвзятый или вредный контент. Эти проблемы, которые не отражаются в контрольных показателях, имеют существенные последствия в реальных приложениях.

  • Неспособность уловить нюансы

Бенчмарки отлично подходят для проверки навыков поверхностного уровня, например, может ли модель генерировать грамматически правильный текст или реалистичное изображение. Но они часто сталкиваются с более глубокими качествами, такими как здравый смысл или контекстная уместность. Например, модель может преуспеть в бенчмарке, создав идеальное предложение, но если это предложение фактически неверно, оно бесполезно. ИИ должен понимать когда и это сказать что-то, а не просто почему сказать. Тесты редко проверяют этот уровень интеллекта, который имеет решающее значение для таких приложений, как чат-боты или создание контента.

  • Контекстная адаптация

Модели ИИ часто испытывают трудности с адаптацией к новым контекстам, особенно при столкновении с данными за пределами их обучающего набора. Тесты обычно разрабатываются с использованием данных, похожих на те, на которых обучалась модель. Это означает, что они не полностью проверяют, насколько хорошо модель может обрабатывать новые или неожиданные входные данные — критическое требование в реальных приложениях. Например, чат-бот может превзойти результаты по вопросам, прошедшим проверку, но испытывать трудности, когда пользователи задают нерелевантные вещи, например, сленг или узкоспециализированные темы.

  • Рассуждения и выводы

Хотя бенчмарки могут измерять распознавание образов или генерацию контента, они часто не дотягивают до рассуждений и выводов более высокого уровня. ИИ должен делать больше, чем просто имитировать образы. Он должен понимать последствия, устанавливать логические связи и выводить новую информацию. Например, модель может генерировать фактически правильный ответ, но не может логически связать его с более широким разговором. Текущие бенчмарки могут не полностью охватывать эти продвинутые когнитивные навыки, оставляя нас с неполным представлением о возможностях ИИ.

За пределами эталонных показателей: новый подход к оценке ИИ

Чтобы сократить разрыв между производительностью эталона и реальным успехом, появляется новый подход к оценке ИИ. Вот некоторые стратегии, набирающие обороты:

  • Обратная связь от человека, находящегося в центре внимания: Вместо того, чтобы полагаться исключительно на автоматизированные метрики, привлекайте к процессу оценщиков-людей. Это может означать, что эксперты или конечные пользователи будут оценивать результаты ИИ на предмет качества, полезности и уместности. Люди могут лучше оценивать такие аспекты, как тон, релевантность и этические соображения по сравнению с контрольными показателями.
  • Тестирование развертывания в реальных условиях: Системы ИИ должны тестироваться в условиях, максимально приближенных к реальным. Например, беспилотные автомобили могут проходить испытания на смоделированных дорогах с непредсказуемыми сценариями движения, в то время как чат-боты могут быть развернуты в реальных условиях для обработки разнообразных разговоров. Это гарантирует, что модели будут оцениваться в условиях, с которыми им придется столкнуться на самом деле.
  • Надежность и стресс-тестирование: Крайне важно тестировать системы ИИ в необычных или враждебных условиях. Это может включать тестирование модели распознавания изображений с искаженными или зашумленными изображениями или оценку языковой модели с длинными сложными диалогами. Понимая, как ИИ ведет себя в условиях стресса, мы можем лучше подготовить его к реальным вызовам.
  • Метрики многомерной оценки: Вместо того, чтобы полагаться на один бенчмарк, оцените ИИ по ряду показателей, включая точность, справедливость, надежность и этические соображения. Этот целостный подход обеспечивает более полное понимание сильных и слабых сторон модели ИИ.
  • Тесты, специфичные для домена: Оценка должна быть адаптирована к конкретной области, в которой будет использоваться ИИ. Например, медицинский ИИ должен быть протестирован на тематических исследованиях, разработанных медицинскими специалистами, в то время как ИИ для финансовых рынков должен быть оценен на предмет его стабильности во время экономических колебаний.

Выводы

Хотя бенчмарки и продвинули исследования ИИ, они не в состоянии охватить реальные показатели. Поскольку ИИ переходит из лабораторий в практическое применение, оценка ИИ должна быть ориентированной на человека и целостной. Тестирование в реальных условиях, включение человеческой обратной связи и приоритет справедливости и надежности имеют решающее значение. Цель состоит не в том, чтобы занять лидирующие позиции в таблицах лидеров, а в том, чтобы разработать ИИ, который будет надежным, адаптивным и ценным в динамичном, сложном мире.

Доктор Техсин Зия — штатный доцент Университета COMSATS в Исламабаде, имеет докторскую степень в области искусственного интеллекта, полученную в Венском технологическом университете, Австрия. Специализируясь на искусственном интеллекте, машинном обучении, науке о данных и компьютерном зрении, он внес значительный вклад, публикуя публикации в авторитетных научных журналах. Доктор Техсин также руководил различными промышленными проектами в качестве главного исследователя и консультанта по искусственному интеллекту.