Искусственный интеллект

Устойчивость > Точность: Почему «устойчивость модели» должна быть истинной метрикой для операционализации моделей

Published October 12, 2020

Updated April 28, 2026

Ingo Mierswa, PhD

От Ingo Mierswa, Основатель, Президент и Главный Ученый-дата в RapidMiner.

Данные науки сделали некоторый хороший прогресс в последние несколько лет, и многие организации используют передовые анализ или модели машинного обучения, чтобы получить более глубокие знания о процессах и, в некоторых случаях, даже предсказать вероятные результаты для будущего. Для других «наук» часто неясно, будет ли проект успешным или нет, и были сообщения о том, что до 87% проектов по науке о данных никогда не доходят до производства. Хотя ожидать 100% успеха нельзя, есть некоторые закономерности в проектах по науке о данных, которые приводят к более высоким показателям успеха, чем должно быть приемлемо в этой области. Эти проблемные закономерности, кажется, существуют независимо от любой конкретной отрасли или использования, что предполагает, что существует универсальная проблема в науке о данных, которую необходимо решить.

Измерение успеха машинного обучения

Ученые-дата, которые создают модели машинного обучения (ML), полагаются на хорошо определенные математические критерии для измерения того, насколько хорошо такие модели работают. Какой из этих критериев применяется, зависит в основном от типа модели. Допустим, модель должна предсказывать классы или категории для новых ситуаций — например, будет ли клиент отказываться или нет. В таких ситуациях ученые-дата используют измерения, такие как точность (насколько часто модель правильна) или точность (насколько часто клиенты действительно отказываются, если мы предсказываем отказ).

Ученые-дата нуждаются в объективных критериях, таких как этот, потому что часть их работы заключается в оптимизации этих оценочных критериев для получения лучшей модели. На самом деле, кроме подготовки данных для моделирования, построение и настройка этих моделей — это где ученые-дата тратят большую часть своего времени.

Недостатком этого является то, что ученые-дата не сосредотачиваются на том, чтобы поставить эти модели в производство, что является проблемой по нескольким причинам. Прежде всего, модели, которые не дают успешных результатов, не могут быть использованы для генерации бизнес-воздействия для организаций, которые их развертывают. Во-вторых, поскольку эти организации потратили время и деньги на разработку, обучение и операционализацию моделей, которые не дали успешных результатов при запуске против «реальных» данных, они, скорее всего, будут считать ML и другие инструменты науки о данных бесполезными для своей организации и откажутся от продвижения будущих инициатив по науке о данных.

Правда в том, что ученые-дата просто любят настраивать модели и тратят на это много времени. Но без бизнес-воздействия это время не тратится мудро, что особенно болезненно, учитывая, насколько редким ресурсом являются ученые-дата в сегодняшнем мире.

Приз Netflix и производственная неудача

Мы видели это явление переинвестирования в построение моделей и не в операционализацию моделей в последние годы. Приз Netflix был открытым соревнованием за лучший алгоритм совместной фильтрации для предсказания рейтингов пользователей фильмов. Если вы дадите новому фильму высокий рейтинг, вы, скорее всего, наслаждались этим фильмом — поэтому, используя эту систему рейтингов, Netflix будет рекомендовать вам определенные названия, и если вы наслаждаетесь рекомендуемым контентом, вы, скорее всего, останетесь клиентом Netflix longer. Гран-при был суммой 1 миллиона долларов США, вручаемой команде, которая смогла улучшить алгоритм Netflix как минимум на 10%.

Соревнование началось в 2006 году, и за следующие три года вклад более 40 000 команд ученых-дата по всему миру привел к впечатляющему улучшению более чем на 10% успеха рекомендации названий. Однако модели победившей команды никогда не были операционализированы. Netflix сказал, что «увеличение точности не казалось оправданным усилиями, необходимыми для того, чтобы эти модели были поставлены в производство».

Почему оптимально не всегда оптимально

Точность модели и другие критерии науки о данных давно используются в качестве метрики для измерения успеха модели перед ее постановкой в производство. Как мы видели, многие модели даже не доходят до этой стадии — что является расточительством ресурсов, как в плане энергии, так и в плане потраченного времени.

Но есть больше проблем с этой культурой переинвестирования в настройку моделей. Первая — непреднамеренное переобучение на тестовых данных, что приведет к моделям, которые выглядят хорошо для управляющего ученого-дата, но фактически работают хуже, когда находятся в производстве — иногда даже причиняя вред. Это происходит по двум причинам:

Существует хорошо известное расхождение между ошибкой тестирования и той, которую вы увидите в производстве
Бизнес-воздействие и критерии производительности науки о данных часто коррелируют, но «оптимальные» модели не всегда дают наибольшее воздействие

Первая причина также называется «переобучение на тестовом наборе». Это хорошо известное явление, особенно среди участников соревнований по науке о данных, таких как те, что проводятся Kaggle. Для этих соревнований вы можете увидеть более сильную версию этого явления уже между публичной и частной досками лидеров. На самом деле, участник мог выиграть публичную доску лидеров в соревновании Kaggle, не читая данные. Аналогично, победитель частной доски лидеров и общего соревнования может не произвести модель, которая сможет поддерживать свою производительность на любом другом наборе данных, кроме того, на котором она была оценена.

Точность не равна бизнес-воздействию

Слишком долго мы принимали эту практику, которая приводит к медленной адаптации моделей к тестовым наборам данных. В результате то, что выглядит как лучшая модель, оказывается посредственной в лучшем случае:

Измерения, такие как предсказательная точность, часто не равны бизнес-воздействию
Улучшение точности на 1% не может быть переведено в 1% лучшего бизнес-результата
Существуют случаи, когда модель с низкой производительностью превосходит другие модели по бизнес-воздействию
Другие факторы, такие как обслуживание, скорость оценки или устойчивость к изменениям во времени (называемая «устойчивостью»), также должны быть приняты во внимание.

Эта последняя точка особенно важна. Лучшие модели не только выигрывают соревнования или выглядят хорошо в лаборатории науки о данных, но также будут работать хорошо в производстве и показывать хорошую производительность на различных тестовых наборах. Эти модели — это то, что мы называем устойчивыми моделями.

Дрейф и важность устойчивости

Все модели ухудшаются со временем. Единственный вопрос — как быстро это происходит и насколько хорошо модель все еще работает при измененных обстоятельствах. Причина этого ухудшения заключается в том, что мир не статичен. Следовательно, данные, на которые применяется модель, также меняются со временем. Если эти изменения происходят медленно, мы называем это «дрейфом понятий». Если изменения происходят внезапно, мы называем это «сдвигом понятий». Например, клиенты могут менять свое потребительское поведение медленно со временем, под влиянием тенденций и/или маркетинга. Модели склонности могут больше не работать в определенный момент. Эти изменения могут быть резко ускорены в определенных ситуациях. COVID-19, например, привел к продаже товаров, таких как туалетная бумага и дезинфицирующие средства — неожиданному резкому увеличению определенных продуктов, что может полностью сбить с толку такую модель.

Устойчивая модель может не быть лучшей моделью на основе измерений, таких как точность или точность, но будет работать хорошо на более широком наборе данных. По этой причине она также будет работать лучше в течение более длительного периода времени и, следовательно, будет лучше способна обеспечить устойчивое бизнес-воздействие.

Линейные и другие типы простых моделей часто более устойчивы, потому что их труднее переобучить на конкретный тестовый набор или момент времени. Более мощные модели можно и должны использовать в качестве «претендентов» для более простой модели, позволяя ученым-дата увидеть, сможет ли она также поддерживать свою производительность со временем. Но это должно быть использовано в конце пути моделирования, а не в начале.

Хотя формальный KPI для измерения устойчивости еще не был введен в область науки о данных, есть несколько способов, которыми ученые-дата могут оценить, насколько устойчивы их модели:

Меньшие стандартные отклонения в кросс-валидации означают, что производительность модели зависела меньше от конкретики различных тестовых наборов
Даже если ученые-дата не выполняют полную кросс-валидацию, они могут использовать два разных набора данных для тестов и валидации. Меньшая расхождение между скоростями ошибок для тестовых и валидационных наборов данных указывает на более высокую устойчивость
Если модель правильно отслеживается в производстве, скорости ошибок можно увидеть со временем. Последовательность скоростей ошибок со временем является хорошим знаком для устойчивости модели.
Если решение для мониторинга модели учитывает дрейф, ученые-дата также должны обратить внимание на то, насколько хорошо модель пострадала от этого входного дрейфа.

Изменение культуры науки о данных

После того, как модель была развернута на стадии операционализации, все еще существуют угрозы точности модели. Две последние точки выше, касающиеся устойчивости модели, уже требуют правильного мониторинга моделей в производстве. Как начало изменения культуры в науке о данных, компании хорошо посоветуют инвестировать в правильный мониторинг моделей и начать привлекать ученых-дата к ответственности за отсутствие производительности после того, как модели были поставлены в производство. Это сразу же изменит культуру с культуры построения моделей на культуру создания и поддержания ценности для области науки о данных.

Как недавние мировые события показали нам, мир меняется быстро. Теперь, более чем когда-либо, нам нужно строить устойчивые модели — не только точные — чтобы захватить значимое бизнес-воздействие со временем. Kaggle, например, проводит соревнование, чтобы сплотить ученых-дата по всему миру и помочь построить решения моделей для использования в глобальной борьбе с COVID-19. Я предвижу, что наиболее успешные модели, произведенные в результате этого соревнования, будут наиболее устойчивыми, а не наиболее точными, как мы видели, насколько быстро данные COVID-19 могут измениться за один день.

Наука о данных должна быть о нахождении истины, а не о производстве «лучшей» модели. Привлекая себя к более высокому стандарту устойчивости над точностью, ученые-дата смогут обеспечить более большое бизнес-воздействие для наших организаций и помочь положительно сформировать будущее.

Ingo Mierswa, PhD

Ingo Mierswa является ветераном отрасли в области науки о данных с момента начала разработки RapidMiner в отделении искусственного интеллекта Университета ТУ Дортмунд в Германии. Mierswa, ученый, является автором многочисленных награжденных публикаций о прогнозирующей аналитике и больших данных. Mierswa, предприниматель, является основателем RapidMiner. Он отвечает за стратегические инновации и занимается всеми вопросами, связанными с технологиями RapidMiner. Под его руководством RapidMiner вырос на 300% в год в течение первых семи лет. В 2012 году он возглавил стратегию международного развития с открытием офисов в США, а также в Великобритании и Венгрии. После двух раундов сбора средств, приобретения Radoop и поддержки позиционирования RapidMiner с ведущими аналитическими фирмами, такими как Gartner и Forrester, Ingo гордится тем, что привлекает лучшую команду в RapidMiner.