Искусственный интеллект

LightAutoML: решение AutoML для крупной экосистемы финансовых услуг

опубликованный 11 июня 2024

Кунал Кеджривал

Хотя AutoML приобрел популярность несколько лет назад, ранняя работа над AutoML восходит к началу 90-х годов, когда ученые опубликовали первые статьи по оптимизации гиперпараметров. Именно в 2014 году, когда ICML организовал первый семинар AutoML, AutoML привлек внимание разработчиков ML. Одним из основных направлений за годы AutoML является задача поиска гиперпараметров, где модель реализует массив методов оптимизации для определения наиболее эффективных гиперпараметров в большом пространстве гиперпараметров для конкретной модели машинного обучения. Другой метод, обычно реализуемый моделями AutoML, заключается в оценке вероятности того, что конкретный гиперпараметр является оптимальным гиперпараметром для данной модели машинного обучения. Модель достигает этого путем реализации байесовских методов, которые традиционно используют исторические данные из ранее оцененных моделей и других наборов данных. В дополнение к оптимизации гиперпараметров, другие методы пытаются выбрать лучшие модели из пространства альтернатив моделирования.

В этой статье мы рассмотрим LightAutoML, систему AutoML, разработанную в первую очередь для европейской компании, работающей в финансовом секторе, а также ее экосистему. Платформа LightAutoML развертывается в различных приложениях, и результаты продемонстрировали превосходную производительность, сравнимую с уровнем специалистов по обработке данных, даже при построении высококачественных моделей машинного обучения. Платформа LightAutoML пытается внести следующий вклад. Во-первых, платформа LightAutoML была разработана в первую очередь для экосистемы крупного европейского финансового и банковского учреждения. Благодаря своей структуре и архитектуре платформа LightAutoML способна превосходить современные платформы AutoML в нескольких открытых тестах, а также в экосистемных приложениях. Производительность платформы LightAutoML также сравнивается с моделями, которые настраиваются вручную специалистами по данным, и результаты указывают на более высокую производительность платформы LightAutoML.

Целью этой статьи является более глубокое освещение фреймворка LightAutoML, и мы исследуем механизм, методологию, архитектуру фреймворка, а также его сравнение с современными фреймворками. Итак, давайте начнем.

LightAutoML: платформа AutoML для финансовых услуг

Хотя исследователи впервые начали работать над AutoML в середине и начале 90-х годов, AutoML привлек большую часть внимания в последние несколько лет, причем некоторые из известных промышленных решений, реализующих автоматически создаваемые модели машинного обучения, - это AutoGluon от Amazon, DarwinAI, H20.ai. , IBM Watson AI, Microsoft AzureML и многое другое. Большинство этих платформ реализуют решение AutoML общего назначения, которое автоматически разрабатывает модели на основе машинного обучения для различных классов приложений в сфере финансовых услуг, здравоохранения, образования и т. д. Ключевое предположение, лежащее в основе этого горизонтального общего подхода, заключается в том, что процесс разработки автоматических моделей остается идентичным для всех приложений. Однако платформа LightAutoML реализует вертикальный подход к разработке решения AutoML, которое не является универсальным, а скорее удовлетворяет потребности отдельных приложений, в данном случае крупного финансового учреждения. Платформа LightAutoML — это вертикальное решение AutoML, которое фокусируется на требованиях сложной экосистемы, а также на ее характеристиках. Во-первых, платформа LightAutoML обеспечивает быстрый и почти оптимальный поиск гиперпараметров. Хотя модель не оптимизирует эти гиперпараметры напрямую, ей удается обеспечить удовлетворительные результаты. Кроме того, модель сохраняет баланс между скоростью и динамической оптимизацией гиперпараметров, чтобы гарантировать, что модель оптимальна для небольших задач и достаточно быстра для более крупных. Во-вторых, платформа LightAutoML намеренно ограничивает диапазон моделей машинного обучения только двумя типами: линейными моделями и GBM или деревьями решений с градиентным усилением вместо реализации больших ансамблей различных алгоритмов. Основная причина ограничения диапазона моделей машинного обучения — ускорить время выполнения платформы LightAutoML без негативного влияния на производительность для данного типа задач и данных. В-третьих, платформа LightAutoML представляет собой уникальный метод выбора схем предварительной обработки для различных функций, используемых в моделях, на основе определенных правил выбора и метастатистики. Платформа LightAutoML оценивается на широком спектре открытых источников данных для широкого спектра приложений.

LightAutoML: методология и архитектура

Платформа LightAutoML состоит из модулей, известных как пресеты, которые предназначены для комплексной разработки моделей для типичных задач машинного обучения. В настоящее время платформа LightAutoML поддерживает предустановленные модули. Во-первых, предустановка TabularAutoML ориентирована на решение классических задач машинного обучения, определенных в наборах табличных данных. Во-вторых, предустановка белого ящика реализует простые интерпретируемые алгоритмы, такие как логистическая регрессия вместо кодирования WoE или веса доказательств, а также дискретные функции для решения задач двоичной классификации табличных данных. Реализация простых интерпретируемых алгоритмов является обычной практикой моделирования вероятности приложения из-за ограничений интерпретируемости, налагаемых различными факторами. В-третьих, предустановка NLP позволяет комбинировать табличные данные с NLP или Обработка естественного языка инструменты, включая предварительно обученные модели глубокого обучения и экстракторы конкретных функций. Наконец, предустановка CV работает с данными изображения с помощью некоторых основных инструментов. Важно отметить, что хотя модель LightAutoML поддерживает все четыре пресета, платформа использует TabularAutoML только в системе производственного уровня.

Типичный конвейер платформы LightAutoML показан на следующем изображении.

Каждый конвейер содержит три компонента. Во-первых, Reader — объект, который получает тип задачи и необработанные данные в качестве входных данных, выполняет важные вычисления метаданных, очищает исходные данные и определяет, какие манипуляции с данными необходимо выполнить перед подгонкой различных моделей. Далее, внутренние наборы данных LightAutoML содержат итераторы CV и метаданные, которые реализуют схемы проверки наборов данных. Третий компонент — это несколько конвейеров машинного обучения, объединенных и/или смешанных для получения единого прогноза. Конвейер машинного обучения в архитектуре платформы LightAutoML — это одна из нескольких моделей машинного обучения, которые используют единую схему проверки и предварительной обработки данных. Шаг предварительной обработки может включать до двух этапов выбора признаков, этап разработки признаков или может быть пустым, если предварительная обработка не требуется. Конвейеры ML могут рассчитываться независимо на одних и тех же наборах данных, а затем объединяться с помощью усреднения (или взвешенного усреднения). В качестве альтернативы можно использовать схему стекового ансамбля для построения многоуровневой ансамблевой архитектуры.

Табличная предустановка LightAutoML

В рамках LightAutoML TabularAutoML является конвейером по умолчанию и реализован в модели для решения трех типов задач с табличными данными: бинарная классификация, регрессия и многоклассовая классификация для широкого спектра показателей производительности и функций потерь. Таблица со следующими четырьмя столбцами: категориальные функции, числовые функции, временные метки и один целевой столбец с метками классов или непрерывным значением передается компоненту TabularAutoML в качестве входных данных. Одной из основных целей разработки платформы LightAutoML была разработка инструмента для быстрого тестирования гипотез. Это основная причина, по которой платформа избегает использования методов грубой силы для оптимизации конвейера и фокусируется только на методах и моделях эффективности, которые работают в различных средах. широкий спектр наборов данных.

Автоматический ввод и предварительная обработка данных

Чтобы обрабатывать разные типы функций по-разному, модель должна знать каждый тип функций. В ситуации, когда имеется одна задача с небольшим набором данных, пользователь может вручную указать каждый тип объекта. Однако указание каждого типа объектов вручную больше не является приемлемым вариантом в ситуациях, когда выполняются сотни задач с наборами данных, содержащими тысячи объектов. Для предустановки TabularAutoML платформа LightAutoML должна сопоставить функции с тремя классами: числовыми, категориями и датой и временем. Одним из простых и очевидных решений является использование типов данных массива столбцов в качестве фактических типов объектов, то есть сопоставлять столбцы с плавающей запятой/целыми числовыми объектами, меткой времени или строкой, которые можно анализировать как метку времени — с датой и временем, а другие — с категорией. Однако такое сопоставление не самое лучшее из-за частого появления числовых типов данных в столбцах категорий.

Схемы проверки

Схемы проверки являются жизненно важным компонентом инфраструктур AutoML, поскольку данные в отрасли могут меняться с течением времени, и этот элемент изменения делает предположения IID или независимого одинакового распределения неактуальными при разработке модели. В моделях AutoML используются схемы проверки для оценки их производительности, поиска гиперпараметров и генерации нестандартных прогнозов. Конвейер TabularAutoML реализует три схемы проверки:

Перекрестная проверка KFold: Перекрестная проверка KFold — это схема проверки по умолчанию для конвейера TabularAutoML, включая GroupKFold для поведенческих моделей и стратифицированный KFold для задач классификации.

Проверка удержания: Схема проверки удержания реализуется, если указан набор удержания.
Пользовательские схемы проверки: Пользовательские схемы проверки могут создаваться пользователями в зависимости от их индивидуальных требований. Пользовательские схемы проверки включают перекрестную проверку и схемы разделения временных рядов.

Выбор функций

Хотя выбор функций является важнейшим аспектом разработки моделей в соответствии с отраслевыми стандартами, поскольку он способствует снижению затрат на логические выводы и реализацию модели, большинство решений AutoML не уделяют особого внимания этой проблеме. Напротив, конвейер TabularAutoML реализует три стратегии выбора функций: отсутствие выбора, выбор с отсечкой важности и прямой выбор на основе важности. Из трех стратегий выбора функции выбора отсечения важности используется по умолчанию. Кроме того, существует два основных способа оценки важности функции: важность дерева на основе разделения и важность перестановки модели GBM или повышения градиента. деревья решений. Основная цель выбора порогового значения важности — отклонить функции, которые бесполезны для модели, позволяя модели сократить количество функций без негативного влияния на производительность — подход, который может ускорить вывод модели и ее обучение.

На изображении выше сравниваются различные стратегии выбора наборов данных бинарных банков.

Настройка гиперпараметра

Конвейер TabularAutoML реализует различные подходы к настройке гиперпараметров на основе того, что настраивается.

Ранняя остановка настройки гиперпараметра выбирает количество итераций для всех моделей на этапе обучения.
Настройка гиперпараметров экспертной системы это простой способ удовлетворительной установки гиперпараметров для моделей. Это предотвращает сильное снижение оценки окончательной модели по сравнению с жестко настроенными моделями.

Древовидная оценка Парзена или TPE для GBM или моделей дерева решений с градиентным усилением. TPE — это смешанная стратегия настройки, которая используется по умолчанию в конвейере LightAutoML. Для каждой платформы GMB платформа LightAutoML обучает две модели: первая получает экспертные гиперпараметры, вторая точно настраивается в соответствии с бюджетом времени.

Настройка гиперпараметров поиска по сетке реализован в конвейере TabularAutoML для точной настройки параметров регуляризации линейной модели наряду с ранней остановкой и горячим запуском.

Модель настраивает все параметры путем максимизации метрической функции, заданной пользователем или используемой по умолчанию для решаемой задачи.

LightAutoML: эксперимент и производительность

Для оценки производительности пресет TabularAutoML в рамках LightAutoML сравнивается с уже существующими решениями с открытым исходным кодом для различных задач и закрепляет превосходную производительность платформы LightAutoML. Сначала сравнение проводится с помощью теста OpenML, который оценивается на 35 наборах данных задач двоичной и многоклассовой классификации. В следующей таблице приведены результаты сравнения платформы LightAutoML с существующими системами AutoML.

Как видно, платформа LightAutoML превосходит все другие системы AutoML на 20 наборах данных в рамках теста. В следующей таблице приведено подробное сравнение в контексте набора данных, показывающее, что LightAutoML обеспечивает разную производительность при выполнении разных классов задач. Для задач двоичной классификации LightAutoML не хватает производительности, тогда как для задач с большим объемом данных платформа LightAutoML обеспечивает превосходную производительность.

В следующей таблице сравнивается производительность платформы LightAutoML с системами AutoML на 15 банковских наборах данных, содержащих набор различных задач двоичной классификации. Как можно заметить, LightAutoML превосходит все решения AutoML в 12 из 15 наборов данных, процент побед составляет 80.

Заключение

В этой статье мы говорили о LightAutoML, системе AutoML, разработанной в первую очередь для европейской компании, работающей в финансовом секторе, вместе с ее экосистемой. Платформа LightAutoML развертывается в различных приложениях, и результаты продемонстрировали превосходную производительность, сравнимую с уровнем специалистов по обработке данных, даже при построении высококачественных моделей машинного обучения. Платформа LightAutoML пытается внести следующий вклад. Во-первых, платформа LightAutoML была разработана в первую очередь для экосистемы крупного европейского финансового и банковского учреждения. Благодаря своей структуре и архитектуре платформа LightAutoML способна превосходить современные платформы AutoML в нескольких открытых тестах, а также в экосистемных приложениях. Производительность платформы LightAutoML также сравнивается с моделями, которые настраиваются вручную специалистами по данным, и результаты указывают на более высокую производительность платформы LightAutoML.