Искусственный интеллект

Лучшее руководство по инструментам MLOps: веса и смещения, Comet и многое другое

опубликованный 24 июня 2024

Аюш Миттал Mittal

Руководство по инструментам MLOps: веса и смещения, комета и многое другое

Операции машинного обучения (MLOps) — это набор практик и принципов, направленных на унификацию процессов разработки, развертывания и обслуживания моделей машинного обучения в производственных средах. Он сочетает в себе принципы DevOps, такие как непрерывная интеграция, непрерывная доставка и непрерывный мониторинг, с уникальными задачами управления моделями машинного обучения и наборами данных.

Поскольку внедрение машинного обучения в различных отраслях продолжает расти, спрос на надежные инструменты MLOps также увеличился. Эти инструменты помогают оптимизировать весь жизненный цикл проектов машинного обучения: от подготовки данных и обучения моделей до развертывания и мониторинга. В этом подробном руководстве мы рассмотрим некоторые из лучших доступных инструментов MLOps, включая Weights & Biases, Comet и другие, а также их функции, варианты использования и примеры кода.

Что такое MLOps?

млн операций в секунду, или Machine Learning Operations, — это междисциплинарная область, которая сочетает в себе принципы машинного обучения, разработки программного обеспечения и практики DevOps для оптимизации развертывания, мониторинга и обслуживания моделей машинного обучения в производственных средах. Устанавливая стандартизированные рабочие процессы, автоматизируя повторяющиеся задачи и внедряя надежные механизмы мониторинга и управления, MLOps позволяет организациям ускорить разработку моделей, повысить надежность развертывания и максимизировать ценность, получаемую от инициатив ML.

Создание и обслуживание конвейеров машинного обучения

При создании любого продукта или услуги на основе машинного обучения обучение и оценка модели на нескольких реальных примерах не обязательно означает конец ваших обязанностей. Вам необходимо сделать эту модель доступной для конечных пользователей, отслеживать ее и при необходимости переобучать для повышения производительности. Традиционный конвейер машинного обучения (ML) представляет собой набор различных этапов, которые включают сбор данных, подготовку данных, обучение и оценку модели, настройку гиперпараметров (при необходимости), развертывание и масштабирование модели, мониторинг, безопасность и соответствие требованиям, а также CI/CD.

Команда инженеров машинного обучения отвечает за работу на первых четырех этапах конвейера машинного обучения, а последние два этапа находятся в ведении группы эксплуатации. Поскольку в большинстве организаций существует четкое разграничение между группами машинного обучения и эксплуатации, эффективное сотрудничество и связь между этими двумя командами необходимы для успешной разработки, развертывания и обслуживания систем машинного обучения. Такое сотрудничество групп машинного обучения и операций — это то, что вы называете MLOps, и оно направлено на оптимизацию процесса развертывания моделей машинного обучения в рабочей среде, а также на их обслуживании и мониторинге. Хотя MLOps — это аббревиатура от ML и операций, не позволяйте этому сбить вас с толку, поскольку он может обеспечить сотрудничество между специалистами по данным, инженерами DevOps и ИТ-командами.

Основная ответственность MLOps заключается в содействии эффективному сотрудничеству между командами машинного обучения и эксплуатации для ускорения темпов разработки и развертывания моделей с помощью практик непрерывной интеграции и разработки (CI/CD), дополненных мониторингом, проверкой и управлением моделями машинного обучения. Инструменты и программное обеспечение, которые облегчают автоматизацию CI/CD, упрощают разработку, масштабное развертывание, оптимизацию рабочих процессов и улучшение совместной работы, часто называются инструментами MLOps. После долгих исследований я составил список различных инструментов MLOps, которые используются некоторыми крупными технологическими гигантами, такими как Netflix, Uber, DoorDash, LUSH и т. д. Мы собираемся обсудить их все позже в этой статье.

Типы инструментов MLOps

Инструменты MLOps играют ключевую роль на каждом этапе жизненного цикла машинного обучения. В этом разделе вы увидите четкое распределение ролей списка инструментов MLOps на каждом этапе жизненного цикла машинного обучения.

Инструменты оркестровки конвейера

Под оркестровкой конвейеров с точки зрения машинного обучения понимается процесс управления и координации различных задач и компонентов, участвующих в сквозном рабочем процессе машинного обучения, от предварительной обработки данных и обучения модели до развертывания и мониторинга модели.

Программное обеспечение MLOps очень популярно в этой области, поскольку оно предоставляет такие функции, как управление рабочими процессами, управление зависимостями, распараллеливание, контроль версий и автоматизация развертывания, что позволяет организациям оптимизировать свои рабочие процессы ML, улучшить сотрудничество между специалистами по данным и инженерами, а также ускорить доставку ML. решения.

Модели обучения

Этот этап включает в себя процесс создания и оптимизации прогнозных моделей с размеченными и неразмеченными данными. В ходе обучения модели изучают основные закономерности и взаимосвязи в данных, корректируя их параметры, чтобы минимизировать разницу между прогнозируемыми и фактическими результатами. Этот этап можно рассматривать как наиболее трудоемкий этап всего конвейера ML. Именно по этой причине ученые, работающие с данными, должны активно участвовать в этом этапе, поскольку им необходимо опробовать различные алгоритмы и комбинации параметров.

Фреймворки машинного обучения, такие как scikit учиться довольно популярны для обучения моделей машинного обучения, в то время как TensorFlow и PyTorch популярны для обучения моделей глубокого обучения, состоящих из различных нейронных сетей.

Платформы развертывания моделей и обслуживания

После того как команда разработчиков завершит обучение модели, им необходимо сделать эту модель доступной для вывода в производственной среде, где эти модели могут генерировать прогнозы. Обычно это включает в себя развертывание модели в обслуживающей инфраструктуре, настройку API для связи, управление версиями модели и управление ею, автоматическое масштабирование и балансировку нагрузки, а также обеспечение масштабируемости, надежности и производительности.

Инструменты MLOps предлагают такие функции, как контейнеризация, оркестровка, управление версиями моделей, A/B-тестирование и ведение журналов, что позволяет организациям эффективно и результативно развертывать и обслуживать модели машинного обучения.

Инструменты мониторинга и наблюдения

Разработка и внедрение моделей — это не одноразовый процесс. Когда вы разрабатываете модель для определенного распределения данных, вы ожидаете, что модель будет делать прогнозы и для того же распределения данных в рабочей среде. Это не идеально, поскольку в реальном мире распределение данных подвержено изменениям, что приводит к ухудшению прогнозирующей способности модели. Это то, что вы называете дрейфом данных. Есть только один способ выявить отклонение данных — постоянно отслеживать ваши модели в производстве.

Мониторинг и наблюдаемость моделей в машинном обучении включают мониторинг ключевых показателей, таких как точность прогнозирования, задержка, пропускная способность и использование ресурсов, а также обнаружение аномалий, отклонений и концептуальных сдвигов в распределении данных. Инструменты мониторинга MLOps могут автоматизировать сбор данных телеметрии, обеспечивать анализ и визуализацию показателей в реальном времени, а также запускать оповещения и действия на основе заранее определенных пороговых значений или условий.

Платформы для отслеживания сотрудничества и экспериментов

Предположим, вы работаете над разработкой системы машинного обучения вместе с командой коллег по данным. Если вы не используете механизм, который отслеживает, какие все модели были опробованы, кто над какой частью конвейера работает и т. д., вам будет сложно определить, какие все модели уже опробованы вами или другими. Также может случиться так, что два разработчика работают над разработкой одних и тех же функций, что на самом деле является пустой тратой времени и ресурсов. А поскольку вы не отслеживаете ничего, связанное с вашим проектом, вы наверняка не сможете использовать эти знания для других проектов, тем самым ограничивая воспроизводимость.

Инструменты MLOps для совместной работы и отслеживания экспериментов позволяют ученым и инженерам, работающим с данными, эффективно сотрудничать, обмениваться знаниями и воспроизводить эксперименты для разработки и оптимизации моделей. Эти инструменты предлагают такие функции, как отслеживание экспериментов, управление версиями, отслеживание происхождения и реестр моделей, что позволяет командам регистрировать эксперименты, отслеживать изменения и сравнивать результаты различных итераций моделей ML.

Хранение данных и управление версиями

Работая над конвейерами машинного обучения, вы вносите существенные изменения в необработанные данные на этапе предварительной обработки. По какой-то причине, если вы не можете сразу обучить свою модель, вы хотите сохранить эти предварительно обработанные данные, чтобы избежать повторной работы. То же самое и с кодом: вам всегда захочется продолжить работу над кодом, который вы оставили в предыдущем сеансе.

Инструменты хранения и управления версиями данных MLOps предлагают такие функции, как управление версиями данных, управление артефактами, отслеживание метаданных и происхождение данных, что позволяет командам отслеживать изменения, воспроизводить эксперименты и обеспечивать согласованность и воспроизводимость между различными итерациями моделей ML.

Вычисления и инфраструктура

Когда вы говорите об обучении, развертывании и масштабировании моделей, все сводится к вычислениям и инфраструктуре. Особенно в настоящее время, когда большие языковые модели (LLM) используются в нескольких отраслевых проектах генеративного ИИ. Вы, конечно, можете обучить простой классификатор в системе с 8 ГБ ОЗУ и без графического процессора, но было бы неразумно обучать модель LLM в той же инфраструктуре.

Инструменты вычислений и инфраструктуры предлагают такие функции, как контейнеризация, оркестровка, автоматическое масштабирование и управление ресурсами, что позволяет организациям эффективно использовать облачные ресурсы, локальную инфраструктуру или гибридные среды для рабочих нагрузок машинного обучения.

Лучшие инструменты и платформы MLOps на 2024 год

Хотя Weights & Biases и Comet являются известными стартапами MLOps, существует несколько других инструментов для поддержки различных аспектов жизненного цикла машинного обучения. Вот несколько примечательных примеров:

Млфлоу: MLflow — это платформа с открытым исходным кодом, которая помогает управлять всем жизненным циклом машинного обучения, включая отслеживание экспериментов, воспроизводимость, развертывание и центральный реестр моделей.
Kubeflow: Kubeflow — это платформа с открытым исходным кодом, предназначенная для упрощения развертывания моделей машинного обучения в Kubernetes. Он предоставляет полный набор инструментов для подготовки данных, обучения моделей, оптимизации моделей, предоставления прогнозов и мониторинга моделей в производственных средах.
БентоМЛ: BentoML — это инструмент, основанный на Python, для развертывания и поддержки моделей машинного обучения в производстве. Он поддерживает параллельный вывод, адаптивную пакетную обработку и аппаратное ускорение, обеспечивая эффективное и масштабируемое обслуживание моделей.
Тензорборд: TensorBoard, разработанный командой TensorFlow, представляет собой инструмент визуализации с открытым исходным кодом для экспериментов по машинному обучению. Он позволяет пользователям отслеживать метрики, визуализировать графики моделей, встраивать проекты и делиться результатами экспериментов.
очевидно: Очевидно, AI — это библиотека Python с открытым исходным кодом для мониторинга моделей машинного обучения во время разработки, проверки и производства. Он проверяет качество данных и модели, смещение данных, смещение цели, а также производительность регрессии и классификации.
Создатель мудреца Амазонки: Amazon Web Services SageMaker — это комплексное решение MLOps, которое охватывает обучение моделей, отслеживание экспериментов, развертывание моделей, мониторинг и многое другое. Он обеспечивает среду для совместной работы групп специалистов по обработке данных, позволяя автоматизировать рабочие процессы машинного обучения и непрерывный мониторинг моделей в производстве.

Что такое веса и смещения?

Weights & Biases (W&B) — это популярная платформа отслеживания и визуализации экспериментов машинного обучения, которая помогает ученым, работающим с данными, и специалистам по машинному обучению с легкостью управлять и анализировать свои модели. Он предлагает набор инструментов, которые поддерживают каждый этап рабочего процесса машинного обучения, от настройки проекта до развертывания модели.

Ключевые особенности весов и смещений

Отслеживание и регистрация экспериментов: W&B позволяет пользователям регистрировать и отслеживать эксперименты, собирая важную информацию, такую как гиперпараметры, архитектуру модели и детали набора данных. Записывая эти параметры, пользователи могут легко воспроизводить эксперименты и сравнивать результаты, облегчая сотрудничество между членами команды.

import wandb

# Initialize W&B

wandb.init(project="my-project", entity="my-team")

# Log hyperparameters
config = wandb.config
config.learning_rate = 0.001
config.batch_size = 32

# Log metrics during training
wandb.log({"loss": 0.5, "accuracy": 0.92})

Визуализации и информационные панели: W&B предоставляет интерактивную панель мониторинга для визуализации результатов экспериментов, что позволяет легко анализировать тенденции, сравнивать модели и определять области для улучшения. Эти визуализации включают настраиваемые диаграммы, матрицы путаницы и гистограммы. Панель мониторинга можно использовать совместно с коллегами, что обеспечивает эффективное общение и обмен знаниями.

# Log confusion matrix
wandb.log({"confusion_matrix": wandb.plot.confusion_matrix(predictions, labels)})

# Log a custom chart
wandb.log({"chart": wandb.plot.line_series(x=[1, 2, 3], y=[[1, 2, 3], [4, 5, 6]])})

Управление версиями и сравнение моделей: с помощью W&B пользователи могут легко отслеживать и сравнивать различные версии своих моделей. Эта функция особенно ценна при экспериментировании с различными архитектурами, гиперпараметрами или методами предварительной обработки. Сохраняя историю моделей, пользователи могут определять наиболее эффективные конфигурации и принимать решения на основе данных.

# Save model artifact
wandb.save("model.h5")

# Log multiple versions of a model
with wandb.init(project="my-project", entity="my-team"):
# Train and log model version 1
wandb.log({"accuracy": 0.85})

with wandb.init(project="my-project", entity="my-team"):
# Train and log model version 2
wandb.log({"accuracy": 0.92})

Интеграция с популярными платформами машинного обучения: W&B легко интегрируется с популярными платформами машинного обучения, такими как TensorFlow, PyTorch и scikit-learn. Он обеспечивает легкую интеграцию, требующую минимальных модификаций кода, что позволяет пользователям использовать функции W&B, не нарушая существующие рабочие процессы.

import wandb
import tensorflow as tf

# Initialize W&B and log metrics during training
wandb.init(project="my-project", entity="my-team")
wandb.tensorflow.log(tf.summary.scalar('loss', loss))

Что такое Комета?

Comet — это облачная платформа машинного обучения, с помощью которой разработчики могут отслеживать, сравнивать, анализировать и оптимизировать эксперименты. Он разработан таким образом, чтобы его можно было быстро установить и легко использовать, что позволяет пользователям начать отслеживать свои эксперименты по машинному обучению с помощью всего лишь нескольких строк кода, не полагаясь на какую-либо конкретную библиотеку.

Ключевые особенности кометы

Пользовательские визуализации: Comet позволяет пользователям создавать собственные визуализации своих экспериментов и данных. Кроме того, пользователи могут использовать предоставленные сообществом визуализации на панелях, расширяя свои возможности анализа и интерпретации результатов.
В режиме реального времени мониторинг: Comet предоставляет статистику и графики текущих экспериментов в режиме реального времени, позволяя пользователям отслеживать прогресс и производительность своих моделей во время обучения.
Сравнение экспериментов: с помощью Comet пользователи могут легко сравнивать свои эксперименты, включая код, метрики, прогнозы, аналитическую информацию и многое другое. Эта функция облегчает идентификацию наиболее эффективных моделей и конфигураций.
Отладка и отслеживание ошибок: Comet позволяет пользователям отлаживать ошибки модели, ошибки, связанные со средой, и другие проблемы, которые могут возникнуть в процессе обучения и оценки.
Мониторинг модели: Comet позволяет пользователям отслеживать свои модели и получать уведомления при возникновении проблем или ошибок, обеспечивая своевременное вмешательство и устранение последствий.
Collaboration: Comet поддерживает сотрудничество внутри команд и с заинтересованными сторонами, обеспечивая беспрепятственный обмен знаниями и эффективное общение.
Интеграция фреймворка: Comet легко интегрируется с популярными платформами машинного обучения, такими как TensorFlow, PyTorch и другими, что делает его универсальным инструментом для различных проектов и вариантов использования.

Выбор правильного инструмента MLOps

При выборе инструмента MLOps для вашего проекта важно учитывать такие факторы, как знакомство вашей команды с конкретными платформами, требования проекта, сложность модели (моделей) и среды развертывания. Некоторые инструменты могут лучше подходить для конкретных случаев использования или более легко интегрироваться с существующей инфраструктурой.

Кроме того, важно оценить документацию инструмента, поддержку сообщества, а также простоту установки и интеграции. Хорошо документированный инструмент с активным сообществом может значительно ускорить процесс обучения и облегчить устранение неполадок.

Лучшие практики для эффективных MLOps

Чтобы максимизировать преимущества инструментов MLOps и обеспечить успешное развертывание и обслуживание модели, крайне важно следовать передовым практикам. Вот некоторые ключевые соображения:

Последовательное ведение журнала: Убедитесь, что все соответствующие гиперпараметры, метрики и артефакты последовательно регистрируются в ходе экспериментов. Это способствует воспроизводимости и облегчает эффективное сравнение между различными сериями.
Сотрудничество и обмен: используйте функции совместной работы инструментов MLOps, чтобы делиться экспериментами, визуализациями и идеями с членами команды. Это способствует обмену знаниями и улучшает общие результаты проекта.
Документация и примечания: Ведение подробной документации и заметок в инструменте MLOps для сбора подробностей эксперимента, наблюдений и аналитической информации. Это помогает понять прошлые эксперименты и облегчает будущие итерации.
Непрерывная интеграция и развертывание (CI/CD): Внедрите конвейеры CI/CD для своих моделей машинного обучения, чтобы обеспечить автоматическое тестирование, развертывание и мониторинг. Это упрощает процесс развертывания и снижает риск ошибок.

Примеры кода и варианты использования

Чтобы лучше понять практическое использование инструментов MLOps, давайте рассмотрим некоторые примеры кода и варианты использования.

Отслеживание экспериментов с помощью весов и отклонений

Weights & Biases обеспечивает бесшовную интеграцию с популярными платформами машинного обучения, такими как PyTorch и TensorFlow. Вот пример того, как вы можете регистрировать метрики и визуализировать их во время обучения модели с помощью PyTorch:

import wandb
import torch
import torchvision

# Initialize W&B

wandb.init(project="image-classification", entity="my-team")

# Load data and model
train_loader = torch.utils.data.DataLoader(...)
model = torchvision.models.resnet18(pretrained=True)

# Set up training loop
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
criterion = torch.nn.CrossEntropyLoss()

for epoch in range(10):
for inputs, labels in train_loader:
optimizer.zero_grad()
outputs = model(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()

# Log metrics
wandb.log({"loss": loss.item()})

# Save model
torch.save(model.state_dict(), "model.pth")
wandb.save("model.pth")

В этом примере мы инициализируем запуск W&B, обучаем модель ResNet-18 задаче классификации изображений и регистрируем потери при обучении на каждом этапе. Мы также сохраняем обученную модель как артефакт, используя wandb.save(). W&B автоматически отслеживает системные показатели, такие как использование графического процессора, и мы можем визуализировать ход обучения, кривые потерь и системные показатели на панели управления W&B.

Мониторинг модели с очевидностью

Очевидно, это мощный инструмент для мониторинга моделей машинного обучения в производстве. Вот пример того, как вы можете использовать его для мониторинга отклонения данных и производительности модели:

import evidently
import pandas as pd
from evidently.model_monitoring import ModelMonitor
from evidently.model_monitoring.monitors import DataDriftMonitor, PerformanceMonitor

# Load reference data
ref_data = pd.read_csv("reference_data.csv")

# Load production data
prod_data = pd.read_csv("production_data.csv")

# Load model
model = load_model("model.pkl")

# Create data and performance monitors
data_monitor = DataDriftMonitor(ref_data)
perf_monitor = PerformanceMonitor(ref_data, model)

# Monitor data and performance
model_monitor = ModelMonitor(data_monitor, perf_monitor)
model_monitor.run(prod_data)

# Generate HTML report
model_monitor.report.save_html("model_monitoring_report.html")

В этом примере мы загружаем справочные и производственные данные, а также обученную модель. Мы создаем экземпляры DataDriftMonitor и PerformanceMonitor для мониторинга дрейфа данных и производительности модели соответственно. Затем мы запускаем эти мониторы на производственных данных, используя ModelMonitor и сгенерируйте HTML-отчет с результатами.

Развертывание с помощью BentoML

BentoML упрощает процесс развертывания и обслуживания моделей машинного обучения. Вот пример того, как вы можете упаковать и развернуть модель scikit-learn с помощью BentoML:

import bentoml
from bentoml.io import NumpyNdarray
from sklearn.linear_model import LogisticRegression

# Train model
clf = LogisticRegression()
clf.fit(X_train, y_train)

# Define BentoML service
class LogisticRegressionService(bentoml.BentoService):
@bentoml.api(input=NumpyNdarray(), batch=True)
def predict(self, input_data):
return self.artifacts.clf.predict(input_data)

@bentoml.artifacts([LogisticRegression.artifacts])
def pack(self, artifacts):
artifacts.clf = clf

# Package and save model
svc = bentoml.Service("logistic_regression", runners=[LogisticRegressionService()])
svc.pack().save()

# Deploy model
svc = LogisticRegressionService.load()
svc.start()

В этом примере мы обучаем модель логистической регрессии, основанную на scikit-learn, и определяем сервис BentoML для обслуживания прогнозов. Затем мы упаковываем модель и ее артефакты, используя bentoml.Service и сохраните его на диск. Наконец, мы загружаем сохраненную модель и запускаем сервис BentoML, делая его доступным для обслуживания прогнозов.

Заключение

В быстро развивающейся области машинного обучения инструменты MLOps играют решающую роль в оптимизации всего жизненного цикла проектов машинного обучения: от экспериментирования и разработки до развертывания и мониторинга. Такие инструменты, как Weights & Biases, Comet, MLflow, Kubeflow, BentoML и Evidently, предлагают ряд функций и возможностей для поддержки различных аспектов рабочего процесса MLOps.

Используя эти инструменты, группы по обработке данных могут улучшить сотрудничество, воспроизводимость и эффективность, обеспечивая при этом развертывание надежных и производительных моделей машинного обучения в производственных средах. Поскольку внедрение машинного обучения продолжает расти во всех отраслях, важность инструментов и практик MLOps будет только возрастать, стимулируя инновации и позволяя организациям использовать весь потенциал технологий искусственного интеллекта и машинного обучения.

EvolutionaryScale выделила 142 миллиона долларов на развитие генеративного искусственного интеллекта в биологии

Не пропустите

10 вещей, которые нужно знать о сонете Клода 3.5

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.

Unite.ИИ