Intelligenza artificiale

Guida agli strumenti Top MLOps: Weights & Biases, Comet e altro

Published June 24, 2024

Updated April 4, 2026

Aayush Mittal Mittal

MLOps Tools Guide: Weights & Biases, Comet and More

Le operazioni di machine learning (MLOps) sono un set di pratiche e principi che mirano a unificare i processi di sviluppo, distribuzione e manutenzione dei modelli di machine learning negli ambienti di produzione. Combina principi di DevOps, come l’integrazione continua, la consegna continua e il monitoraggio continuo, con le sfide uniche della gestione dei modelli di machine learning e dei set di dati.

Man mano che l’adozione della machine learning in vari settori continua a crescere, anche la domanda di strumenti MLOps robusti è aumentata. Questi strumenti aiutano a semplificare l’intero ciclo di vita dei progetti di machine learning, dalla preparazione dei dati e dall’addestramento del modello alla distribuzione e al monitoraggio. In questa guida completa, esploreremo alcuni degli strumenti MLOps più importanti disponibili, tra cui Weights & Biases, Comet e altri, insieme alle loro funzionalità, casi d’uso e esempi di codice.

Cosa sono le MLOps?

MLOps, o operazioni di machine learning, è un campo multidisciplinare che combina i principi di ML, ingegneria del software e pratiche DevOps per semplificare la distribuzione, il monitoraggio e la manutenzione dei modelli di ML negli ambienti di produzione. Stabilendo flussi di lavoro standardizzati, automatizzando attività ripetitive e implementando meccanismi di monitoraggio e governance robusti, le MLOps consentono alle organizzazioni di accelerare lo sviluppo del modello, migliorare l’affidabilità della distribuzione e massimizzare il valore derivato dalle iniziative di ML.

Creazione e manutenzione di pipeline ML

Mentre si costruisce qualsiasi prodotto o servizio basato sulla machine learning, l’addestramento e la valutazione del modello su alcuni campioni del mondo reale non significa necessariamente la fine delle tue responsabilità. Devi rendere quel modello disponibile agli utenti finali, monitorarlo e riaddestrarlo per una migliore prestazione se necessario. Una pipeline di machine learning (ML) tradizionale è una raccolta di varie fasi che includono la raccolta dei dati, la preparazione dei dati, l’addestramento e la valutazione del modello, il tuning degli iperparametri (se necessario), la distribuzione e il scaling del modello, il monitoraggio, la sicurezza e la conformità, e CI/CD.

Un team di ingegneria di machine learning è responsabile del lavoro sulle prime quattro fasi della pipeline di ML, mentre le ultime due fasi rientrano nelle responsabilità del team operativo. Dal momento che c’è una chiara demarcazione tra i team di machine learning e operativo per la maggior parte delle organizzazioni, la collaborazione e la comunicazione efficaci tra i due team sono essenziali per lo sviluppo, la distribuzione e la manutenzione di successo dei sistemi di ML. Questa collaborazione dei team di ML e operativo è ciò che si chiama MLOps e si concentra sul semplificare il processo di distribuzione dei modelli di ML in produzione, oltre a mantenerli e monitorarli. Sebbene MLOps sia un acronimo per ML e operazioni, non lasciarti confondere dal fatto che possa consentire collaborazioni tra data scientist, ingegneri DevOps e team IT.

La responsabilità principale delle MLOps è quella di facilitare una collaborazione efficace tra i team di ML e operativo per migliorare la velocità di sviluppo e distribuzione del modello con l’aiuto di pratiche di integrazione e sviluppo continui (CI/CD) complementate da monitoraggio, convalida e governance dei modelli di ML. Gli strumenti e il software che facilitano l’integrazione automatica di CI/CD, lo sviluppo semplice, la distribuzione su larga scala, il semplificamento dei flussi di lavoro e il miglioramento della collaborazione sono spesso definiti strumenti MLOps. Dopo molte ricerche, ho curato un elenco di vari strumenti MLOps utilizzati in grandi aziende tecnologiche come Netflix, Uber, DoorDash, LUSH, ecc. Li discuteremo tutti in questo articolo.

Tipi di strumenti MLOps

Gli strumenti MLOps svolgono un ruolo fondamentale in ogni fase del ciclo di vita della machine learning. In questa sezione, vedrai una chiara suddivisione dei ruoli di un elenco di strumenti MLOps in ogni fase del ciclo di vita di ML.

Strumenti di orchestrazione della pipeline

L’orchestrazione della pipeline in termini di machine learning si riferisce al processo di gestione e coordinamento delle varie attività e componenti coinvolte nel flusso di lavoro di ML end-to-end, dalla preelaborazione dei dati e dall’addestramento del modello alla distribuzione e al monitoraggio del modello.

Il software MLOps è molto popolare in questo spazio poiché offre funzionalità come la gestione del flusso di lavoro, la gestione delle dipendenze, la parallelizzazione, il controllo delle versioni e l’automatizzazione della distribuzione, consentendo alle organizzazioni di semplificare i flussi di lavoro di ML, migliorare la collaborazione tra data scientist e ingegneri e accelerare la consegna di soluzioni di ML.

Framework di addestramento del modello

Questa fase coinvolge il processo di creazione e ottimizzazione di modelli predittivi con dati etichettati e non etichettati. Durante l’addestramento, i modelli apprendono i modelli e le relazioni sottostanti nei dati, regolando i loro parametri per minimizzare la differenza tra risultati previsti e reali. Puoi considerare questa fase come la più intensiva in termini di codice dell’intera pipeline di ML. Questo è il motivo per cui i data scientist devono essere attivamente coinvolti in questa fase, poiché devono provare diversi algoritmi e combinazioni di parametri.

I framework di machine learning come scikit-learn sono molto popolari per l’addestramento dei modelli di machine learning, mentre TensorFlow e PyTorch sono popolari per l’addestramento di modelli di deep learning che comprendono diversi reti neurali.

Piattaforme di distribuzione e servizio del modello

Una volta che il team di sviluppo ha completato l’addestramento del modello, deve renderlo disponibile per l’inferenza nell’ambiente di produzione in cui questi modelli possono generare previsioni. Ciò comporta tipicamente la distribuzione del modello in un’infrastruttura di servizio, la configurazione delle API per la comunicazione, la versione e la gestione del modello, il scaling e il bilanciamento del carico automatici e la garanzia di scalabilità, affidabilità e prestazioni.

Gli strumenti MLOps offrono funzionalità come la containerizzazione, l’orchestrazione, la versione del modello, il testing A/B, la registrazione e il logging, consentendo alle organizzazioni di distribuire e servire i modelli di ML in modo efficiente ed efficace.

Strumenti di monitoraggio e osservabilità

Sviluppare e distribuire i modelli non è un processo una tantum. Quando sviluppi un modello su una certa distribuzione dei dati, ti aspetti che il modello faccia previsioni per la stessa distribuzione dei dati in produzione. Ciò non è ideale perché la distribuzione dei dati è soggetta a cambiamenti nel mondo reale, il che comporta un degrado del potere predittivo del modello, questo è ciò che si chiama deriva dei dati. C’è un solo modo per identificare la deriva dei dati, monitorando continuamente i modelli in produzione.

Il monitoraggio e l’osservabilità della machine learning includono il monitoraggio di metriche chiave come l’accuratezza delle previsioni, la latenza, il throughput e l’utilizzo delle risorse, nonché la rilevazione di anomalie, deriva e cambiamenti di concetto nella distribuzione dei dati. Gli strumenti di monitoraggio MLOps possono automatizzare la raccolta dei dati di telemetria, abilitare l’analisi e la visualizzazione in tempo reale delle metriche e attivare avvisi e azioni in base a soglie o condizioni predefinite.

Piattaforme di collaborazione e tracciamento degli esperimenti

Supponi di lavorare allo sviluppo di un sistema di ML insieme a un team di data scientist. Se non stai utilizzando un meccanismo che traccia quali modelli sono stati provati, chi sta lavorando a quale parte della pipeline, ecc., sarà difficile determinare quali modelli sono già stati provati da te o da altri. Potrebbe esserci il caso in cui due sviluppatori stanno sviluppando le stesse funzionalità, il che è uno spreco di tempo e risorse. E poiché non stai tracciando nulla relativo al tuo progetto, non puoi utilizzare questa conoscenza per altri progetti, limitando così la riproducibilità.

Gli strumenti di collaborazione e tracciamento degli esperimenti MLOps consentono ai data scientist e agli ingegneri di collaborare efficacemente, condividere conoscenze e riprodurre esperimenti per lo sviluppo e l’ottimizzazione del modello. Questi strumenti offrono funzionalità come il tracciamento degli esperimenti, la versione, il tracciamento della discendenza e il registro del modello, consentendo ai team di registrare esperimenti, tracciare le modifiche e confrontare i risultati tra diverse iterazioni dei modelli di ML.

Archiviazione e versione dei dati

Mentre lavori alle pipeline di ML, apporti modifiche significative ai dati grezzi nella fase di preelaborazione. Per qualche motivo, se non sei in grado di addestrare il modello subito, desideri archiviare questi dati preelaborati per evitare lavori ripetitivi. Lo stesso vale per il codice, desideri sempre continuare a lavorare sul codice che hai lasciato nella tua ultima sessione.

Gli strumenti di archiviazione e versione dei dati MLOps offrono funzionalità come la versione dei dati, la gestione degli artifact, il tracciamento dei metadati e la discendenza dei dati, consentendo ai team di tracciare le modifiche, riprodurre esperimenti e garantire la coerenza e la riproducibilità tra diverse iterazioni dei modelli di ML.

Calcolo e infrastruttura

Quando si parla di addestramento, distribuzione e scaling dei modelli, tutto si riduce al calcolo e all’infrastruttura. Soprattutto in questo momento in cui i grandi modelli linguistici (LLM) stanno facendo la loro strada per diversi progetti di intelligenza artificiale basati sull’industria. Puoi sicuramente addestrare un semplice classificatore su un sistema con 8 GB di RAM e senza dispositivo GPU, ma non sarebbe prudente addestrare un modello LLM su la stessa infrastruttura.

Gli strumenti di calcolo e infrastruttura offrono funzionalità come la containerizzazione, l’orchestrazione, l’auto-scaling e la gestione delle risorse, consentendo alle organizzazioni di utilizzare efficientemente le risorse cloud, l’infrastruttura on-premises o gli ambienti ibridi per i carichi di lavoro di ML.

Migliori strumenti e piattaforme MLOps per il 2024

Mentre Weights & Biases e Comet sono importanti startup MLOps, sono disponibili diversi altri strumenti per supportare vari aspetti del ciclo di vita della machine learning. Ecco alcuni esempi notevoli:

MLflow: MLflow è una piattaforma open-source che aiuta a gestire l’intero ciclo di vita della machine learning, compreso il tracciamento degli esperimenti, la riproducibilità, la distribuzione e un registro centrale del modello.
Kubeflow: Kubeflow è una piattaforma open-source progettata per semplificare la distribuzione dei modelli di machine learning su Kubernetes. Fornisce un set completo di strumenti per la preparazione dei dati, l’addestramento del modello, l’ottimizzazione del modello, la fornitura di previsioni e il monitoraggio del modello negli ambienti di produzione.
BentoML: BentoML è uno strumento Python-first per la distribuzione e la manutenzione dei modelli di machine learning in produzione. Supporta l’inferenza parallela, il batching adattivo e l’accelerazione hardware, consentendo un servizio di modello efficiente e scalabile.
TensorBoard: Sviluppato dal team di TensorFlow, TensorBoard è uno strumento di visualizzazione open-source per gli esperimenti di machine learning. Consente agli utenti di tracciare le metriche, visualizzare i grafici del modello, proiettare le embedding e condividere i risultati degli esperimenti.
Evidently: Evidently AI è una libreria Python open-source per il monitoraggio dei modelli di machine learning durante lo sviluppo, la convalida e in produzione. Controlla la qualità dei dati e del modello, la deriva dei dati, la deriva del target e le prestazioni di regressione e classificazione.
Amazon SageMaker: Amazon Web Services SageMaker è una soluzione MLOps completa che copre l’addestramento del modello, il tracciamento degli esperimenti, la distribuzione del modello, il monitoraggio e altro. Fornisce un ambiente di collaborazione per i team di data science, consentendo l’automatizzazione dei flussi di lavoro di ML e il monitoraggio continuo dei modelli in produzione.

Cosa sono Weights & Biases?

Weights & Biases (W&B) è una piattaforma popolare di tracciamento e visualizzazione degli esperimenti di machine learning che aiuta i data scientist e gli sviluppatori di ML a gestire e analizzare i loro modelli con facilità. Offre una suite di strumenti che supportano ogni fase del flusso di lavoro di ML, dalla configurazione del progetto alla distribuzione del modello.

Funzionalità principali di Weights & Biases

Tracciamento e registrazione degli esperimenti: W&B consente agli utenti di registrare e tracciare gli esperimenti, catturando informazioni essenziali come iperparametri, architettura del modello e dettagli del set di dati. Registrando questi parametri, gli utenti possono riprodurre facilmente gli esperimenti e confrontare i risultati, facilitando la collaborazione tra i membri del team.

import wandb

# Inizializza W&amp;B
wandb.init(project="my-project", entity="my-team")

# Registra iperparametri
config = wandb.config
config.learning_rate = 0.001
config.batch_size = 32

# Registra metriche durante l'addestramento
wandb.log({"loss": 0.5, "accuracy": 0.92})

Visualizzazioni e dashboard: W&B fornisce un dashboard interattivo per visualizzare i risultati degli esperimenti, rendendo facile analizzare le tendenze, confrontare i modelli e identificare aree di miglioramento. Queste visualizzazioni includono grafici personalizzabili, matrici di confusione e istogrammi. Il dashboard può essere condiviso con i collaboratori, facilitando la comunicazione e la condivisione di conoscenze.

# Registra matrice di confusione
wandb.log({"confusion_matrix": wandb.plot.confusion_matrix(predictions, labels)})

# Registra un grafico personalizzato
wandb.log({"chart": wandb.plot.line_series(x=[1, 2, 3], y=[[1, 2, 3], [4, 5, 6]])})

Versione e confronto del modello: con W&B, gli utenti possono facilmente tracciare e confrontare diverse versioni dei loro modelli. Questa funzionalità è particolarmente preziosa quando si sperimenta con diverse architetture, iperparametri o tecniche di preelaborazione. Tracciando la storia dei modelli, gli utenti possono identificare le configurazioni con le migliori prestazioni e prendere decisioni basate sui dati.

# Salva artifact del modello
wandb.save("model.h5")

# Registra più versioni di un modello
with wandb.init(project="my-project", entity="my-team"):
# Addestra e registra versione 1 del modello
wandb.log({"accuracy": 0.85})

with wandb.init(project="my-project", entity="my-team"):
# Addestra e registra versione 2 del modello
wandb.log({"accuracy": 0.92})

Integrazione con framework ML popolari: W&B si integra senza problemi con framework di machine learning popolari come TensorFlow, PyTorch e scikit-learn. Fornisce integrazioni leggere che richiedono modifiche minime al codice, consentendo agli utenti di sfruttare le funzionalità di W&B senza interrompere i loro flussi di lavoro esistenti.

import wandb
import tensorflow as tf

# Inizializza W&amp;B e registra metriche durante l'addestramento
wandb.init(project="my-project", entity="my-team")
wandb.tensorflow.log(tf.summary.scalar('loss', loss))

Cosa è Comet?

Comet è una piattaforma di machine learning basata su cloud in cui gli sviluppatori possono tracciare, confrontare, analizzare e ottimizzare gli esperimenti. È progettata per essere veloce da installare e facile da usare, consentendo agli utenti di iniziare a tracciare i loro esperimenti di ML con solo poche righe di codice, senza fare affidamento su una specifica libreria.

Funzionalità principali di Comet

Visualizzazioni personalizzate: Comet consente agli utenti di creare visualizzazioni personalizzate per i loro esperimenti e dati. Inoltre, gli utenti possono sfruttare le visualizzazioni fornite dalla community su pannelli, migliorando la loro capacità di analizzare e interpretare i risultati.
Monitoraggio in tempo reale: Comet fornisce statistiche e grafici in tempo reale sugli esperimenti in corso, consentendo agli utenti di monitorare i progressi e le prestazioni dei loro modelli durante l’addestramento.
Confronto degli esperimenti: con Comet, gli utenti possono facilmente confrontare i loro esperimenti, compreso il codice, le metriche, le previsioni, le informazioni e altro. Questa funzionalità facilita l’identificazione dei modelli e delle configurazioni con le migliori prestazioni.
Debug e tracciamento degli errori: Comet consente agli utenti di eseguire il debug degli errori del modello, errori specifici dell’ambiente e altri problemi che possono sorgere durante l’addestramento e la valutazione.
Monitoraggio del modello: Comet consente agli utenti di monitorare i loro modelli e ricevere notifiche quando si verificano problemi o errori, garantendo un intervento tempestivo e una mitigazione.
Collaborazione: Comet supporta la collaborazione all’interno dei team e con gli stakeholder aziendali, facilitando la condivisione di conoscenze e la comunicazione efficace.
Integrazione con framework: Comet può integrarsi facilmente con framework di machine learning popolari come TensorFlow, PyTorch e altri, rendendolo uno strumento versatile per diversi progetti e casi d’uso.

Scegliere lo strumento MLOps giusto

Quando si seleziona uno strumento MLOps per il proprio progetto, è essenziale considerare fattori come la familiarità del team con framework specifici, i requisiti del progetto, la complessità del modello (o dei modelli) e l’ambiente di distribuzione. Alcuni strumenti potrebbero essere più adatti a specifici casi d’uso o integrarsi meglio con la propria infrastruttura esistente.

Inoltre, è importante valutare la documentazione dello strumento, il supporto della community e la facilità di setup e integrazione. Uno strumento ben documentato con una community attiva può accelerare notevolmente la curva di apprendimento e facilitare la risoluzione dei problemi.

Migliori pratiche per MLOps efficaci

Per massimizzare i benefici degli strumenti MLOps e garantire la distribuzione e la manutenzione di successo dei modelli, è cruciale seguire le migliori pratiche. Ecco alcune considerazioni chiave:

Registrazione coerente: Assicurarsi che tutti gli iperparametri, le metriche e gli artifact rilevanti siano registrati coerentemente tra gli esperimenti. Ciò promuove la riproducibilità e facilita il confronto efficace tra diverse esecuzioni.
Collaborazione e condivisione: Sfruttare le funzionalità di collaborazione degli strumenti MLOps per condividere esperimenti, visualizzazioni e informazioni con i membri del team. Ciò favorisce lo scambio di conoscenze e migliora i risultati del progetto.
Documentazione e note: Mantenere una documentazione completa e note all’interno dello strumento MLOps per catturare i dettagli degli esperimenti, le osservazioni e le informazioni. Ciò aiuta a comprendere gli esperimenti passati e facilita le iterazioni future.
Integrazione e distribuzione continua (CI/CD): Implementare pipeline CI/CD per i modelli di machine learning per garantire test automatici, distribuzione e monitoraggio. Ciò semplifica il processo di distribuzione e riduce il rischio di errori.

Esempi di codice e casi d’uso

Per comprendere meglio l’uso pratico degli strumenti MLOps, esploriamo alcuni esempi di codice e casi d’uso.

Tracciamento degli esperimenti con Weights & Biases

Weights & Biases fornisce un’integrazione senza problemi con framework di machine learning popolari come PyTorch e TensorFlow. Ecco un esempio di come puoi registrare metriche e visualizzarle durante l’addestramento del modello con PyTorch:

import wandb
import torch
import torchvision

# Inizializza W&amp;B
wandb.init(project="image-classification", entity="my-team")

# Carica dati e modello
train_loader = torch.utils.data.DataLoader(...)
model = torchvision.models.resnet18(pretrained=True)

# Configura ciclo di addestramento
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
criterion = torch.nn.CrossEntropyLoss()

for epoch in range(10):
for inputs, labels in train_loader:
optimizer.zero_grad()
outputs = model(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()

# Registra metriche
wandb.log({"loss": loss.item()})

# Salva modello
torch.save(model.state_dict(), "model.pth")
wandb.save("model.pth")

In questo esempio, inizializziamo una run di W&B, addestriamo un modello ResNet-18 su un compito di classificazione di immagini e registriamo la perdita di addestramento ad ogni passo. Salva anche il modello addestrato come artifact utilizzando wandb.save(). W&B traccia automaticamente le metriche di sistema come l’utilizzo della GPU e possiamo visualizzare il progresso di addestramento, le curve di perdita e le metriche di sistema nel dashboard di W&B.

Monitoraggio del modello con Evidently

Evidently è uno strumento potente per il monitoraggio dei modelli di machine learning in produzione. Ecco un esempio di come puoi utilizzarlo per monitorare la deriva dei dati e le prestazioni del modello:

import evidently
import pandas as pd
from evidently.model_monitoring import ModelMonitor
from evidently.model_monitoring.monitors import DataDriftMonitor, PerformanceMonitor

# Carica dati di riferimento
ref_data = pd.read_csv("reference_data.csv")

# Carica dati di produzione
prod_data = pd.read_csv("production_data.csv")

# Carica modello
model = load_model("model.pkl")

# Crea monitor dei dati e delle prestazioni
data_monitor = DataDriftMonitor(ref_data)
perf_monitor = PerformanceMonitor(ref_data, model)

# Monitora dati e prestazioni
model_monitor = ModelMonitor(data_monitor, perf_monitor)
model_monitor.run(prod_data)

# Genera report HTML
model_monitor.report.save_html("model_monitoring_report.html")

In questo esempio, carichiamo i dati di riferimento e di produzione, nonché un modello addestrato. Creiamo istanze di DataDriftMonitor e PerformanceMonitor per monitorare la deriva dei dati e le prestazioni del modello, rispettivamente. Eseguire quindi questi monitor sui dati di produzione utilizzando ModelMonitor e generare un report HTML con i risultati.

Distribuzione con BentoML

BentoML semplifica il processo di distribuzione e manutenzione dei modelli di machine learning. Ecco un esempio di come puoi impacchettare e distribuire un modello scikit-learn utilizzando BentoML:

import bentoml
from bentoml.io import NumpyNdarray
from sklearn.linear_model import LogisticRegression

# Addestra modello
clf = LogisticRegression()
clf.fit(X_train, y_train)

# Definisci servizio BentoML
class LogisticRegressionService(bentoml.BentoService):
@bentoml.api(input=NumpyNdarray(), batch=True)
def predict(self, input_data):
return self.artifacts.clf.predict(input_data)

@bentoml.artifacts([LogisticRegression.artifacts])
def pack(self, artifacts):
artifacts.clf = clf

# Impacchetta e salva modello
svc = bentoml.Service("logistic_regression", runners=[LogisticRegressionService()])
svc.pack().save()

# Distribuisce modello
svc = LogisticRegressionService.load()
svc.start()

In questo esempio, addestriamo un modello di LogisticRegression e definiamo un servizio BentoML per servire previsioni. Impacchettiamo quindi il modello e i suoi artifact utilizzando bentoml.Service e salvalo su disco. Infine, carichiamo il modello salvato e avviamo il servizio BentoML, rendendolo disponibile per il servizio di previsioni.

Conclusione

Nel campo in rapida evoluzione della machine learning, gli strumenti MLOps svolgono un ruolo cruciale nel semplificare l’intero ciclo di vita dei progetti di machine learning, dalla sperimentazione e lo sviluppo alla distribuzione e al monitoraggio. Strumenti come Weights & Biases, Comet, MLflow, Kubeflow, BentoML ed Evidently offrono una gamma di funzionalità e capacità per supportare vari aspetti del flusso di lavoro MLOps.

Sfruttando questi strumenti, i team di data science possono migliorare la collaborazione, la riproducibilità e l’efficienza, garantendo al contempo la distribuzione di modelli di machine learning affidabili e performanti negli ambienti di produzione. Man mano che l’adozione della machine learning continua a crescere in vari settori, l’importanza degli strumenti e delle pratiche MLOps aumenterà, guidando l’innovazione e consentendo alle organizzazioni di sfruttare appieno il potenziale delle tecnologie di intelligenza artificiale e machine learning.

Aayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nel fascinante mondo del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità continua mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.

Unite.AI