Leader di pensiero

Preparazione dei dati umani per il Machine Learning è risorsosa: questi due approcci sono fondamentali per ridurre i costi

Published March 7, 2022

Updated April 28, 2026

Dattaraj Rao

By: Dattaraj Rao, Chief Data Scientist, Persistent Systems

Come per qualsiasi sistema che dipende da input di dati, il Machine Learning (ML) è soggetto all’assioma di “spazzatura all’interno, spazzatura all’esterno”. I dati puliti e etichettati in modo accurato sono la base per la costruzione di qualsiasi modello di ML. Un algoritmo di training di ML comprende i modelli dai dati di verità fondamentale e da lì, impara a generalizzare su dati non visti. Se la qualità dei tuoi dati di training è bassa, allora sarà molto difficile per l’algoritmo di ML imparare e interpolare continuamente.

Pensaci in termini di addestramento di un cane. Se non addestri correttamente il cane con comandi comportamentali fondamentali (input) o lo fai in modo errato/inaccurato, non puoi mai aspettarti che il cane impari ed espanda attraverso l’osservazione in comportamenti positivi più complessi perché gli input di base erano assenti o difettosi, fin dall’inizio. Un addestramento adeguato è tempo-intensivo e anche costoso se si porta un esperto, ma il risultato è grande se lo si fa correttamente fin dall’inizio.

Quando si addestra un modello di ML, la creazione di dati di qualità richiede che un esperto di dominio spenda del tempo per annotare i dati. Ciò può includere la selezione di una finestra con l’oggetto desiderato in un’immagine o l’assegnazione di un’etichetta a un ingresso di testo o a un record di database. In particolare per i dati non strutturati come immagini, video e testo, la qualità dell’annotazione gioca un ruolo importante nel determinare la qualità del modello. Di solito, i dati non etichettati come immagini e testo grezzo sono abbondanti – ma l’etichettatura è dove lo sforzo deve essere ottimizzato. Questa è la parte del ciclo di vita di ML con l’uomo all’interno del ciclo e di solito è la parte più costosa e laboriosa di qualsiasi progetto di ML.

Gli strumenti di annotazione dei dati come Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS e DataRobot human-in-the-loop sono costantemente migliorati in qualità e forniscono interfacce intuitive per gli esperti di dominio. Tuttavia, minimizzare il tempo necessario agli esperti di dominio per annotare i dati è ancora una sfida significativa per le imprese di oggi – soprattutto in un ambiente in cui il talento della scienza dei dati è limitato e tuttavia in alta domanda. È qui che entrano in gioco due nuovi approcci alla preparazione dei dati.

Apprendimento attivo

L’apprendimento attivo è un metodo in cui un modello di ML richiede attivamente un’annotazione specifica a un esperto di dominio. Qui, l’attenzione non è rivolta a ottenere un’annotazione completa su dati non etichettati, ma solo a ottenere i punti di dati annotati in modo che il modello possa imparare meglio. Prendi ad esempio la sanità e le scienze della vita, un’azienda diagnostica che si specializza nella rilevazione precoce del cancro per aiutare i clinici a prendere decisioni informate basate sui dati sui pazienti. Come parte del loro processo di diagnosi, devono annotare le immagini di scansione CT con i tumori che devono essere evidenziati.

Dopo che il modello di ML ha imparato da alcune immagini con blocchi di tumori segnalati, con l’apprendimento attivo, il modello chiederà agli utenti di annotare solo le immagini in cui non è sicuro della presenza di un tumore. Questi saranno punti di confine, che, quando annotati, aumenteranno la fiducia del modello. Dove il modello è fiducioso al di sopra di una soglia specifica, eseguirà un’auto-annotazione piuttosto che chiedere all’utente di annotare. È così che l’apprendimento attivo cerca di aiutare a costruire modelli precisi riducendo il tempo e lo sforzo necessari per annotare i dati. Framework come modAL possono aiutare a migliorare le prestazioni di classificazione chiedendo intelligentemente agli esperti di dominio di etichettare le istanze più informative.

Supervisione debole

La supervisione debole è un approccio in cui i dati rumorosi e imprecisi o concetti astratti possono essere utilizzati per fornire indicazioni per l’etichettatura di grandi quantità di dati non supervisionati. Questo approccio utilizza di solito etichettatori deboli e cerca di combinarli in un approccio ensemble per costruire dati annotati di qualità. Lo sforzo è quello di cercare di incorporare la conoscenza del dominio in un’attività di etichettatura automatizzata.

Ad esempio, se un Fornitore di Servizi Internet (ISP) avesse bisogno di un sistema per segnalare dataset di posta elettronica come spam o non spam, potremmo scrivere regole deboli come il controllo di frasi come “offerta”, “congratulazioni”, “gratuito”, ecc., che sono per lo più associate a email spam. Altre regole potrebbero essere email da modelli di indirizzi di origine specifici che possono essere cercati tramite espressioni regolari. Queste funzioni deboli potrebbero quindi essere combinate da un framework di supervisione debole come Snorkel e Skweak per costruire dati di training di qualità migliorata.

Il ML nella sua essenza è aiutare le aziende a scalare i processi in modo esponenziale in modi che sono fisicamente impossibili da raggiungere manualmente. Tuttavia, il ML non è magia e si basa ancora sugli esseri umani per a) impostare e addestrare i modelli correttamente fin dall’inizio e b) intervenire quando necessario per assicurarsi che il modello non diventi così distorto da dove i risultati non siano più utili e possano essere controproducenti o negativi.

L’obiettivo è trovare modi per aiutare a razionalizzare e automatizzare parti del coinvolgimento umano per aumentare il tempo di mercato e i risultati, ma restando all’interno dei limiti dell’accuratezza ottimale. È universalmente accettato che ottenere dati annotati di qualità è la parte più costosa ma estremamente importante di un progetto di ML. Questo è uno spazio in evoluzione e molti sforzi sono in corso per ridurre il tempo trascorso dagli esperti di dominio e migliorare la qualità delle annotazioni dei dati. Esplorare e sfruttare l’apprendimento attivo e la supervisione debole è una strategia solida per raggiungere questo in diversi settori e casi d’uso.

Dattaraj Rao

Dattaraj Rao, Chief Data Scientist at Persistent Systems, è l'autore del libro “Keras to Kubernetes: The Journey of a Machine Learning Model to Production.” At Persistent Systems, Dattaraj guida il laboratorio di ricerca sull'AI che esplora algoritmi all'avanguardia in Computer Vision, Natural Language Understanding, programmazione probabilistica, Reinforcement Learning, Explainable AI, ecc. e dimostra l'applicabilità nei settori sanitari, bancari e industriali. Dattaraj ha 11 brevetti in Machine Learning e Computer Vision.

Unite.AI

Preparazione dei dati umani per il Machine Learning è risorsosa: questi due approcci sono fondamentali per ridurre i costi

Apprendimento attivo

Supervisione debole

You may like