Intelligenza artificiale
Resilienza > Precisione: Perché la “resilienza del modello” dovrebbe essere la vera metrica per l’operativizzazione dei modelli

Di Ingo Mierswa, Fondatore, Presidente e Chief Data Scientist di RapidMiner.
La scienza dei dati ha fatto alcuni grandi progressi negli ultimi due anni e molte organizzazioni stanno utilizzando analisi avanzate o modelli di apprendimento automatico per ottenere insight più profondi sui processi e, in alcuni casi, persino per prevedere risultati probabili per il futuro. Per altre “scienze”, non è sempre chiaro se un progetto sarà di successo o no, e ci sono stati rapporti che fino all’87% dei progetti di scienza dei dati non raggiungono la produzione. Sebbene non ci si possa aspettare un tasso di successo del 100%, ci sono alcuni modelli nei progetti di scienza dei dati che portano a tassi di successo più alti di quanto dovrebbe essere accettabile nel settore. Questi modelli problematici sembrano esistere indipendentemente da un particolare settore o caso d’uso, il che suggerisce che ci sia un problema universale nella scienza dei dati che deve essere affrontato.
Misurare il successo dell’apprendimento automatico
I data scientist che creano modelli di apprendimento automatico (ML) si affidano a criteri matematici ben definiti per misurare quanto bene questi modelli performino. Quale di questi criteri viene applicato dipende principalmente dal tipo di modello. Supponiamo che un modello debba prevedere classi o categorie per nuove situazioni – ad esempio, se un cliente è sul punto di abbandonare o no. In situazioni come queste, i data scientist utilizzerebbero misure come la precisione (quante volte il modello è corretto) o la precisione (quante volte i clienti abbandonano effettivamente se prevediamo l’abbandono).
I data scientist hanno bisogno di criteri oggettivi come questo perché parte del loro lavoro consiste nell’ottimizzare questi criteri di valutazione per produrre il miglior modello. In effetti, oltre a preparare i dati per il modeling, la costruzione e la regolazione di questi modelli è dove i data scientist spendono la maggior parte del loro tempo.
Il lato negativo di questo è che i data scientist non si concentrano molto sull’inserimento di questi modelli nella produzione, il che è un problema per più di una ragione. In primo luogo, i modelli che non producono risultati di successo non possono essere utilizzati per generare un impatto aziendale per le organizzazioni che li distribuiscono. In secondo luogo, poiché queste organizzazioni hanno speso tempo e denaro per sviluppare, formare e operativizzare modelli che non hanno prodotto risultati di successo quando eseguiti su “dati del mondo reale”, è probabile che considerino l’apprendimento automatico e altri strumenti di scienza dei dati come inutili per la loro organizzazione e rifiutino di proseguire con future iniziative di scienza dei dati.
La verità è che i data scientist semplicemente godono della regolazione dei modelli e spendono molto tempo su questo. Ma senza impatto aziendale, questo tempo non è speso saggiamente, il che è particolarmente doloroso data la scarsità di risorse dei data scientist nel mondo di oggi.
Il premio Netflix e il fallimento della produzione
Abbiamo visto questo fenomeno di sovra-investimento nella costruzione del modello e non nella sua operativizzazione giocare negli ultimi anni. Il Premio Netflix è stata una competizione aperta per il miglior algoritmo di filtraggio collaborativo per prevedere le valutazioni degli utenti per i film. Se si dà a un nuovo film una valutazione alta, è probabile che si sia apprezzato questo film – quindi utilizzando questo sistema di valutazione, Netflix consiglierà certi titoli e se si apprezza il contenuto consigliato, è probabile che si rimanga più a lungo come cliente di Netflix. Il premio principale era la somma di 1 milione di dollari, assegnato al team che è stato in grado di migliorare l’algoritmo di Netflix di almeno il 10%.

La sfida è iniziata nel 2006 e nei tre anni successivi, i contributi di oltre 40.000 team di data scientist in tutto il mondo hanno portato a un miglioramento impressionante di oltre il 10% per il successo della raccomandazione dei titoli. Tuttavia, i modelli del team vincitore non sono mai stati operativizzati. Netflix ha detto che “l’aumento di precisione non sembrava giustificare lo sforzo necessario per portare quei modelli in produzione.”
Perché l’ottimale non è sempre ottimale
La precisione del modello e altri criteri di scienza dei dati sono stati a lungo utilizzati come metrica per misurare il successo di un modello prima di inserirlo nella produzione. Come abbiamo visto, molti modelli non raggiungono nemmeno questa fase – il che è uno spreco di risorse, sia in termini di energia che di tempo speso.
Ma ci sono più problemi con questa cultura di sovra-investimento nella regolazione del modello. Il primo è un sovra-adattamento involontario ai dati di test, che porterà a modelli che sembrano buoni al data scientist che li gestisce, ma in realtà sotto-performano una volta in produzione – a volte persino causando danni. Ciò accade per due motivi:
- C’è una ben nota discrepanza tra l’errore di test e quello che si vedrà in produzione
- L’impatto aziendale e i criteri di performance della scienza dei dati sono spesso correlati, ma i modelli “ottimali” non sempre forniscono il maggior impatto
Il primo punto sopra è anche chiamato “sovrapprendimento al set di test“. È un fenomeno ben noto, soprattutto tra i partecipanti a competizioni di scienza dei dati come quelle di Kaggle. Per queste competizioni, si può vedere una versione più forte di questo fenomeno già tra la classifica pubblica e quella privata. In effetti, un partecipante potrebbe vincere la classifica pubblica in una competizione Kaggle senza aver mai letto i dati. Allo stesso modo, il vincitore della classifica privata e della competizione generale potrebbe non aver prodotto un modello che possa mantenere le sue prestazioni su qualsiasi set di dati diverso da quello su cui è stato valutato.
La precisione non è uguale all’impatto aziendale
Per troppo tempo abbiamo accettato questa pratica, che porta a un adattamento lento dei modelli ai set di dati di test. Di conseguenza, ciò che sembra il miglior modello si rivela mediocre al massimo:
- Misure come la precisione predittiva spesso non sono uguali all’impatto aziendale
- Un miglioramento della precisione dell’1% non può essere tradotto in un miglioramento dell’1% dell’esito aziendale
- Ci sono casi in cui un modello a bassa prestazione supera gli altri, in termini di impatto aziendale
- Altri fattori come la manutenzione, la velocità di punteggio o la robustezza contro i cambiamenti nel tempo (chiamata “resilienza”) devono essere presi in considerazione, anche.
Quest’ultimo punto è particolarmente importante. I migliori modelli non solo vinceranno le competizioni o sembreranno buoni nel laboratorio di scienza dei dati, ma si manterranno in produzione e si esibiranno bene su una varietà di set di test. Questi modelli sono quelli che chiamiamo modelli resilienti.
Deriva e l’importanza della resilienza
Tutti i modelli peggiorano nel tempo. La sola domanda è quanto velocemente ciò accada e quanto bene il modello si esibirà ancora nelle circostanze cambiate. Il motivo di questo peggioramento è il fatto che il mondo non è statico. Pertanto, i dati a cui il modello viene applicato cambiano anche nel tempo. Se questi cambiamenti avvengono lentamente, li chiamiamo “deriva del concetto”. Se i cambiamenti avvengono improvvisamente, li chiamiamo “cambiamento del concetto”. Ad esempio, i clienti possono cambiare il loro comportamento di consumo lentamente nel tempo, influenzati da tendenze e/o marketing. I modelli di propensione potrebbero non funzionare più a un certo punto. Questi cambiamenti possono essere drasticamente accelerati in determinate situazioni. Il COVID-19, ad esempio, ha guidato la vendita di articoli come carta igienica e disinfettanti – un aumento improvviso e inaspettato di prodotti specifici che può gettare completamente fuori strada un tale modello.
Un modello resiliente potrebbe non essere il miglior modello in base a misure come la precisione o la precisione, ma si esibirà bene su una gamma più ampia di set di dati. Per questo motivo, si esibirà anche meglio nel lungo periodo e sarà quindi in grado di fornire un impatto aziendale sostenibile.
I modelli lineari e altri tipi di modelli semplici sono spesso più resilienti perché è più difficile sovrapprenderli a un set di test specifico o a un momento nel tempo. Modelli più potenti possono e dovrebbero essere utilizzati come “sfidanti” per un modello più semplice, permettendo ai data scientist di vedere se possono anche reggere nel tempo. Ma ciò dovrebbe essere impiegato al punto finale, non all’inizio del viaggio del modeling.
Sebbene non sia stato ancora introdotto un KPI formale per misurare la resilienza nel campo della scienza dei dati, ci sono diversi modi in cui i data scientist possono valutare quanto siano resilienti i loro modelli:
- Deviazioni standard più piccole in una corsia di convalida incrociata significano che le prestazioni del modello dipendevano meno dalle specifiche dei diversi set di test
- Anche se i data scientist non eseguono una convalida incrociata completa, potrebbero utilizzare due set di dati diversi per test e convalida. Una minore discrepanza tra i tassi di errore per i dati di test e di convalida indica una maggiore resilienza
- Se il modello viene monitorato correttamente in produzione, i tassi di errore possono essere visti nel tempo. La coerenza dei tassi di errore nel tempo è un buon segno di resilienza del modello.
- Se la soluzione di monitoraggio del modello scelta tiene conto della deriva, i data scientist dovrebbero anche prestare attenzione a come il modello è influenzato da tale deriva.
Cambiare la cultura della scienza dei dati
Dopo che un modello è stato distribuito nella fase di operativizzazione, ci sono ancora minacce alla precisione del modello. Gli ultimi due punti sopra riguardanti la resilienza del modello richiedono già un monitoraggio appropriato dei modelli in produzione. Come punto di partenza per un cambiamento di cultura nella scienza dei dati, le aziende sono ben consigliate di investire in un monitoraggio del modello appropriato e di iniziare a tenere i data scientist responsabili della mancanza di prestazioni dopo che i modelli sono stati inseriti nella produzione. Ciò cambierà immediatamente la cultura da una cultura di costruzione del modello a una cultura di creazione e mantenimento del valore per il settore della scienza dei dati.
Come gli eventi mondiali recenti ci hanno mostrato, il mondo cambia rapidamente. Ora più che mai, dobbiamo costruire modelli resilienti – non solo precisi – per catturare un impatto aziendale significativo nel tempo. Ad esempio, Kaggle sta ospitando una sfida per galvanizzare i data scientist di tutto il mondo per aiutare a costruire soluzioni di modelli per utilizzarle nella lotta globale contro il COVID-19. Mi aspetto che i modelli più di successo prodotti a seguito di questa sfida saranno i più resilienti, non i più precisi, come abbiamo visto come i dati del COVID-19 possono cambiare rapidamente in un solo giorno.
La scienza dei dati dovrebbe essere sulla ricerca della verità, non sulla produzione del “miglior” modello. Tenendoci a un livello più alto di resilienza rispetto alla precisione, i data scientist saranno in grado di fornire un impatto aziendale maggiore per le nostre organizzazioni e aiutare a plasmare positivamente il futuro.












