Intelligenza artificiale
Andrew Ng Critica la Cultura di Overfitting nel Machine Learning

Andrew Ng, una delle voci più influenti nel machine learning negli ultimi dieci anni, sta attualmente esprimendo preoccupazioni sulla misura in cui il settore enfatizza le innovazioni nell’architettura del modello rispetto ai dati – e in particolare, sulla misura in cui consente risultati “overfitted” come soluzioni generalizzate o avanzate.
Queste sono critiche ampie alla cultura attuale del machine learning, provenienti da una delle sue massime autorità, e hanno implicazioni per la fiducia in un settore assillato da paure su un terzo crollo della fiducia aziendale nello sviluppo dell’IA in un arco di tempo di sessant’anni.
Ng, professore alla Stanford University, è anche uno dei fondatori di deeplearning.ai, e nel marzo ha pubblicato un messaggio sul sito dell’organizzazione che ha distillato un recente discorso in un paio di raccomandazioni fondamentali:
Innanzitutto, che la comunità di ricerca dovrebbe smettere di lamentarsi che la pulizia dei dati rappresenta l’80% delle sfide nel machine learning, e mettersi al lavoro per sviluppare metodologie e pratiche di MLOps robuste.
In secondo luogo, che dovrebbe allontanarsi dalle “vittorie facili” che possono essere ottenute adattando i dati a un modello di machine learning, in modo che funzioni bene su quel modello ma fallisca nella generalizzazione o nella produzione di un modello ampiamente distribuibile.
Accettare la Sfida dell’Architettura e della Cura dei Dati
“La mia opinione”, ha scritto Ng, “è che se l’80% del nostro lavoro è la preparazione dei dati, allora assicurarsi della qualità dei dati è il lavoro importante di un team di machine learning.”
Ha continuato:
“Piuttosto che contare sugli ingegneri per trovare il modo migliore per migliorare un set di dati, spero che possiamo sviluppare strumenti MLOps che aiutino a rendere la costruzione di sistemi di intelligenza artificiale, compresa la costruzione di set di dati di alta qualità, più ripetibile e sistematica.
“MLOps è un campo nascente, e diverse persone lo definiscono in modo diverso. Ma credo che il principio organizzativo più importante per i team e gli strumenti MLOps dovrebbe essere quello di assicurare il flusso costante e di alta qualità dei dati in tutte le fasi di un progetto. Ciò aiuterà molti progetti a procedere più facilmente.”
Parlando su Zoom in una sessione di Q&A in diretta trasmessa alla fine di aprile, Ng ha affrontato la questione della carenza di applicabilità nei sistemi di analisi del machine learning per la radiologia:
“Risulta che quando raccogliamo dati dall’Ospedale di Stanford, poi li addestriamo e li testiamo sui dati dello stesso ospedale, in effetti, possiamo pubblicare articoli che mostrano [gli algoritmi] sono paragonabili ai radiologi umani nel rilevamento di determinate condizioni.
“…[Quando] si prende lo stesso modello, lo stesso sistema di intelligenza artificiale, e lo si porta in un ospedale più vecchio giù per la strada, con una macchina più vecchia, e il tecnico utilizza un protocollo di imaging leggermente diverso, quei dati si spostano per causare il degrado significativo delle prestazioni del sistema di intelligenza artificiale. Al contrario, qualsiasi radiologo umano può camminare giù per la strada fino all’ospedale più vecchio e fare bene.”
La Sottospecificazione Non È una Soluzione
L’overfitting si verifica quando un modello di machine learning è progettato specificamente per adattarsi alle eccentricità di un particolare set di dati (o al modo in cui i dati sono formattati). Ciò può comportare, ad esempio, la specificazione di pesi che produrranno risultati buoni da quel set di dati, ma non si “generalizzeranno” su altri dati.
In molti casi, tali parametri sono definiti su aspetti “non-dati” del set di addestramento, come la risoluzione specifica delle informazioni raccolte, o altre idiosincrasie che non sono garantite per ripetersi su altri set di dati successivi.
Sebbene sarebbe bello, l’overfitting non è un problema che può essere risolto allargando ciecamente la portata o la flessibilità dell’architettura dei dati o del design del modello, quando ciò che è realmente necessario sono caratteristiche ampiamente applicabili e molto salienti che funzioneranno bene su una gamma di ambienti di dati – una sfida più spinosa.
In generale, questo tipo di “sottospecificazione” porta solo ai problemi che Ng ha di recente delineato, dove un modello di machine learning fallisce su dati non visti. La differenza in questo caso è che il modello fallisce non perché i dati o il formato dei dati sono diversi dal set di addestramento originale overfitted, ma perché il modello è troppo flessibile piuttosto che troppo rigido.
Alla fine del 2020, il documento Underspecification Presents Challenges for Credibility in Modern Machine Learning ha mosso critiche intense contro questa pratica, e porta i nomi di non meno di quaranta ricercatori e scienziati di machine learning di Google e MIT, tra le altre istituzioni.
Il documento critica l'”apprendimento di scorciatoie”, e osserva il modo in cui i modelli sottospecificati possono prendere direzioni selvagge in base al punto di inizio casuale dell’addestramento del modello. I contributori osservano:
‘Abbiamo visto che la sottospecificazione è ubiqua nelle pipeline di machine learning pratiche in molti domini. In effetti, grazie alla sottospecificazione, aspetti sostanzialmente importanti delle decisioni sono determinati da scelte arbitrarie come il seme casuale utilizzato per l’inizializzazione dei parametri.’
Ripercussioni Economiche del Cambiamento della Cultura
Nonostante le sue credenziali accademiche, Ng non è un accademico aereo, ma ha una profonda e alta esperienza industriale come co-fondatore di Google Brain e Coursera, come ex scienziato capo per Big Data e AI a Baidu, e come fondatore di Landing AI, che amministra 175 milioni di dollari USA per nuove startup nel settore.
Quando dice “Tutto l’AI, non solo la sanità, ha un gap tra la prova del concetto e la produzione”, è inteso come un richiamo alla sveglia per un settore la cui attuale levatura di hype e storia macchiata ha sempre più caratterizzato come un investimento aziendale incerto a lungo termine, afflitto da problemi di definizione e portata.
Tuttavia, i sistemi di machine learning proprietari che funzionano bene in situ e falliscono in altri ambienti rappresentano il tipo di cattura del mercato che potrebbe ricompensare gli investimenti aziendali. Presentare il “problema di overfitting” nel contesto di un pericolo professionale offre un modo disonesto per monetizzare gli investimenti aziendali nella ricerca open source, e produrre (effettivamente) sistemi proprietari dove la replica da parte dei concorrenti è possibile, ma problematica.
Se questo approccio funzionerà a lungo termine dipenderà dalla misura in cui i veri progressi nel machine learning continueranno a richiedere livelli di investimento sempre maggiori, e se tutti gli iniziative produttive migreranno inevitabilmente verso FAANG in qualche misura, a causa delle risorse colossali necessarie per l’hosting e le operazioni.












