Intelligenza Artificiale

Andrew Ng critica la cultura dell'overfitting nell'apprendimento automatico

aggiornato on Dicembre 9, 2022

Andrew Ng, una delle voci più influenti nel campo dell'apprendimento automatico negli ultimi dieci anni, sta attualmente esprimendo preoccupazione sulla misura in cui il settore enfatizza le innovazioni nell'architettura dei modelli rispetto ai dati - e in particolare, la misura in cui consente risultati "sovraadattati" essere rappresentati come soluzioni o progressi generalizzati.

Queste sono critiche radicali all'attuale cultura dell'apprendimento automatico, provenienti da una delle sue massime autorità, e hanno implicazioni per la fiducia in un settore assalito dai timori per un terzo crollo della fiducia delle imprese nello sviluppo dell'IA in uno spazio di sessant'anni.

Ng, professore alla Stanford University, è anche uno dei fondatori di deeplearning.ai, e a marzo ha pubblicato un lettera sul sito dell'organizzazione che ha distillato a discorso recente del suo fino a un paio di raccomandazioni fondamentali:

In primo luogo, che la comunità di ricerca dovrebbe smetterla di lamentarsi del fatto che la pulizia dei dati rappresenta l'80% delle sfide nell'apprendimento automatico e continuare a sviluppare solide metodologie e pratiche MLOps.

In secondo luogo, dovrebbe allontanarsi dalle "vincite facili" che possono essere ottenute adattando eccessivamente i dati a un modello di apprendimento automatico, in modo che funzioni bene su quel modello ma non riesca a generalizzare o a produrre un modello ampiamente distribuibile.

Accettare la sfida dell'architettura e della cura dei dati

"Il mio punto di vista", ha scritto Ng. "è che se l'80 percento del nostro lavoro è la preparazione dei dati, garantire la qualità dei dati è il lavoro importante di un team di machine learning."

Ha continuato:

"Piuttosto che contare sugli ingegneri per trovare il modo migliore per migliorare un set di dati, spero che possiamo sviluppare strumenti MLOps che aiutino a rendere la costruzione di sistemi di intelligenza artificiale, compresa la creazione di set di dati di alta qualità, più ripetibili e sistematici".

'MLOps è un campo nascente e diverse persone lo definiscono in modo diverso. Ma penso che il principio organizzativo più importante dei team e degli strumenti MLOps dovrebbe essere quello di garantire un flusso di dati coerente e di alta qualità in tutte le fasi di un progetto. Questo aiuterà molti progetti ad andare più agevolmente.'

Parlando su Zoom in un live streaming Sessione di domande e risposte alla fine di aprile, Ng ha affrontato la carenza di applicabilità nei sistemi di analisi di machine learning per la radiologia:

“Si scopre che quando raccogliamo dati dallo Stanford Hospital, ci alleniamo e testiamo sui dati dello stesso ospedale, anzi, possiamo pubblicare articoli che mostrano che [gli algoritmi] sono paragonabili ai radiologi umani nell'individuare determinate condizioni.

“…[Quando] porti lo stesso modello, lo stesso sistema di intelligenza artificiale, in un ospedale più vecchio in fondo alla strada, con una macchina più vecchia, e il tecnico utilizza un protocollo di imaging leggermente diverso, i dati si spostano per causare un calo delle prestazioni del sistema di intelligenza artificiale degradare in modo significativo. Al contrario, qualsiasi radiologo umano può camminare per strada fino all'ospedale più vecchio e fare bene.

La sottospecificazione non è una soluzione

L'overfitting si verifica quando un modello di machine learning è progettato specificamente per accogliere le eccentricità di un particolare set di dati (o del modo in cui i dati sono formattati). Ciò può comportare, ad esempio, la specificazione di pesi che produrranno buoni risultati da quel set di dati, ma non saranno "generalizzati" su altri dati.

In molti casi, tali parametri sono definiti su aspetti "non dati" del set di addestramento, come la risoluzione specifica delle informazioni raccolte o altre idiosincrasie che non è garantito che si ripetano in altri set di dati successivi.

Anche se sarebbe bello, l'overfitting non è un problema che può essere risolto ampliando ciecamente l'ambito o la flessibilità dell'architettura dei dati o della progettazione del modello, quando ciò che è effettivamente necessario sono caratteristiche ampiamente applicabili e altamente salienti che funzioneranno bene su una gamma di dati ambienti – una sfida più spinosa.

In generale, questo tipo di "sottospecificazione" porta solo agli stessi problemi che Ng ha recentemente delineato, in cui un modello di apprendimento automatico fallisce su dati invisibili. La differenza in questo caso è che il modello fallisce non perché i dati o la formattazione dei dati sono diversi dal training set originale sovradimensionato, ma perché il modello è troppo flessibile piuttosto che troppo fragile.

Alla fine del 2020 il carta La sottospecificazione presenta sfide per la credibilità nell'apprendimento automatico moderno ha sollevato intense critiche contro questa pratica e portava i nomi di non meno di quaranta ricercatori e scienziati di machine learning di Google e MIT, tra le altre istituzioni.

Il documento critica "l'apprendimento tramite scorciatoia" e osserva il modo in cui i modelli sottospecificati possono decollare a tangenti selvagge in base al punto iniziale casuale in cui inizia l'addestramento del modello. I collaboratori osservano:

"Abbiamo visto che la sottospecificazione è onnipresente nelle pratiche pipeline di apprendimento automatico in molti domini. Infatti, grazie alla sottospecificazione, gli aspetti sostanzialmente importanti delle decisioni sono determinati da scelte arbitrarie come il seme casuale utilizzato per l'inizializzazione dei parametri.'

Ramificazioni economiche del cambiamento della cultura

Nonostante le sue credenziali accademiche, Ng non è un accademico leggero, ma ha una profonda esperienza nel settore di alto livello come co-fondatore di Google Brain e Coursera, come ex capo scienziato per Big Data e AI presso Baidu e come fondatore di Landing AI, che amministra 175 milioni di dollari per le nuove startup del settore.

Quando dice "Tutta l'intelligenza artificiale, non solo l'assistenza sanitaria, ha un divario tra proof of concept e produzione", è inteso come un campanello d'allarme per un settore il cui attuale livello di pubblicità e storia individuata lo ha sempre più caratterizzato come un incerto investimento aziendale a lungo termine, assediato da problemi di definizione e di portata.

Tuttavia, i sistemi proprietari di apprendimento automatico che funzionano bene in situ e falliscono in altri ambienti rappresentano il tipo di conquista del mercato che potrebbe premiare gli investimenti del settore. Presentare il "problema dell'overfitting" nel contesto di un rischio professionale offre un modo falso monetizzare investimenti aziendali nella ricerca open source e per produrre (effettivamente) sistemi proprietari in cui la replica da parte dei concorrenti è possibile, ma problematica.

Se questo approccio funzionerà o meno a lungo termine dipende dalla misura in cui continueranno a essere richieste le vere scoperte nel machine learning livelli di investimento sempre maggiorie se tutte le iniziative produttive migreranno inevitabilmente verso FAANG in una certa misura, a causa delle colossali risorse necessarie per l'hosting e le operazioni.