Seguici sui social

La ricerca di Google identifica un collo di bottiglia negli approcci iperscalabili all'IA

Intelligenza Artificiale

La ricerca di Google identifica un collo di bottiglia negli approcci iperscalabili all'IA

mm

Un nuovo documento di Google Research indica che l'attuale tendenza verso la cura di set di dati di volume molto elevato potrebbe essere controproducente per lo sviluppo di sistemi di intelligenza artificiale efficaci. In effetti, la ricerca indica che i migliori prodotti di apprendimento automatico possono emergere dalla formazione meno set di dati accurati (vale a dire tecnicamente "peggiori").

Se i principi ottenuti dai ricercatori sono validi, significa che i set di dati "iperscalari" come il recentemente rilasciato LAION-400M (che contiene 400 milioni di coppie testo/immagine) e i dati alla base del motore linguistico neurale GPT-3 (contenente 175 miliardi di parametri) sono potenzialmente soggetti a una sorta di "limite termico" nelle architetture e nelle metodologie di apprendimento automatico tradizionali e diffuse, per cui l'enorme volume di dati "satura" le applicazioni downstream e impedisce loro di generalizzare in modo utile.

I ricercatori propongono anche metodi alternativi per ripensare l'architettura del set di dati iperscalabile, al fine di correggere lo squilibrio.

Il documento afferma:

"Approfondendo la comprensione delle ragioni che danno origine a questi fenomeni, dimostriamo che il comportamento di saturazione che osserviamo è strettamente correlato al modo in cui le rappresentazioni evolvono attraverso i livelli dei modelli. Presentiamo uno scenario ancora più estremo in cui le prestazioni a monte e a valle sono in contrasto tra loro. In altre parole, per ottenere prestazioni a valle migliori, dobbiamo compromettere l'accuratezza a monte".

. studio è intitolato Esplorare i limiti della pre-formazione su larga scalae proviene da quattro autori di Google Research.

Indagine sulla "saturazione"

Gli autori mettono in discussione le ipotesi prevalenti sulle relazioni tra apprendimento automatico e dati nell'era dei dati iperscalabili: che il ridimensionamento dei modelli e delle dimensioni dei dati migliori notevolmente le prestazioni (una convinzione che è stata consolidata nell'entusiasmo per GPT-3 sin dal suo lancio); e che questo miglioramento delle prestazioni "si trasmette" alle attività downstream in modo lineare (ovvero auspicabile), in modo che gli algoritmi sui dispositivi che vengono infine lanciati sul mercato, derivati ​​da set di dati altrimenti ingovernabilmente enormi e modelli addestrati non distillati, traggano pieno vantaggio dalle intuizioni delle architetture upstream a grandezza naturale.

"Queste opinioni", notano i ricercatori "suggeriscono che investire risorse di calcolo e di ricerca per migliorare le prestazioni di un corpus enorme sarebbe redditizio perché ci permetterebbe di risolvere molti compiti a valle quasi gratuitamente".

Tuttavia, l'articolo sostiene che la mancanza di risorse di calcolo e i conseguenti metodi "economici" di valutazione dei modelli contribuiscono a creare una falsa impressione delle dinamiche relazionali tra volume di dati e sistemi di intelligenza artificiale utili. Gli autori identificano questa abitudine come "una grave lacuna", poiché la comunità di ricerca in genere presume che i risultati locali (positivi) si tradurranno in utili implementazioni successive:

"[A causa] di limitazioni di calcolo, le prestazioni per diverse scelte di valori di iperparametri non vengono riportate. I grafici di scala sembrano più favorevoli se l'iperparametro scelto per ciascuna scala è fisso o determinato da una semplice funzione di scala."

I ricercatori affermano inoltre che molti studi di ridimensionamento non vengono misurati in base a scale assolute, ma come miglioramenti incrementali rispetto allo stato dell'arte (SotA), osservando che "non c'è motivo, a priori, per cui il ridimensionamento debba essere valido al di fuori dell'intervallo studiato".

Pre-allenamento

L'articolo affronta la pratica del "pre-addestramento", una misura progettata per risparmiare risorse di calcolo e ridurre i tempi, spesso esorbitanti, necessari per addestrare un modello su dati di grandi dimensioni partendo da zero. Gli snapshot di pre-addestramento gestiscono l'ABC del modo in cui i dati all'interno di un dominio verranno generalizzati durante l'addestramento e sono comunemente utilizzati in una varietà di settori e specializzazioni del machine learning, dall'elaborazione del linguaggio naturale (NLP) ai deepfake.

La precedente ricerca accademica ha essere trovato che il pre-addestramento può migliorare notevolmente la robustezza e l'accuratezza del modello, ma il nuovo documento suggerisce che la complessità delle funzionalità, anche in modelli di pre-addestramento relativamente brevi, potrebbe essere di maggiore beneficio se indirizzata a processi successivi nella pipeline .

Tuttavia, ciò non può accadere se i ricercatori continuano a fare affidamento su modelli pre-addestrati che utilizzano le migliori pratiche attuali nell'applicazione dei tassi di apprendimento, il che, conclude la ricerca, può influire notevolmente sull'accuratezza finale delle applicazioni finali del lavoro. A questo proposito, gli autori osservano che "non si può sperare di trovare un unico checkpoint pre-addestrato che funzioni bene in tutte le possibili attività a valle".

Lo studio

Per stabilire l'effetto di saturazione, gli autori hanno condotto 4800 esperimenti su Vision Transformers, ResNets e MLP-Mixer, ciascuno con un numero variabile di parametri, da 10 milioni a 10 miliardi, tutti addestrati sui set di dati di volume più elevato disponibili nei rispettivi settori, Compreso ImageNet21K e quello di Google JFT-300M.

I risultati, afferma il giornale, lo dimostrano diversità dei dati dovrebbe essere considerato un asse aggiuntivo quando si cerca di "scalare" dati, parametri di modello e tempi di calcolo. Allo stato attuale, la forte concentrazione di risorse di formazione (e attenzione dei ricercatori) sulla sezione upstream di una pipeline di intelligenza artificiale sta di fatto bombardando le applicazioni downstream con una valanga di parametri fino a un punto di "saturazione", riducendo la capacità degli algoritmi implementati di navigare tra le funzionalità ed eseguire inferenze o trasformazioni di effetti.

Il documento conclude:

"Attraverso uno studio approfondito, abbiamo stabilito che migliorando le prestazioni dell'attività upstream, sia tramite scalabilità verticale che tramite scelte architetturali e di iperparametri, le prestazioni delle attività downstream mostrano un comportamento di saturazione. Inoltre, forniamo solide prove empiriche che, contrariamente a quanto si pensa comunemente, la scalabilità non porta a una soluzione unica e universale."

 

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai