mozzicone La ricerca di Google identifica un collo di bottiglia negli approcci iperscalabili all'IA - Unite.AI
Seguici sui social

Intelligenza Artificiale

La ricerca di Google identifica un collo di bottiglia negli approcci iperscalabili all'IA

mm
aggiornato on

Un nuovo documento di Google Research indica che l'attuale tendenza verso la cura di set di dati di volume molto elevato potrebbe essere controproducente per lo sviluppo di sistemi di intelligenza artificiale efficaci. In effetti, la ricerca indica che i migliori prodotti di apprendimento automatico possono emergere dalla formazione meno set di dati accurati (cioè tecnicamente "peggiori").

Se i principi ottenuti dai ricercatori sono validi, significa che i set di dati 'iperscala' come il recentemente rilasciato LAION-400M (che contiene 400 milioni di coppie testo/immagine) e i dati dietro il motore linguistico neurale GPT-3 (contenente 175 miliardi di parametri), sono potenzialmente soggetti a una sorta di "limite termico" nelle tradizionali e popolari architetture di machine learning e metodologie, per cui l'enorme volume di dati "satura" le applicazioni a valle e impedisce loro di essere generalizzate in modo utile.

I ricercatori propongono anche metodi alternativi per ripensare l'architettura del set di dati iperscalabile, al fine di correggere lo squilibrio.

Il documento afferma:

"Scavando più a fondo per comprendere le ragioni che danno origine a questi fenomeni, mostriamo che il comportamento di saturazione che osserviamo è strettamente correlato al modo in cui le rappresentazioni si evolvono attraverso gli strati dei modelli". Mostriamo uno scenario ancora più estremo in cui le prestazioni a monte ea valle sono in contrasto tra loro. Cioè, per avere una migliore prestazione a valle, dobbiamo danneggiare la precisione a monte.'

I studio è intitolato Esplorare i limiti della pre-formazione su larga scalae proviene da quattro autori di Google Research.

Indagare sulla "saturazione"

Gli autori sfidano i presupposti prevalenti di apprendimento automatico>relazioni dati nell'era dei dati iperscala: che il ridimensionamento dei modelli e delle dimensioni dei dati migliora notevolmente le prestazioni (una convinzione che è stata cementata nell'hype su GPT-3 sin dal suo lancio); e che questa prestazione migliorata "passi attraverso" alle attività a valle in modo lineare (vale a dire desiderabile), in modo che gli algoritmi sul dispositivo che vengono infine lanciati sul mercato, derivati ​​da set di dati altrimenti ingovernabilmente enormi e modelli addestrati non distillati, beneficino completamente di le intuizioni delle architetture upstream a grandezza naturale.

"Questi punti di vista," notano i ricercatori "suggeriscono che spendere sforzi di calcolo e ricerca per migliorare le prestazioni su un enorme corpus sarebbe ripagato perché ciò ci consentirebbe di risolvere molti compiti a valle quasi gratuitamente."

Ma il documento sostiene che la mancanza di risorse di calcolo e i conseguenti metodi "economici" di valutazione del modello stanno contribuendo a una falsa impressione delle dinamiche di relazione tra volume di dati e sistemi di intelligenza artificiale utili. Gli autori identificano questa abitudine come "un grave difetto", poiché la comunità di ricerca in genere presume che i risultati locali (positivi) si tradurranno in utili implementazioni successive:

'[A causa] delle limitazioni di calcolo, le prestazioni per diverse scelte di valori di iperparametri non vengono riportate. I grafici di ridimensionamento sembrano più favorevoli se l'iperparametro scelto per ciascuna scala è fisso o determinato da una semplice funzione di ridimensionamento.'

I ricercatori affermano inoltre che molti studi sul ridimensionamento sono misurati non rispetto a scale assolute, ma come miglioramenti incrementali rispetto allo stato dell'arte (SotA), osservando che "non vi è alcuna ragione, a priori, per il ridimensionamento al di fuori di la gamma studiata'.

Pre-allenamento

Il documento affronta la pratica del "pre-addestramento", una misura progettata per risparmiare risorse di calcolo e ridurre i tempi, spesso orrendi, necessari per addestrare da zero un modello su dati su larga scala. Le istantanee pre-formazione gestiscono l'"ABC" del modo in cui i dati all'interno di un dominio verranno generalizzati durante la formazione e sono comunemente utilizzati in una varietà di settori e specialità di apprendimento automatico, dall'elaborazione del linguaggio naturale (NLP) fino ai deepfake.

La precedente ricerca accademica ha essere trovato che il pre-addestramento può migliorare notevolmente la robustezza e l'accuratezza del modello, ma il nuovo documento suggerisce che la complessità delle funzionalità, anche in modelli di pre-addestramento relativamente brevi, potrebbe essere di maggiore beneficio se indirizzata a processi successivi nella pipeline .

Tuttavia, ciò non può accadere se i ricercatori continuano a dipendere da modelli pre-addestrati che utilizzano le migliori pratiche attuali nell'applicazione dei tassi di apprendimento, che, conclude la ricerca, possono influenzare notevolmente l'accuratezza finale delle applicazioni finali del lavoro. A questo proposito, gli autori osservano che "non si può sperare di trovare un punto di controllo pre-addestrato che funzioni bene in tutte le possibili attività a valle".

Lo studio

Per stabilire l'effetto di saturazione, gli autori hanno condotto 4800 esperimenti su Vision Transformers, ResNets e MLP-Mixer, ciascuno con un numero variabile di parametri, da 10 milioni a 10 miliardi, tutti addestrati sui set di dati di volume più elevato disponibili nei rispettivi settori, Compreso ImageNet21K e di Google JFT-300M.

I risultati, afferma il giornale, lo dimostrano diversità dei dati dovrebbe essere considerato come un asse aggiuntivo quando si tenta di "scalare" i dati, i parametri del modello e il tempo di calcolo. Allo stato attuale, la forte concentrazione di risorse di formazione (e l'attenzione dei ricercatori) sulla sezione a monte di una pipeline AI sta effettivamente facendo esplodere le applicazioni a valle con una valanga di parametri fino a un punto di "saturazione", riducendo la capacità degli algoritmi implementati di navigare attraverso caratteristiche ed eseguire trasformazioni di inferenza o effetto.

Il documento conclude:

"Attraverso uno studio approfondito, stabiliamo che mentre miglioriamo le prestazioni dell'attività a monte mediante il ridimensionamento o le scelte architetturali e iperparametriche, le prestazioni delle attività a valle mostrano un comportamento di saturazione." Inoltre, forniamo una forte evidenza empirica che, contrariamente alla narrativa comune, il ridimensionamento non porta a una soluzione valida per tutti.'