Seguici sui social

I ricercatori scoprono sottoreti altamente efficienti all'interno delle reti neurali di deep learning

Intelligenza Artificiale

I ricercatori scoprono sottoreti altamente efficienti all'interno delle reti neurali di deep learning

mm

Le reti neurali di deep learning sono spesso enormi e richiedono enormi quantità di potenza di calcolo, ma una nuova scoperta dimostra come questa possa essere ridotta per completare le attività in modo più efficiente. Jonathan Frankle e il suo team del MIT hanno escogitato le "ipotesi del biglietto della lotteria", che mostrano come ci siano sottoreti più snelle all'interno delle reti neurali più grandi. Queste sottoreti possono completare l'attività a portata di mano in modo più efficiente con una potenza di calcolo inferiore, con una delle maggiori sfide che consiste nel trovare tali sottoreti o vincere i biglietti della lotteria come li chiama il team.

Il team ha scoperto queste sottoreti all’interno di BERT, la tecnica di apprendimento automatico top di gamma per l’elaborazione del linguaggio naturale (NLP). La PNL, che è un sottocampo dell'intelligenza artificiale (AI), è responsabile della decifrazione e dell'analisi del linguaggio umano e viene utilizzata per applicazioni come la generazione predittiva di testo e i chatbot.

Tuttavia, BERT è grande e richiede potenza di supercalcolo, che è inaccessibile alla maggior parte degli utenti. Con la nuova scoperta di queste sottoreti, potrebbe aprire quell'accesso, consentendo a più utenti di utilizzare la tecnologia per sviluppare strumenti di PNL.

"Stiamo raggiungendo il punto in cui dovremo rendere questi modelli più snelli ed efficienti", afferma Frankle.

Secondo lui, questo sviluppo potrebbe "ridurre le barriere all'ingresso" per la PNL.

BERT – “Oscenamente costoso”  

BERT è fondamentale per cose come il motore di ricerca di Google e ha ricevuto molta attenzione da quando Google lo ha rilasciato nel 2018. È un metodo per creare reti neurali e viene addestrato tentando molte volte di riempire il passaggio vuoto dei pezzi di scrittura. Una delle caratteristiche più impressionanti di BERT è il suo enorme set di dati di addestramento iniziale.

Può quindi essere messo a punto dagli utenti per attività specifiche, come i chatbot del servizio clienti, ma ancora una volta richiede enormi quantità di potenza di elaborazione, con la possibilità che i parametri raggiungano 1 miliardo.

"Un modello BERT standard in questi giorni - la varietà da giardino - ha 340 milioni di parametri", afferma Frankle. “Questo è semplicemente oscenamente costoso. Questo è ben oltre la capacità di calcolo di te o me.

Secondo l'autore principale Tianlong Chen dell'Università del Texas ad Austin, modelli come BERT "soffrono di enormi dimensioni della rete", ma grazie alla nuova ricerca, "l'ipotesi del biglietto della lotteria sembra essere una soluzione".

Sottoreti efficienti 

Chen e il team hanno cercato un modello più piccolo situato all'interno di BERT e hanno confrontato le prestazioni delle sottoreti scoperte con il modello BERT originale. Questo è stato testato su una varietà di diverse attività di PNL, tra cui rispondere a domande e inserire parole vuote in una frase.

Il team ha scoperto sottoreti di successo che erano incredibilmente più sottili dal 40 al 90% rispetto al modello BERT originale, con la percentuale effettiva che dipendeva dall'attività. Inoltre, potrebbero identificarli prima della messa a punto specifica dell'attività, il che si traduce in un'ulteriore riduzione dei costi di calcolo. Un altro vantaggio era che alcune delle sottoreti selezionate per un'attività specifica potevano essere riutilizzate per un'altra.

"Ero un po' scioccato anche se questo ha funzionato", dice Frankle. “Non è qualcosa che ho dato per scontato. Mi aspettavo un risultato molto più disordinato di quello che abbiamo ottenuto.

Secondo Ari Morcos, uno scienziato di Facebook AI Research, questa scoperta è “convincente” e “Questi modelli stanno diventando sempre più diffusi. Quindi è importante capire se l'ipotesi del biglietto della lotteria regge".

Morcos afferma inoltre che se queste sottoreti potessero funzionare utilizzando una potenza di calcolo drasticamente inferiore, ciò sarebbe "di grande impatto dato che questi modelli estremamente grandi sono attualmente molto costosi da eseguire".

"Non so quanto più grande possiamo andare usando questi calcoli in stile supercomputer", aggiunge Frankle. "Dovremo ridurre la barriera all'ingresso".

"La speranza è che questo abbassi il costo, che questo lo renda più accessibile a tutti... ai ragazzini che hanno solo un laptop", conclude.

La ricerca sarà presentata al Conferenza sui sistemi di elaborazione delle informazioni neurali.

Alex McFarland è un giornalista e scrittore specializzato in intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup e pubblicazioni di intelligenza artificiale in tutto il mondo.