ciot Google Research identifică un blocaj în abordările hiperscale ale AI - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Google Research identifică un blocaj în abordările hiperscale ale AI

mm
Actualizat on

O nouă lucrare de la Google Research indică faptul că tendința actuală spre conservarea unor seturi de date cu volum foarte mare poate fi contraproductivă pentru dezvoltarea sistemelor eficiente de inteligență artificială. De fapt, cercetarea indică faptul că în urma instruirii pot apărea produse de învățare automată mai bune mai puțin seturi de date precise (adică „mai proaste”) din punct de vedere tehnic.

Dacă principiile obținute de cercetători sunt valide, înseamnă că seturi de date „hiperscale”, cum ar fi lansat recent LAION-400M (care conține 400 de milioane de perechi text/imagine) și datele din spatele motorului de limbaj neuronal GPT-3 (conținând 175 de miliarde de parametri) pot fi supuse unui fel de „limită termică” în arhitecturile tradiționale și populare de învățare automată. și metodologii, prin care volumul mare de date „saturează” aplicațiile din aval și împiedică generalizarea acestora într-un mod util.

Cercetătorii propun, de asemenea, metode alternative de regândire a arhitecturii setului de date hiperscale, pentru a remedia dezechilibrul.

Lucrarea afirmă:

„Aprofundând pentru a înțelege motivele care dau naștere acestor fenomene, arătăm că comportamentul de saturație pe care îl observăm este strâns legat de modul în care reprezentările evoluează prin straturile modelelor. Prezentăm un scenariu și mai extrem în care performanța în amonte și în aval sunt în contradicție. Adică, pentru a avea o performanță mai bună în aval, trebuie să rănim acuratețea în amonte.

studiu se intitulează Explorarea limitelor pre-antrenamentului la scară largăși provine de la patru autori de la Google Research.

Investigarea „saturației”

Autorii contestă ipotezele predominante ale relațiilor de învățare automată>date în era datelor hiperscale: că modelele de scalare și dimensiunea datelor îmbunătățesc în mod semnificativ performanța (o credință care a fost consolidată în hype-ul față de GPT-3 de la lansarea sa); și că această performanță îmbunătățită „trece” la sarcinile din aval într-un mod liniar (adică de dorit), astfel încât algoritmii de pe dispozitiv care sunt în cele din urmă lansați pe piață, derivați din seturile de date altfel neguvernabile și modelele antrenate nedistilate, beneficiază complet de perspectivele arhitecturilor full-size, din amonte.

„Aceste puncte de vedere”, notează cercetătorii „sugerăm că cheltuirea efortului de calcul și de cercetare pentru îmbunătățirea performanței pe un singur corpus masiv ar da roade, deoarece asta ne-ar permite să rezolvăm multe sarcini din aval aproape gratuit”.

Dar lucrarea susține că lipsa resurselor de calcul și metodele „economice” ulterioare de evaluare a modelului contribuie la o impresie falsă a dinamicii relației dintre volumul de date și sistemele AI utile. Autorii identifică acest obicei drept „un neajuns major”, deoarece comunitatea de cercetare presupune de obicei că rezultatele locale (pozitive) se vor traduce în implementări utile ulterioare:

„[Din cauza] limitărilor de calcul, performanța pentru diferite opțiuni de valori ale hiper-parametrului nu este raportată. Graficele de scalare par mai favorabile dacă hiper-parametrul ales pentru fiecare scară este fixat sau determinat de o funcție simplă de scalare.'

Cercetătorii afirmă în continuare că multe studii de scalare sunt măsurate nu în raport cu scale absolute, ci ca îmbunătățiri incrementale față de stadiul tehnicii (SotA), observând că „nu există niciun motiv, a priori, pentru ca scalarea să se mențină în afara intervalul studiat'.

Pre-antrenament

Lucrarea abordează practica „pre-training”, o măsură concepută pentru a economisi resurse de calcul și pentru a reduce intervalele de timp adesea îngrozitoare necesare pentru a antrena un model pe date la scară largă de la zero. Instantaneele înainte de antrenament gestionează „ABC-urile” modului în care datele dintr-un domeniu vor deveni generalizate în timpul instruirii și sunt utilizate în mod obișnuit într-o varietate de sectoare și specialități de învățare automată, de la procesarea limbajului natural (NLP) până la deepfake.

Cercetările academice anterioare au găsit că antrenamentul prealabil poate îmbunătăți în mod semnificativ robustețea și acuratețea modelului, dar noua lucrare sugerează că complexitatea caracteristicilor, chiar și în șabloanele de pregătire preliminară cu pregătire relativ scurtă, ar putea fi mai avantajoasă dacă este îndepărtată de la procesele ulterioare în curs de dezvoltare. .

Cu toate acestea, acest lucru nu se poate întâmpla dacă cercetătorii continuă să depindă de modele pre-instruite care utilizează cele mai bune practici actuale în aplicarea ratelor de învățare, care, concluzionează cercetarea, pot afecta în mod semnificativ acuratețea finală a aplicațiilor finale ale lucrării. În acest sens, autorii notează că „nu se poate spera să găsească un punct de control pre-antrenat care să funcționeze bine în toate sarcinile posibile din aval”.

Studiul

Pentru a stabili efectul de saturație, autorii au efectuat 4800 de experimente pe Vision Transformers, ResNets și MLP-Mixer, fiecare cu un număr variabil de parametri, de la 10 milioane la 10 miliarde, toate instruite pe seturile de date de cel mai mare volum disponibile în sectoarele respective, inclusiv ImageNet21K și al lui Google JFT-300M.

Rezultatele, susține lucrarea, arată asta diversitatea datelor ar trebui să fie considerată ca o axă suplimentară atunci când se încearcă „scalarea” datelor, parametrilor modelului și timpul de calcul. În prezent, concentrația puternică a resurselor de formare (și atenția cercetătorului) pe secțiunea din amonte a unei conducte AI explodează efectiv aplicațiile din aval cu o avalanșă de parametri până la un punct de „saturație”, scăzând capacitatea algoritmilor implementați de a naviga. prin caracteristici și efectuează transformări de inferență sau efect.

Lucrarea conchide:

„Printr-un studiu amplu, stabilim că, pe măsură ce îmbunătățim performanța sarcinii din amonte, fie prin creșterea la scară, fie prin alegeri hiper-parametrice și arhitecturale, performanța sarcinilor din aval arată un comportament saturat. În plus, oferim dovezi empirice puternice că, spre deosebire de narațiunea obișnuită, scalarea nu duce la o soluție unică pentru toate”.