škrbina Googlova raziskava odkriva ozko grlo v pristopih hiperrazsežnosti k umetni inteligenci - Unite.AI
Povežite se z nami

Umetna inteligenca

Googlova raziskava odkriva ozko grlo v pristopih hiperrazsežnosti k umetni inteligenci

mm
Posodobljeno on

Nov članek Googlove raziskave kaže, da je trenutni trend kuriranja zelo velikih podatkovnih nizov lahko kontraproduktiven za razvoj učinkovitih sistemov umetne inteligence. Pravzaprav raziskava kaže, da se lahko z usposabljanjem pojavijo boljši izdelki za strojno učenje manj točne (tj. tehnično "slabše") zbirke podatkov.

Če so načela, ki so jih pridobili raziskovalci, veljavna, to pomeni, da nabori podatkov v "hiperrazsežnosti", kot je nedavno izdano LAION-400M (ki vsebuje 400 milijonov parov besedilo/slika) in podatki v ozadju mehanizma nevronskega jezika GPT-3 (ki vsebuje 175 milijard parametrov) so potencialno podvrženi nekakšni 'toplotni omejitvi' v tradicionalnih in priljubljenih arhitekturah strojnega učenja. in metodologije, pri čemer sama količina podatkov 'nasiči' nadaljnje aplikacije in jim prepreči posploševanje na uporaben način.

Raziskovalci predlagajo tudi alternativne metode za ponoven razmislek o arhitekturi nabora podatkov hiperscale, da bi odpravili neravnovesje.

Članek navaja:

»Ko se poglobimo v razumevanje razlogov, ki povzročajo te pojave, pokažemo, da je nasičenost, ki jo opazujemo, tesno povezana z načinom, kako se predstavitve razvijajo skozi plasti modelov. Predstavljamo še bolj ekstremen scenarij, kjer sta si zmogljivost navzgor in navzdol v nasprotju. To pomeni, da moramo za boljšo zmogljivost na nižji stopnji zmanjšati natančnost navzgor.«

O študija je naslovljen Raziskovanje meja obsežnega predhodnega usposabljanja, prihaja pa od štirih avtorjev iz Google Research.

Preiskovanje "nasičenosti"

Avtorji izpodbijajo prevladujoče predpostavke o razmerjih med strojnim učenjem in podatki v dobi hiperscale podatkov: da skaliranje modelov in velikosti podatkov opazno izboljšuje učinkovitost (prepričanje, ki je bilo utrjeno v hype o GPT-3 od njegove uvedbe); in da ta izboljšana zmogljivost 'gre skozi' do nalog na nižji stopnji na linearen (tj. zaželen) način, tako da algoritmi v napravi, ki so sčasoma predstavljeni na trgu, izpeljani iz sicer neobvladljivo ogromnih naborov podatkov in nedestiliranih usposobljenih modelov, popolnoma izkoristijo vpogled v polno velike arhitekture navzgor.

"Ti pogledi," ugotavljajo raziskovalci "predlagajo, da bi se poraba računalniškega in raziskovalnega truda za izboljšanje zmogljivosti enega ogromnega korpusa izplačala, ker bi nam to omogočilo skoraj brezplačno reševanje številnih nalog na nižji stopnji."

Toda dokument trdi, da pomanjkanje računalniških virov in kasnejše "ekonomične" metode vrednotenja modela prispevajo k napačnemu vtisu o dinamiki razmerja med količino podatkov in uporabnimi sistemi AI. Avtorji opredeljujejo to navado kot 'veliko pomanjkljivost', saj raziskovalna skupnost običajno domneva, da se bodo lokalni (pozitivni) rezultati prevedli v uporabne kasnejše izvedbe:

„[Zaradi] računskih omejitev se učinkovitost za različne izbire vrednosti hiperparametrov ne poroča. Grafi za skaliranje se zdijo ugodnejši, če je hiperparameter, izbran za vsako lestvico, fiksen ali določen s preprosto funkcijo skaliranja.'

Raziskovalci nadalje navajajo, da se številne študije skaliranja ne merijo glede na absolutne lestvice, temveč kot postopne izboljšave glede na najsodobnejše (SotA), pri čemer ugotavljajo, da "a priori ni razloga, da bi skaliranje veljalo zunaj proučevano območje'.

Predhodni trening

Članek obravnava prakso "predhodnega usposabljanja", ukrep, namenjen prihranku računalniških virov in skrajšanju pogosto grozljivih časovnih okvirov, potrebnih za usposabljanje modela na obsežnih podatkih od nič. Posnetki pred usposabljanjem obravnavajo 'ABC', kako se bodo podatki znotraj ene domene posplošili med usposabljanjem, in se običajno uporabljajo v različnih sektorjih in specialitetah strojnega učenja, od obdelave naravnega jezika (NLP) do globokih ponaredkov.

Prejšnje akademske raziskave so je pokazala, da lahko predhodno usposabljanje opazno izboljša robustnost in natančnost modela, vendar novi dokument nakazuje, da bi kompleksnost funkcij, tudi v sorazmerno kratkotrajnih predlogah za predhodno usposabljanje, lahko bolj koristila, če bi jih preusmerili v kasnejše procese v nastajanju. .

Vendar se to ne more zgoditi, če bodo raziskovalci še naprej odvisni od predhodno usposobljenih modelov, ki uporabljajo trenutno najboljšo prakso pri uporabi stopenj učenja, kar lahko, kot ugotavlja raziskava, pomembno vpliva na končno natančnost končnih aplikacij dela. V zvezi s tem avtorji ugotavljajo, da "ne moremo upati, da bomo našli eno vnaprej usposobljeno kontrolno točko, ki bo dobro delovala pri vseh možnih nalogah na nižji stopnji".

Študij

Da bi ugotovili učinek nasičenosti, so avtorji izvedli 4800 poskusov na Vision Transformers, ResNets in MLP-Mixers, vsak z različnim številom parametrov, od 10 milijonov do 10 milijard, vsi pa so bili usposobljeni na najobsežnejših naborih podatkov, ki so na voljo v posameznih sektorjih, vključno z ImageNet21K in lastno Googlovo JFT-300M.

To kažejo rezultati, trdi časopis raznolikost podatkov je treba obravnavati kot dodatno os pri poskusu povečanja podatkov, parametrov modela in časa izračuna. V sedanjem stanju močna koncentracija virov za usposabljanje (in pozornosti raziskovalcev) na zgornjem odseku cevovoda umetne inteligence učinkovito razstreljuje nadaljnje aplikacije s plazom parametrov do točke "zasičenosti", kar zmanjšuje zmožnost uporabljenih algoritmov za navigacijo skozi funkcije in izvajajo sklepanje ali pretvorbe učinkov.

Dokument zaključuje:

„Z obsežno študijo smo ugotovili, da ko izboljšujemo uspešnost naloge navzgor bodisi s povečevanjem ali hiperparametri in arhitekturnimi izbirami, uspešnost nalog na nižji stopnji kaže nasičeno vedenje. Poleg tega nudimo močne empirične dokaze, da v nasprotju s splošno pripovedjo skaliranje ne vodi do rešitve, ki bi ustrezala vsem modelom.«