stubs Google pētījumi identificē sašaurinājumu hipermēroga pieejā AI — Unite.AI
Savienoties ar mums

Mākslīgais intelekts

Google pētījumi identificē sašaurinājumu hipermēroga pieejā AI

mm
Atjaunināts on

Jauns Google Research dokuments norāda, ka pašreizējā tendence veidot ļoti liela apjoma datu kopas var būt neproduktīva efektīvu mākslīgā intelekta sistēmu izstrādei. Faktiski pētījumi liecina, ka pēc apmācības var rasties labāki mašīnmācīšanās produkti mazāk precīzas (ti, tehniski "sliktākas") datu kopas.

Ja pētnieku iegūtie principi ir derīgi, tas nozīmē, ka “hipermēroga” datu kopas, piemēram, nesen izdots LAION-400M (kas satur 400 miljonus teksta/attēla pāru) un dati, kas atrodas aiz GPT-3 neironu valodas dzinēja (kas satur 175 miljardus parametru), ir potenciāli pakļauti sava veida "termiskajam ierobežojumam" tradicionālajās un populārajās mašīnmācīšanās arhitektūrās. un metodoloģijas, kurās milzīgais datu apjoms “piesātina” pakārtotās lietojumprogrammas un neļauj tiem lietderīgi vispārināt.

Pētnieki arī ierosina alternatīvas metodes, lai pārdomātu hipermēroga datu kopas arhitektūru, lai novērstu nelīdzsvarotību.

Darbā teikts:

Iedziļinoties, lai izprastu iemeslus, kas izraisa šīs parādības, mēs parādām, ka mūsu novērotā piesātinājuma uzvedība ir cieši saistīta ar veidu, kā attēlojumi attīstās, izmantojot modeļu slāņus. Mēs demonstrējam vēl ekstrēmāku scenāriju, kurā veiktspēja augštecē un lejtecē ir pretrunā viena otrai. Tas ir, lai nodrošinātu labāku pakārtoto veiktspēju, mums ir jāsamazina augšupejošā precizitāte.

Jūsu darbs IR Klientu apkalpošana studēt tiek nosaukts Liela mēroga iepriekšējas apmācības ierobežojumu izpēte, un nāk no četriem Google Research autoriem.

“Piesātinājuma” izpēte

Autori apstrīd dominējošos pieņēmumus par mašīnmācīšanos>datu attiecībām hiperskalas datu laikmetā: ka mērogošanas modeļi un datu lielums ievērojami uzlabo veiktspēju (uzskats, kas kopš tā palaišanas ir nostiprinājies ažiotāžā par GPT-3); un ka šī uzlabotā veiktspēja lineārā (t. i., vēlamā) veidā “iziet cauri” pakārtotajiem uzdevumiem, lai ierīcē iebūvētie algoritmi, kas galu galā tiek laisti tirgū un kas iegūti no citādi nepārvaldāmi milzīgajām datu kopām un nedestilētiem apmācītiem modeļiem, gūtu pilnīgu labumu no pilnizmēra, augšupvērstu arhitektūru ieskati.

"Šie skati," pētnieki atzīmē 'ieteiktu, ka tērēt skaitļošanas un izpētes pūles, lai uzlabotu veiktspēju vienā masīvā korpusā, atmaksātos, jo tas ļautu mums gandrīz bez maksas atrisināt daudzus pakārtotos uzdevumus.

Taču rakstā tiek apgalvots, ka skaitļošanas resursu trūkums un tam sekojošās “ekonomiskās” modeļu novērtēšanas metodes veicina maldīgu priekšstatu par attiecību dinamiku starp datu apjomu un noderīgām mākslīgā intelekta sistēmām. Autori šo ieradumu identificē kā "būtisku trūkumu", jo pētnieku kopiena parasti pieņem, ka vietējie (pozitīvie) rezultāti tiks pārvērsti noderīgos vēlākos ieviejumos:

“[Aprēķinu ierobežojumu dēļ] netiek ziņots par veiktspēju dažādām hiperparametru vērtību izvēlēm. Mērogošanas diagrammas šķiet labvēlīgākas, ja katrai skalai izvēlētais hiperparametrs ir fiksēts vai noteikts ar vienkāršu mērogošanas funkciju.

Pētnieki arī norāda, ka daudzi mērogošanas pētījumi tiek mērīti nevis pēc absolūtām skalām, bet gan kā pakāpeniski uzlabojumi, salīdzinot ar jaunākajām tehnoloģijām (SotA), norādot, ka "nav iemesla a priori mērogošanu turēt ārpus pētītais diapazons”.

Iepriekšēja apmācība

Rakstā aplūkota “priekšapmācības” prakse — pasākums, kas paredzēts, lai taupītu skaitļošanas resursus un saīsinātu bieži vien šausminošos laikus, kas nepieciešami, lai modelētu liela mēroga datus no nulles. Pirmsapmācības momentuzņēmumi apstrādā “ABC”, kā viena domēna dati tiek vispārināti apmācības laikā, un tos parasti izmanto dažādās mašīnmācības nozarēs un specialitātēs, sākot no dabiskās valodas apstrādes (NLP) līdz dziļiem viltojumiem.

Iepriekšējie akadēmiskie pētījumi ir dibināt ka iepriekšēja apmācība var ievērojami uzlabot modeļa noturību un precizitāti, taču jaunais dokuments liecina, ka funkciju sarežģītība pat salīdzinoši īsi apmācītās pirmsapmācības veidnēs varētu būt izdevīgāka, ja to novirzītu uz vēlākiem konveijera procesiem. .

Tomēr tas nevar notikt, ja pētnieki joprojām ir atkarīgi no iepriekš apmācītiem modeļiem, kas izmanto pašreizējo labāko praksi mācīšanās tempu piemērošanā, kas, kā secināts pētījumā, var ievērojami ietekmēt darba galīgo pielietojumu galīgo precizitāti. Šajā ziņā autori atzīmē, ka “nevar cerēt atrast vienu iepriekš apmācītu kontrolpunktu, kas labi veiktu visus iespējamos pakārtotos uzdevumus”.

Pētījums

Lai noteiktu piesātinājuma efektu, autori veica 4800 eksperimentus ar Vision Transformers, ResNets un MLP-mixeriem, katrs ar dažādu parametru skaitu, no 10 miljoniem līdz 10 miljardiem, un visi tika apmācīti ar vislielākā apjoma datu kopām, kas pieejamas attiecīgajās nozarēs. ieskaitot ImageNet21K un Google pašu JFT-300M.

Rezultāti, kā apgalvo dokuments, to parāda datu daudzveidība ir jāuzskata par papildu asi, mēģinot “palielināt” datus, modelēt parametrus un aprēķina laiku. Pašreizējā situācijā lielā apmācības resursu (un pētnieku uzmanības) koncentrācija mākslīgā intelekta cauruļvada augšupējā posmā efektīvi izspridzina pakārtotās lietojumprogrammas ar parametru lavīnu līdz pat “piesātinājuma” punktam, samazinot izvietoto algoritmu spēju orientēties. caur pazīmēm un veikt secinājumu vai efektu transformācijas.

Rakstā secināts:

"Izmantojot plašu pētījumu, mēs konstatējām, ka, uzlabojot iepriekšējā uzdevuma veiktspēju, palielinot vai hiperparametru un arhitektūras izvēli, pakārtoto uzdevumu izpilde parāda piesātinātu darbību. Turklāt mēs sniedzam spēcīgus empīriskus pierādījumus tam, ka pretēji izplatītajam stāstījumam mērogošana nenoved pie viena modeļa risinājuma, kas der visiem.