stub Google'i uuringud tuvastavad kitsaskoha AI hüperskaala lähenemisviisides – Unite.AI
Ühenda meile

Tehisintellekt

Google'i uuringud tuvastavad kitsaskoha AI hüperskaala lähenemisviisides

mm
Ajakohastatud on

Google Researchi uus artikkel näitab, et praegune suundumus väga suure mahuga andmekogumite kureerimise poole võib olla tõhusate tehisintellektisüsteemide arendamisele kahjulik. Tegelikult näitavad uuringud, et koolituse käigus võivad tekkida paremad masinõppetooted vähem täpsed (st tehniliselt "halvemad") andmekogumid.

Kui teadlaste saadud põhimõtted on kehtivad, tähendab see, et sellised „hüperskaala” andmestikud nagu hiljuti avaldatud LAION-400M (mis sisaldab 400 miljonit teksti/pildi paari) ja GPT-3 närvikeele mootori taga olevad andmed (sisaldab 175 miljardit parameetrit) on traditsioonilistes ja populaarsetes masinõppearhitektuurides potentsiaalselt allutatud teatud tüüpi termilisele piirangule. ja metoodikad, mille puhul tohutu andmemaht „küllastab” allavoolu rakendusi ja takistab nende üldistamist kasulikul viisil.

Samuti pakuvad teadlased välja alternatiivsed meetodid hüperskaala andmestiku arhitektuuri ümbermõtestamiseks, et tasakaalustamatust parandada.

Dokumendis öeldakse:

"Nende nähtuste põhjuste mõistmiseks süvenedes näitame, et meie vaadeldav küllastuskäitumine on tihedalt seotud sellega, kuidas esitused mudelite kihtide kaudu arenevad. Tutvustame veelgi ekstreemsemat stsenaariumi, kus üles- ja allavoolu jõudlus on üksteisega vastuolus. See tähendab, et parema allavoolu jõudluse saavutamiseks peame vähendama ülesvoolu täpsust.

. õppima on pealkirjaga Suuremahulise eelkoolituse piiride uurimineja pärineb neljalt Google Researchi autorilt.

„Küllastuse” uurimine

Autorid seavad kahtluse alla domineerivad eeldused masinõppe > andmesuhete kohta hüperskaala andmeajastul: mudelite ja andmemahu skaleerimine parandab märkimisväärselt jõudlust (uskumus, mis on GPT-3 hüppesse kinnistunud alates selle käivitamisest); ja et see paranenud jõudlus "kaksab" lineaarselt (st soovitavalt) allavoolu ülesannetesse, nii et seadmesisesed algoritmid, mis lõpuks turule tuuakse ja mis on tuletatud muidu valitsematult tohututest andmekogudest ja destilleerimata koolitatud mudelitest, saavad sellest täielikku kasu. ülevaated täissuuruses ülesvoolu arhitektuuridest.

"Need vaated," teadlased märgivad "soovitada, et arvutus- ja uurimistöö kulutamine ühe tohutu korpuse jõudluse parandamiseks tasuks end ära, sest see võimaldaks meil lahendada paljusid allavoolu ülesandeid peaaegu tasuta."

Kuid töös väidetakse, et arvutusressursside puudumine ja sellele järgnenud „ökonoomsed” mudeli hindamise meetodid loovad vale mulje andmemahu ja kasulike tehisintellektisüsteemide vahelise seose dünaamikast. Autorid peavad seda harjumust "suureks puuduseks", kuna teadlaskond eeldab tavaliselt, et kohalikud (positiivsed) tulemused muutuvad kasulikeks hilisemateks rakendusteks:

„[Arvutuspiirangute tõttu] ei esitata hüperparameetri väärtuste erinevate valikute toimivust. Skaleerimisgraafikud tunduvad soodsamad, kui iga skaala jaoks valitud hüperparameeter on fikseeritud või määratud lihtsa skaleerimisfunktsiooniga.

Teadlased väidavad veel, et paljusid skaleerimisuuringuid ei mõõdeta mitte absoluutsete skaaladega, vaid järkjärguliste täiustustena tipptasemel (SotA), märkides, et "ei ole a priori põhjust, miks skaleerimine peaks kehtima väljaspool uuritud vahemik”.

Eelkoolitus

Dokumendis käsitletakse „eelkoolituse” praktikat – meedet, mille eesmärk on säästa arvutusressursse ja lühendada sageli kohutavat ajakava, mis on vajalik suuremahuliste andmete mudeli nullist väljaõpetamiseks. Koolituseelsed hetktõmmised käsitlevad "ABC-sid", mis näitavad, kuidas ühes domeenis olevad andmed koolituse ajal üldistatakse, ja neid kasutatakse tavaliselt mitmesugustes masinõppe sektorites ja erialades, alates loomuliku keele töötlemisest (NLP) kuni süvavõltsini.

Varasemad akadeemilised uuringud on avastatud et eelkoolitus võib märkimisväärselt parandada mudeli töökindlust ja täpsust, kuid uus dokument viitab sellele, et funktsioonide keerukus, isegi suhteliselt lühikese väljaõppega eelkoolitusmallide puhul, võib olla kasulikum, kui see suunata hilisematele protsessidele. .

See ei saa aga juhtuda, kui teadlased sõltuvad jätkuvalt eelkoolitatud mudelitest, mis kasutavad õppimismäärade rakendamisel praegusi parimaid tavasid, mis uuringu järelduste kohaselt võivad märkimisväärselt mõjutada töö lõplike rakenduste lõplikku täpsust. Sellega seoses märgivad autorid, et "ei saa loota leida ühte eelkoolitatud kontrollpunkti, mis täidaks hästi kõiki võimalikke järgnevaid ülesandeid".

Uuring

Küllastusefekti kindlakstegemiseks viisid autorid läbi 4800 katset Vision Transformerite, ResNetside ja MLP-mikseritega, millest igaühel oli erinev arv parameetreid, 10 miljonist 10 miljardini, ning kõik olid koolitatud vastavates sektorites saadaolevate suurimate andmekogumitega. kaasa arvatud ImageNet21K ja Google'i oma JFT-300M.

Paber väidab, et tulemused näitavad seda andmete mitmekesisus tuleks pidada täiendavaks teljeks, kui üritatakse andmeid „suurendada”, modelleerida parameetreid ja arvutusaega. Praegusel kujul paiskab koolitusressursside (ja teadlaste tähelepanu) suur koondumine tehisintellekti torujuhtme ülesvoolu asuvale lõigule tõhusalt allavoolu rakendusi parameetrite laviiniga kuni "küllastuspunktini", mis vähendab juurutatud algoritmide navigeerimisvõimet. funktsioonide kaudu ja teostada järelduste või efektide teisendusi.

Paber järeldab:

"Lahjaliku uuringuga tuvastasime, et kui parandame ülesvoolu ülesande toimivust kas suurendamise või hüperparameetrite ja arhitektuuriliste valikute abil, näitab allavoolu ülesannete täitmine küllastavat käitumist. Lisaks pakume tugevaid empiirilisi tõendeid selle kohta, et vastupidiselt levinud narratiivile ei vii skaleerimine ühe mudeliga lahenduseni.