Ühenda meile

Tehisintellekt

SEER: läbimurre isejärelevalvega arvutinägemismudelites?

mm
Ajakohastatud on
SEER-i enesejuhitava õppe raamistik

Viimase kümnendi jooksul on tehisintellekt (AI) ja masinõpe (ML) teinud tohutut edu. Tänapäeval on need täpsemad, tõhusamad ja võimekamad kui kunagi varem. Kaasaegsed AI- ja ML-mudelid suudavad piltidel või videofailidel objekte sujuvalt ja täpselt ära tunda. Lisaks võivad nad luua teksti ja kõnet, mis on paralleelsed inimese intelligentsusega.

Tänapäeva AI- ja ML-mudelid sõltuvad suuresti märgistatud andmestiku koolitusest, mis õpetab neid tõlgendama tekstiplokki, tuvastama pildi- või videokaadris objekte ja tegema mitmeid muid ülesandeid. 

Vaatamata oma võimalustele ei ole AI ja ML mudelid täiuslikud ning teadlased töötavad selle nimel, et luua mudeleid, mis on võimelised neile antud teabest õppima ega tugine tingimata märgistatud või annoteeritud andmetele. Seda lähenemist tuntakse kui iseseisvalt juhendatud õpeja see on üks tõhusamaid meetodeid ML ja AI mudelite loomiseks, millel onterve mõistus” ehk taustateadmisi, et lahendada probleeme, mis tänapäeval tehisintellektimudelite võimed ületavad. 

Enesejuhitud õpe on juba näidanud oma tulemusi loomuliku keele töötlemise valdkonnas, kuna see on võimaldanud arendajatel koolitada suuri mudeleid, mis suudavad töötada tohutu hulga andmetega, ja on toonud kaasa mitmeid läbimurdeid loomuliku keele järeldamine, masintõlge ja küsimustele vastamine. 

Facebooki AI mudeli SEER eesmärk on maksimeerida iseseisvalt juhendatud õppimise võimalusi arvutinägemise valdkonnas. SEER või Enesejärelevalve on isejärelevalvega arvutinägemise õppimismudel, millel on üle miljardi parameetri ja mis suudab leida mustreid või õppida isegi juhuslikust Internetist leitud kujutiste rühmast ilma korralike märkuste või siltideta. 

Vajadus iseseisvalt juhendatud õppimise järele arvutinägemises

Andmete märkimine või andmete märgistamine on masinõppe ja tehisintellekti mudelite väljatöötamise eeltöötlusetapp. Andmete annotatsiooniprotsess tuvastab töötlemata andmed, nagu pildid või videokaadrid, ja lisab seejärel andmetele sildid, et täpsustada mudeli andmete konteksti. Need sildid võimaldavad mudelil andmete kohta täpseid ennustusi teha. 

Üks suurimaid takistusi ja väljakutseid, millega arendajad arvutinägemismudelitega töötades silmitsi seisavad, on kvaliteetsete annoteeritud andmete leidmine. Arvuti visioon Tänapäeva mudelid tuginevad nendele märgistatud või märkustega andmestikule, et õppida mustreid, mis võimaldavad neil pildil olevaid objekte ära tunda. 

Andmete annotatsioon ja selle kasutamine arvutinägemise mudelis seavad järgmised väljakutsed:

Järjepideva andmekomplekti kvaliteedi haldamine

Tõenäoliselt on arendajate suurimaks takistuseks saada järjepidev juurdepääs kvaliteetsele andmekogumile, sest kvaliteetsete siltide ja selgete piltidega andmekogum annab parema õppimise ja täpsemad mudelid. Kvaliteetse andmestiku pideval juurdepääsul on aga omad väljakutsed. 

Tööjõu juhtimine

Andmete märgistamisega kaasnevad sageli tööjõuhaldusprobleemid peamiselt seetõttu, et suur hulk töötajaid on kohustatud töötlema ja märgistama suure hulga struktureerimata ja märgistamata andmeid, tagades samal ajal kvaliteedi. Seega on andmete märgistamisel oluline, et arendajad leiaksid tasakaalu kvaliteedi ja kvantiteedi vahel. 

Rahalised piirangud

Tõenäoliselt on suurimaks takistuseks andmete märgistamise protsessiga kaasnevad rahalised piirangud ja enamasti moodustab andmete märgistamise maksumus märkimisväärse protsendi projekti kogumaksumusest. 

Nagu näete, on andmete annoteerimine suureks takistuseks täiustatud arvutinägemismudelite väljatöötamisel, eriti kui tegemist on keerukate mudelite väljatöötamisega, mis käsitlevad suurt hulka treeningandmeid. See on põhjus, miks arvutinägemise tööstus vajab iseseisvat juhendamist, et arendada keerukaid ja täiustatud arvutinägemismudeleid, mis suudavad lahendada ülesandeid, mis jäävad praeguste mudelite reguleerimisalast välja. 

Seda arvestades on juba palju enesejärelevalvega õppemudeleid, mis on hästi toiminud kontrollitud keskkonnas ja peamiselt ImageNeti andmekogumis. Kuigi need mudelid võivad teha head tööd, ei vasta nad arvutinägemises iseseisvalt juhendatava õppimise esmasele tingimusele: õppida mis tahes piiramata andmekogumist või juhuslikust kujutisest, mitte ainult täpselt määratletud andmekogumist. Ideaalsel rakendamisel võib enesekontrolliga õpe aidata välja töötada täpsemaid ja võimekamaid arvutinägemismudeleid, mis on ka tasuvad ja elujõulised. 

SEER ehk enesejärelevalve mudel: sissejuhatus

Hiljutised suundumused AI- ja ML-tööstuses on näidanud, et koolituseelsed lähenemisviisid, nagu pooljärelvalvega, nõrgalt juhendatud ja enesejärelevalvega õppimine, võivad märkimisväärselt parandada enamiku süvaõppe mudelite toimivust järgnevate ülesannete jaoks. 

On kaks peamist tegurit, mis on oluliselt kaasa aidanud nende süvaõppe mudelite jõudluse suurendamisele.

Massiivsete andmekogumite eelkoolitus

Massiivsete andmekogumite eelkoolitus tagab üldiselt parema täpsuse ja jõudluse, kuna see paljastab mudeli paljudele andmetele. Suur andmekogum võimaldab mudelitel andmete mustreid paremini mõista ja lõppkokkuvõttes annab see mudelile parema toimivuse reaalsetes stsenaariumides. 

Mõned kõige paremini toimivad mudelid, nagu GPT-3 mudel ja Wav2vec 2.0 mudel, on treenitud tohutute andmekogumitega. GPT-3 keelemudel kasutab koolituseelset andmestikku, millel on üle 300 miljardit sõna samas kui Wav2vec 2.0 kõnetuvastuse mudel kasutab andmestikku, millel on üle 53 tuhat tundi heliandmeid

Suure mahutavusega mudelid

Suuremate parameetrite arvuga mudelid annavad sageli täpseid tulemusi, kuna suurem arv parameetreid võimaldab mudelil keskenduda andmetes leiduvatele häiretele või mürale, vaid andmetes leiduvatele objektidele. 

Varasemad arendajad on püüdnud koolitada enesekontrolliga õppemudeleid märgistamata või kureerimata andmetel, kuid väiksemate andmekogumitega, mis sisaldasid vaid mõnda miljonit pilti. Kuid kas enesejärelevalvega õppemudelid võivad olla väga täpsed, kui neid koolitatakse suurel hulgal märgistamata ja kureerimata andmetel? Just sellele küsimusele SEER-i mudeli eesmärk on vastata. 

. SEER-mudel on süvaõpperaamistik, mille eesmärk on registreerida Internetis saadaolevaid pilte, sõltumata kureeritud või märgistatud andmekogumitest. SEER-i raamistik võimaldab arendajatel treenida suuri ja keerulisi ML-mudeleid juhuslikel andmetel ilma järelevalveta, st mudel analüüsib andmeid ja õpib mustreid või teavet iseseisvalt ilma käsitsi sisestamata. 

SEER-i mudeli lõppeesmärk on aidata välja töötada koolituseelse protsessi strateegiaid, mis kasutavad kureerimata andmeid, et pakkuda ülekandeõppes tipptasemel tipptasemel jõudlust. Lisaks on SEER mudeli eesmärk on ka luua süsteeme, mis suudavad pidevalt õppida lõputust andmevoost enesejärelevalvel.

SEER-i raamistik treenib suure võimsusega mudeleid miljarditel juhuslikel ja piiramatutel Internetist eraldatud piltidel. Nendel piltidel treenitud mudelid ei tugine mudeli koolitamisel ega andmete filtreerimisel pildi metaandmetele ega märkustele. Viimastel aegadel on enesejärelevalvega õppimine näidanud suurt potentsiaali, kuna kureerimata andmetel põhinevad koolitusmudelid on andnud paremaid tulemusi võrreldes juhendatud eelkoolitatud mudelitega järgnevateks ülesanneteks. 

SEER Framework ja RegNet: mis on ühendus?

SEER-i mudeli analüüsimiseks keskendub see RegNeti arhitektuurile enam kui 700 miljoni parameetriga, mis on kooskõlas SEER-i eesmärgiga iseseisvalt kontrollida kureerimata andmetel õppimist kahel peamisel põhjusel:

  1. Need pakuvad täiuslikku tasakaalu jõudluse ja tõhususe vahel. 
  2. Need on väga paindlikud ja neid saab kasutada mitme parameetri skaleerimiseks. 

SEERi raamistik: eelnev töö erinevatest piirkondadest

SEER-i raamistiku eesmärk on uurida suurte mudeliarhitektuuride koolitamise piire kureerimata või märgistamata andmekogumites, kasutades enesekontrolliga õppimist, ning mudel otsib inspiratsiooni varasemast valdkonnas tehtud tööst. 

Visuaalsete funktsioonide eelkoolitus ilma järelvalveta

Enesejuhitavat õpet on arvutinägemises juba mõnda aega rakendatud meetoditega automaatkodeerijad, eksemplaritaseme diskrimineerimine või klasterdamine. Viimasel ajal on kontrastiivset õpet kasutavad meetodid näidanud, et koolituseelsed mudelid, mis kasutavad alljärgnevate ülesannete jaoks juhendamata õpet, võivad toimida paremini kui juhendatud õppimisviisid. 

Peamine võimalus visuaalsete funktsioonide järelevalveta õppimisest on see seni, kuni treenite filtreeritud andmetega, pole järelevalvega sildid nõutavad. SEER-mudeli eesmärk on uurida, kas mudel suudab õppida täpseid esitusi, kui suuri mudeliarhitektuure treenitakse suurel hulgal kureerimata, märgistamata ja juhuslikel kujutistel. 

Visuaalsete funktsioonide õppimine mastaapselt

Varasemad mudelid on saanud kasu mudelite eelkoolitamisest suurte märgistatud andmekogumite jaoks, millel on nõrk juhendatud õpe, juhendatud õpe ja pooleldi juhendatud õpe miljonitel filtreeritud piltidel. Lisaks on mudelianalüüs näidanud, et mudeli eelkoolitamine miljarditel piltidel annab sageli parema täpsuse, võrreldes mudeli nullist treenimisega. 

Lisaks tugineb mudeli laiaulatuslik väljaõpe tavaliselt andmete filtreerimise sammudele, et pildid vastaksid sihtkontseptsioonidele. Need filtreerimisetapid kasutavad kas eelkoolitatud klassifikaatori ennustusi või räsimärke, mis on sageli IMAGEnet klassid. SEER-mudel töötab erinevalt, kuna selle eesmärk on õppida funktsioone mis tahes juhuslikul kujutisel ja seetõttu ei ole SEER-mudeli koolitusandmeid kureeritud nii, et need vastaksid eelnevalt määratletud funktsioonide või kontseptsioonide komplektile. 

Arhitektuuride skaleerimine kujutise tuvastamiseks

Mudelid saavad tavaliselt kasu suurte arhitektuuride koolitamisest parema kvaliteediga visuaalsete funktsioonide jaoks. Kui suure andmehulgaga eelkoolitus on oluline, on oluline treenida suuri arhitektuure, kuna piiratud võimsusega mudel ei sobi sageli. See on veelgi olulisem, kui eelkoolitus toimub koos kontrastiivse õppimisega, sest sellistel juhtudel peab mudel õppima, kuidas andmekogu eksemplare eristada, et saaks paremini visuaalseid esitusi õppida. 

Kujutise tuvastamiseks hõlmab skaleerimisarhitektuur aga palju enamat kui lihtsalt mudeli sügavuse ja laiuse muutmine ning suurema võimsusega mastaabitõhusa mudeli loomiseks tuleb pühendada palju kirjandust. SEER-i mudel näitab rakenduse kasutamise eeliseid RegNets mudelipere enesejuhitava õppe laiaulatuslikuks juurutamiseks. 

SEER: meetodid ja komponentide kasutusalad

SEER-i raamistik kasutab mitmesuguseid meetodeid ja komponente, et koolitada mudelit visuaalsete esituste õppimiseks. Mõned SEER-i raamistiku kasutatavad peamised meetodid ja komponendid on järgmised: RegNet ja SwAV. Arutleme lühidalt SEER-i raamistikus kasutatavate meetodite ja komponentide üle. 

Ise juhendatud eelkoolitus SwaAV-iga

SEER-i raamistik on eelkoolitatud SwaAV-iga, mis on veebipõhine enesejärelvalvega õppimisviis. SwAV on an võrguklastri meetod, mida kasutatakse convnetsi raamistiku koolitamiseks ilma märkusteta. SwaAV-i raamistik treenib manustamist, mis loob järjekindlalt klastri määranguid sama pildi erinevate vaadete vahel. Seejärel õpib süsteem semantilisi esitusi, kaevandades klastreid, mis on andmete suurendamise suhtes muutumatud. 

Praktikas võrdleb SwaAV-i raamistik pildi erinevate vaadete omadusi, kasutades nende sõltumatuid klastri määranguid. Kui need määrangud hõivavad samu või sarnaseid tunnuseid, on võimalik ühe pildi määramist ennustada, kasutades teise vaate funktsiooni. 

SEER-mudel arvestab komplekti K klastrid ja kõik need klastrid on seotud õpitavaga d-mõõtmeline vektor vk. Partii jaoks B pildid, iga pilt i muudetakse kaheks erinevaks vaateks: xi1 ja xi2. Seejärel kuvatakse vaated konvneti abil ja tulemuseks on kaks funktsioonide komplekti: (f11, …, fB2) ja (f12, … , fB2). Seejärel määratakse iga funktsioonide komplekt iseseisvalt klastri prototüüpidele an abiga Optimaalne transport lahendaja. 

Optimaalse transpordi lahendaja tagab funktsioonide ühtlase jaotuse klastrite vahel ja aitab vältida triviaalseid lahendusi, kus kõik esitused on kaardistatud ühele prototüübile. Saadud määrang vahetatakse seejärel kahe komplekti vahel: klastri määramine yi1 vaatest xi1 tuleb ennustada funktsiooni esituse f abili2 vaatest xi2, ja vastupidi. 

Seejärel treenitakse prototüübi kaalusid ja konvnet, et minimeerida kadu kõigi näidete puhul. Klastri prognoosi kaotus l on sisuliselt ristentroopia f punktkorrutise pehme maksimumi ja klastri määramise vahel. 

RegNetY: mastaabitõhus mudeliperekond

Mudeli võimsuse ja andmete skaleerimiseks on vaja arhitektuure, mis pole tõhusad mitte ainult mälu, vaid ka käitusaja osas. RegNetsi raamistik on mudelite perekond, mis on spetsiaalselt selleks otstarbeks loodud. 

Arhitektuuripere RegNet on määratletud nelja etapiga konvnetidest koosneva disainiruumiga, kus iga etapp sisaldab identsete plokkide seeriat, tagades samal ajal nende ploki struktuuri, peamiselt järelejäänud pudelikaelaploki, fikseerituse. 

SEER-i raamistik keskendub RegNetY arhitektuurile ja lisab a Pigistamine ja erutus standardsele RegNetsi arhitektuurile, et parandada nende jõudlust. Lisaks on RegNetY mudelil 5 parameetrit, mis aitavad otsida häid eksemplare kindla arvu FLOPidega, mis tarbivad mõistlikke ressursse. SEER-i mudeli eesmärk on parandada oma tulemusi, rakendades RegNetY arhitektuuri otse oma juhendatavale eelkoolitusülesandele. 

RegNetY 256GF arhitektuur: SEER mudel keskendub peamiselt RegNetY perekonna RegNetY 256GF arhitektuurile ja selle parameetrid kasutavad RegNets arhitektuuri skaleerimisreeglit. Parameetreid kirjeldatakse järgmiselt. 

RegNetY 256GF arhitektuuril on 4 astme laiust (528, 1056, 2904, 7392) ja astme sügavust (2,7,17,1, 696, 512, 100), mis annavad juurde üle 32 miljoni parameetri. 6125 V8,704 8,704 GB NVIDIA GPU-dega treenides võtab iga iteratsioon 512 kujutise partii jaoks umbes 114,890 ms. Mudeli väljaõpetamine enam kui miljardi kujutisega andmekogumis, mille partii suurus on 8 kujutist enam kui XNUMX GPU-l, nõuab XNUMX XNUMX iteratsiooni ja koolitus kestab umbes XNUMX päeva. 

Optimeerimine ja koolitus laialdaselt

SEER-i mudel pakub välja mitmeid kohandusi, et koolitada enesejärelevalvega meetodeid nende meetodite laiaulatuslikuks rakendamiseks ja kohandamiseks. Need meetodid on: 

  1. Õppimismäära ajakava. 
  2. Mälu tarbimise vähendamine GPU kohta. 
  3. Treeningu kiiruse optimeerimine. 
  4. Koolituseelsed andmed suures mahus. 

Arutame neid lühidalt. 

Õppimiskiiruse ajakava

SEER-i mudel uurib võimalust kasutada kahte õppimiskiiruse ajakava: koosinuslaine õppimiskiiruse ajakava, ja fikseeritud õppemäära ajakava

Koosinuslaine õppegraafikut kasutatakse erinevate mudelite õiglaseks võrdlemiseks, kuna see kohandub värskenduste arvuga. Koosinuslaine õppekiiruse ajakava ei kohandu aga suuremahulise koolitusega eelkõige seetõttu, et see kaalub pilte erinevalt selle põhjal, millal neid treeningu ajal nähakse, ning kasutab ajastamiseks ka täielikke uuendusi. 

Fikseeritud õppekiirusega ajakava hoiab õppimiskiiruse fikseerituna seni, kuni kadu ei vähene, ja seejärel jagatakse õppimiskiirus 2-ga. Analüüs näitab, et fikseeritud õppekiiruse ajakava töötab paremini, kuna sellel on ruumi koolituse paindlikumaks muutmiseks. Kuna aga mudel treenib ainult 1 miljardil pildil, kasutab see koosinuslaine õppimiskiirust oma suurima mudeli, RegNet 256GF

Mälukulu vähendamine GPU kohta

Mudeli eesmärk on ka vähendada treeningperioodi jooksul vajaminevat GPU hulka, kasutades kombineeritud täpsust ja hinnete kontrollpunkti. Mudel kasutab NVIDIA Apex Library O1 optimeerimise taset, et teha selliseid toiminguid nagu konvolutsioonid ja GEMM-id 16-bitise ujukoma täpsusega. Mudel kasutab ka PyTorchi gradiendi kontrollpunkti rakendust, mis vahetab arvutid mälu vastu. 

Lisaks jätab mudel kõrvale kõik edasiliikumise ajal tehtud vahepealsed aktiveerimised ja tagasikäigu ajal arvutab need aktiveerimised ümber. 

Treeningu kiiruse optimeerimine

Erineva täpsuse kasutamine mälukasutuse optimeerimiseks annab täiendavaid eeliseid, kuna kiirendid kasutavad ära FP16 väiksemat suurust, suurendades FP32-ga võrreldes läbilaskevõimet. See aitab kiirendada treeningperioodi, parandades mälu ribalaiuse kitsaskohta. 

SEER-mudel sünkroonib ka BatchNorm kiht GPU-de vahel, et luua protsessirühmi, selle asemel et kasutada globaalset sünkroonimist, mis võtab tavaliselt rohkem aega. Lõpuks hangib SEER-i mudelis kasutatav andmelaadija rohkem treeningpakette, mis toob kaasa suurema andmemahu, võrreldes PyTorchi oma andmete laadija. 

Suuremahulised koolituseelsed andmed

SEER-i mudel kasutab eeltreeningu ajal üle miljardi pildi ja see võtab arvesse andmelaadijat, mis proovib juhuslikke pilte otse Internetist ja Instagramist. Kuna SEER-i mudel treenib neid pilte looduses ja võrgus, ei rakenda see nendele piltidele eeltöötlust ega kureeri neid selliste protsesside abil nagu dubleerimise eemaldamine või hashtagide filtreerimine. 

Väärib märkimist, et andmestik ei ole staatiline ja andmekogus olevaid pilte värskendatakse iga kolme kuu tagant. Andmestiku värskendamine ei mõjuta aga mudeli jõudlust. 

SEER mudeli juurutamine

SEER-i mudel treenib RegNetY 256GF-i SwaAV-iga, kasutades kuus kärpimist pildi kohta, kusjuures iga pildi eraldusvõime on 2 × 224 + 4 × 96. Eeltreeningu etapis kasutab mudel 3-kihilist MLP-d või mitmekihilist perceptroni, mille projektsioonipead on mõõtmetega 10444×8192, 8192×8192 ja 8192×256. 

Selle asemel, et kasutada peas BatchNormi ​​kihte, kasutab SEER mudel 16 tuhat prototüüpi temperatuuriga t seatud väärtusele 0.1. The Sinkhorn reguleerimise parameeter on seatud väärtusele 0.05 ja see teostab algoritmi 10 iteratsiooni. Mudel sünkroonib veelgi BatchNormi ​​statistikat kogu GPU-s ja loob sünkroonimiseks arvukalt protsessirühmi suze 64-ga. 

Lisaks kasutab mudel LARS-i või kihipõhist adaptiivse kiiruse skaleerimise optimeerijat, mille kaalu vähenemine on 10-5, aktiveerimise kontrollpunktid ja O1 kombineeritud täpsusega optimeerimine. Seejärel treenitakse mudelit stohhastilise gradiendi laskumisega, kasutades partii suurust 8192 juhusliku kujutisega, mis on jagatud 512 NVIDIA GPU-le, mille tulemuseks on 16 pilti GPU kohta. 

Esimese 0.15 tuhande koolituse värskenduse puhul tõstetakse õppimiskiirust lineaarselt 9.6-lt 8-le. Pärast soojendamist järgib mudel koosinusõppe kiiruse graafikut, mis väheneb lõpliku väärtuseni 0.0096. Üldiselt treenib SEER-i mudel üle miljardi pildi 122 tuhande iteratsiooni jooksul. 

SEER-i raamistik: tulemused

Enesejärelevalvega koolituseelse lähenemisviisi abil loodud funktsioonide kvaliteeti uuritakse ja analüüsitakse mitmesuguste võrdlusnäitajate ja järgnevate ülesannete põhjal. Mudel arvestab ka madala võttega sätet, mis annab piiratud juurdepääsu piltidele ja selle siltidele järgnevateks ülesanneteks. 

Suurte eelkoolitatud mudelite peenhäälestus

See mõõdab juhuslike andmete põhjal eelnevalt treenitud mudelite kvaliteeti, edastades need objektide klassifitseerimiseks ImageNeti etalonile. Suurte eeltreenitud mudelite peenhäälestuse tulemused määratakse järgmiste parameetritega. 

Katseseaded

Mudel eelkoolitab 6 erineva võimsusega RegNeti arhitektuuri RegNetY- {8,16,32,64,128,256}GF, enam kui miljardil juhuslikul ja avalikul Instagrami pildil SwaAV-iga. Seejärel häälestatakse mudelid kujutiste klassifitseerimiseks ImageNetis, mis kasutab üle 1 miljoni standardse treeningpildi koos õigete siltidega ja millel on standardne valideerimiskomplekt, mis sisaldab üle 1.28 tuhande pildi hindamiseks. 

Seejärel rakendab mudel samu andmete suurendamise tehnikaid nagu SwaAV-is ja peenhäälestust 35 epohhi jaoks SGD optimeerija või Stochastic Gradient Descentiga partii suurusega 256 ja õppimiskiirusega 0.0125, mida vähendatakse 10 perioodi järel 30 korda. impulss 0.9 ja kaalulangus 10-4. Mudel annab valideerimisandmestiku parima täpsuse, kasutades keskmist 1 × 224. 

Võrreldes teiste iseseisvalt juhendatavate koolituseelsete lähenemisviisidega

Järgmises tabelis võrreldakse RegNetY-256GF suurimat eelkoolitatud mudelit olemasolevate eelkoolitatud mudelitega, mis kasutavad iseseisvalt juhendatud õppimisviisi. 

Nagu näete, annab SEER-i mudel ImageNetis parima 1 täpsuse 84.2% ja üllatab SimCLRv2, parimat olemasolevat eelkoolitatud mudelit 1% võrra. 

Lisaks võrreldakse järgmisel joonisel SEER-i raamistikku erineva võimsusega mudelitega. Nagu näete, annab RegNeti raamistiku kombineerimine SwaAV-iga sõltumata mudeli mahust eeltreeningu ajal täpseid tulemusi. 

SEER-i mudel on eelnevalt koolitatud kureerimata ja juhuslike piltide jaoks ning neil on RegNeti arhitektuur koos SwaAV-i enesejärelevalvega õppemeetodiga. SEER mudelit võrreldakse erineva võrguarhitektuuriga SimCLRv2 ja ViT mudelitega. Lõpuks viimistletakse mudelit ImageNeti andmekogumis ja teatatakse 1. parima täpsusega. 

Mudeli võimsuse mõju

Mudeli võimsusel on oluline mõju eeltreeningu mudeli jõudlusele ja alloleval joonisel võrreldakse seda mõjuga nullist treenimisel. 

Selgelt on näha, et eelkoolitatud mudelite top-1 täpsusskoor on kõrgem kui nullist koolitatud mudelitel ning erinevus muutub parameetrite arvu kasvades aina suuremaks. Samuti on ilmne, et kuigi mudeli võimsus on kasulik nii eelkoolitatud kui ka nullist väljaõppinud mudelitele, on mõju eelkoolitatud mudelitele suurem, kui tegemist on suure hulga parameetritega. 

Võimalik põhjus, miks mudeli nullist treenimine võib ImageNeti andmestikuga treenimisel üle sobida, on andmestiku väike suurus.

Madala võttega õppimine

Madala võttega õppimine viitab SEER-i mudeli toimivuse hindamisele madala võttega seadistuses, st kasutades allavoolu ülesannete täitmisel ainult murdosa koguandmetest. 

Katseseaded

SEER-i raamistik kasutab madala võttega õppimiseks kahte andmekogumit Kohad205 ja IMAGEnet. Lisaks eeldab mudel, et ülekande õppimise ajal on piiratud juurdepääs andmekogumile nii piltide kui ka nende siltide osas. See piiratud juurdepääsu säte erineb vaikeseadetest, mida kasutatakse enesejärelevalvega õppimiseks, mille puhul mudelil on juurdepääs kogu andmekogumile ja juurdepääs on piiratud ainult kujutise siltidele. 

  • Tulemused saidil Place205 Dataset

Allolev joonis näitab mudeli eelkoolituse mõju andmestiku Place205 erinevatele osadele. 

Kasutatud lähenemisviisi võrreldakse mudeli eelkoolitamisega ImageNeti andmestikul sama RegNetY-128 GF arhitektuuriga järelevalve all. Võrdluse tulemused on üllatavad, kuna võib täheldada, et parima 2.5 täpsuse täpsus suureneb stabiilselt umbes 1%, sõltumata Places205 andmestiku peenhäälestamiseks saadaolevatest treeningandmetest. 

Järelevalvega ja enesejärelevalvega treeningueelsete protsesside vahel täheldatud erinevust saab seletada treeningandmete olemuse erinevusega, kuna mudeli poolt juhuslikult looduses tehtud piltidelt õpitud omadused võivad stseeni klassifitseerimiseks sobida paremini. Lisaks võib aluseks oleva kontseptsiooni ebaühtlane jaotus osutuda eeliseks tasakaalustamata andmekogumi, nagu Places205, eeltreeningul. 

Tulemused ImageNetis

Ülaltoodud tabelis võrreldakse SEER-i mudeli lähenemisviisi iseseisvalt juhendatud koolituseelsete lähenemisviisidega ja pooljuhitavate lähenemisviisidega madala taseme õppimisele. Väärib märkimist, et kõik need meetodid kasutavad eelkoolituseks kõiki ImageNeti andmestiku 1.2 miljonit pilti ja need piiravad ainult juurdepääsu siltidele. Teisest küljest võimaldab SEER-i mudelis kasutatav lähenemisviis näha ainult 1–10% andmekogumis olevatest piltidest. 

Kuna võrgustikud on eelkoolituse ajal näinud rohkem pilte samast jaotusest, on see nendele lähenemisviisidele tohutult kasulik. Kuid muljetavaldav on see, et kuigi SEER-i mudel näeb ainult 1–10% ImageNeti andmekogumist, on see siiski võimeline saavutama umbes 1% parima 80 täpsusskoori, mis jääb napilt alla käsitletud lähenemisviiside täpsusskoorile. ülaltoodud tabelis. 

Mudeli võimsuse mõju

Alloleval joonisel on käsitletud mudeli võimsuse mõju madala võttega õppimisele: 1%, 10% ja 100% ImageNeti andmekogumist. 

Võib täheldada, et mudeli võimsuse suurendamine võib parandada mudeli täpsusskoori, kuna see vähendab juurdepääsu nii andmekogumis olevatele piltidele kui ka siltidele. 

Üleminek muudele võrdlusalustele

SEER-i mudeli edasiseks hindamiseks ja selle toimivuse analüüsimiseks viiakse eelkoolitatud funktsioonid üle teistele allavoolu ülesannetele. 

Piltide klassifikatsiooni lineaarne hindamine

Ülaltoodud tabelis võrreldakse SEER-i eelkoolitatud RegNetY-256GF ja RegNetY128-GF funktsioone, mis on eelkoolitatud ImageNeti andmestikule ja millel on sama arhitektuur koos järelevalvega ja ilma. Funktsioonide kvaliteedi analüüsimiseks külmutab mudel kaalud ja kasutab funktsioonide peal lineaarset klassifikaatorit, kasutades treeningkomplekti allavoolu ülesannete jaoks. Protsessi jaoks võetakse arvesse järgmisi võrdlusnäitajaid: Open-Images (OpIm), iNaturalist (iNat), Places205 (Places) ja Pascal VOC (VOC). 

Tuvastamine ja segmenteerimine

Alloleval joonisel võrreldakse tuvastamise ja segmenteerimise eelkoolitatud funktsioone ning hinnatakse neid. 

SEER-i raamistik koolitab mask-RCNN-i mudelit COCO etalonil, mille ehitusplokkideks on eelkoolitatud RegNetY-64GF ja RegNetY-128GF. Nii arhitektuuri kui ka järgnevate ülesannete puhul ületab SEER-i enesejärelevalvega eelkoolituse lähenemisviis juhendatud koolituse 1.5 kuni 2 AP punkti

Võrdlus nõrgalt juhendatud eelkoolitusega

Enamikul Internetis saadaolevatel piltidel on tavaliselt metakirjeldus või alternatiivtekst või kirjeldused või geograafilised asukohad, mis võivad eeltreeningul mõju avaldada. Varasem töö on näidanud, et kureeritud või märgistatud hashtagide komplekti ennustamine võib parandada sellest tulenevate visuaalsete funktsioonide ennustamise kvaliteeti. See lähenemisviis peab aga pilte filtreerima ja see toimib kõige paremini ainult siis, kui olemas on tekstilised metaandmed. 

Alloleval joonisel võrreldakse ResNetXt101-32dx8d arhitektuuri eelkoolitust, mis on koolitatud juhuslike piltide põhjal, sama arhitektuuriga, mida koolitatakse hashtagide ja metaandmetega sildistatud piltidele, ning esitatakse mõlema jaoks parim täpsus. 

On näha, et kuigi SEER-i raamistik eelkoolituse ajal metaandmeid ei kasuta, on selle täpsus võrreldav eelkoolituseks metaandmeid kasutavate mudelitega. 

Ablatsiooniuuringud

Ablatsiooniuuring viiakse läbi, et analüüsida konkreetse komponendi mõju mudeli üldisele jõudlusele. Ablatsiooniuuring tehakse, eemaldades komponendi mudelist täielikult ja mõistma, kuidas mudel toimib. See annab arendajatele lühikese ülevaate selle konkreetse komponendi mõjust mudeli jõudlusele. 

Mudelarhitektuuri mõju

Mudeli arhitektuur mõjutab märkimisväärselt mudeli jõudlust, eriti kui mudelit skaleeritakse või eelkoolituse andmete spetsifikatsioone muudetakse. 

Järgmisel joonisel käsitletakse mõju, kuidas arhitektuuri muutmine mõjutab eelkoolitatud funktsioonide kvaliteeti ImageNeti andmestiku lineaarsel hindamisel. Eelkoolitatud funktsioone saab sel juhul otse uurida, kuna hindamine ei soosi mudelit, mis tagab suure täpsuse, kui seda ImageNeti andmestiku nullist välja õpetada. 

Võib täheldada, et ResNeXts ja ResNet arhitektuuri puhul töötavad eelviimasest kihist saadud funktsioonid praeguste seadetega paremini. Teisest küljest ületab RegNeti arhitektuur teisi arhitektuure. 

Üldiselt võib järeldada, et mudeli võimsuse suurendamine mõjutab positiivselt funktsioonide kvaliteeti ja mudeli jõudluses on logaritmiline kasv. 

Treeningueelsete andmete skaleerimine

On kaks peamist põhjust, miks mudeli treenimine suuremal andmekogumil võib parandada mudeli õpitava visuaalse funktsiooni üldist kvaliteeti: rohkem unikaalseid pilte ja rohkem parameetreid. Vaatame lühidalt, kuidas need põhjused mudeli jõudlust mõjutavad. 

Unikaalsete piltide arvu suurendamine

Ülaltoodud joonisel võrreldakse kahte erinevat arhitektuuri, RegNet8 ja RegNet16, millel on sama arv parameetreid, kuid neid õpetatakse erineval arvul unikaalsetel piltidel. SEER-i raamistik koolitab mudeleid värskenduste jaoks, mis vastavad 1 epohhile miljardi pildi jaoks või 32 epohhile 32 unikaalse pildi jaoks ja ühe poollaine koosinusõppe kiirusega. 

Võib täheldada, et mudeli hästi toimimiseks peaks mudelile edastatavate unikaalsete piltide arv ideaaljuhul olema suurem. Sel juhul toimib mudel hästi, kui sellele sisestatakse unikaalsed kujutised, mis on suuremad kui ImageNeti andmestiku pildid. 

Rohkem parameetreid

Allolev joonis näitab mudeli jõudlust, kuna sellele on RegNet-128GF arhitektuuri abil treenitud üle miljardi pildi. Võib täheldada, et parameetrite arvu suurendamisel suureneb mudeli jõudlus pidevalt. 

Enesejärelevalvega arvutinägemine reaalses maailmas

Siiani oleme arutanud, kuidas teoreetiliselt toimib iseseisvalt juhendatud õpe ja arvutinägemise SEER-mudel. Nüüd vaatame, kuidas toimib isejärelevalvega arvutinägemine reaalmaailma stsenaariumides ja miks SEER on enesejärelevalvega arvutinägemise tulevik. 

SEER-mudel konkureerib loomuliku keele töötlemise tööstuses tehtud tööga, kus tipptasemel mudelid kasutavad mudeli eelkoolituse ajal triljoneid andmekogumeid ja parameetreid koos triljonite tekstisõnadega. Järgmiste ülesannete jõudlus suureneb üldiselt mudeli treenimiseks vajalike sisendandmete arvu suurenemisega ja sama kehtib ka arvutinägemise ülesannete kohta. 

Enesejärelevalvega õppemeetodite kasutamine loomuliku keele töötlemiseks erineb aga arvutinägemise jaoks enesekontrolliga õppimise kasutamisest. Põhjus on selles, et tekstide käsitlemisel jaotatakse semantilised mõisted tavaliselt diskreetseteks sõnadeks, kuid piltide käsitlemisel peab mudel otsustama, milline piksel millisesse mõistesse kuulub. 

Lisaks on erinevatel piltidel erinevad vaated ja kuigi mitmel pildil võib olla sama objekt, võib kontseptsioon oluliselt erineda. Mõelge näiteks kassi kujutistega andmekogumile. Kuigi peamine objekt, kass, on kõigil piltidel ühine, võib kontseptsioon oluliselt erineda, kuna kass võib pildil paigal seista, samal ajal kui ta võib järgmisel pildil palliga mängida jne ja nii edasi. Kuna piltidel on sageli erinev kontseptsioon, on oluline, et mudel vaataks palju pilte, et mõista sama kontseptsiooni erinevusi. 

Mudeli edukaks skaleerimiseks, et see töötaks tõhusalt suuremõõtmeliste ja keerukate pildiandmetega, on vaja kahte komponenti. 

  1. Konvolutsiooniline närvivõrk või CNN, mis on piisavalt suur, et jäädvustada ja õppida visuaalseid kontseptsioone väga suurest pildiandmestikust.
  2. Algoritm, mis suudab õppida mustreid suurel hulgal piltidelt ilma siltide, märkuste või metaandmeteta. 

SEER mudeli eesmärk on rakendada ülaltoodud komponente arvuti nägemisväljas. SEER-i mudeli eesmärk on kasutada SwaAV-i edusamme, enesejärelevalvega õpperaamistikku, mis kasutab veebiklastrit, et rühmitada või siduda kujutised paralleelsete visuaalsete kontseptsioonidega, ning kasutada neid sarnasusi mustrite paremaks tuvastamiseks. 

SwaAV-arhitektuuriga suudab SEER-mudel muuta arvutinägemises iseseisvalt juhendatud õppimise kasutamise palju efektiivsemaks ning vähendada treeninguaega kuni 6 korda. 

Veelgi enam, mudelite suures mahus, selles skaalas, üle 1 miljardi kujutise, koolitamiseks on vaja mudeliarhitektuuri, mis on tõhus mitte ainult terminite või käitusaja ja mälu, vaid ka täpsuse poolest. Siin tulevad mängu RegNeti mudelid, kuna need RegNetsi mudelid on ConvNetsi mudelid, mis võivad skaleerida triljoneid parameetreid ja mida saab optimeerida vastavalt vajadustele, et järgida mälupiiranguid ja käitusaja regulatsioone. 

Järeldus: enesejärelevalvega tulevik

Enesejärelevalvega õppimine on AI- ja ML-tööstuses juba mõnda aega olnud suur kõneaine, sest see võimaldab AI-mudelitel õppida teavet otse suurest hulgast andmetest, mis on juhuslikult Internetis saadaval, selle asemel, et tugineda hoolikalt kureeritud ja märgistatud andmetele. andmestik, mille ainus eesmärk on AI mudelite treenimine. 

Enesejuhitud õpe on AI ja ML tuleviku jaoks ülioluline kontseptsioon, kuna see võimaldab arendajatel luua tehisintellekti mudeleid, mis kohanduvad hästi reaalse maailma stsenaariumidega ja millel on mitu kasutusjuhtu, mitte konkreetne eesmärk, ning SEER on verstapost arvutinägemise valdkonnas isejuhitava õppe rakendamisel. 

SEER-mudel astub esimese sammu arvutinägemise tööstuse ümberkujundamisel ja vähendab meie sõltuvust märgistatud andmekogumist. SEER-i mudeli eesmärk on kõrvaldada vajadus andmestikku annoteerida, mis võimaldab arendajatel töötada mitmekesise ja suure andmemahuga. SEER-i rakendamine on eriti kasulik arendajatele, kes töötavad mudelitega, mis tegelevad piiratud kujutiste või metaandmetega valdkondadega, nagu meditsiinitööstus. 

Lisaks võimaldab inimmärkuste kõrvaldamine arendajatel mudelit kiiremini välja töötada ja kasutusele võtta, mis võimaldab neil veelgi kiiremini ja täpsemalt reageerida kiiresti arenevatele olukordadele. 

"Elukutselt insener, hingelt kirjanik". Kunal on tehniline kirjanik, kes armastab ja mõistab sügavalt AI-d ja ML-i ning on pühendunud nende valdkondade keerukate kontseptsioonide lihtsustamisele oma kaasahaarava ja informatiivse dokumentatsiooni kaudu.