Povežite se s nama

Umjetna inteligencija

SEER: Proboj u modele samonadzornog računalnog vida?

mm
Ažurirano on
SEER okvir za samonadzorno učenje

U proteklom desetljeću umjetna inteligencija (AI) i strojno učenje (ML) doživjeli su ogroman napredak. Danas su precizniji, učinkovitiji i sposobniji nego što su ikada bili. Moderni AI i ML modeli mogu neprimjetno i točno prepoznati objekte u slikama ili video datotekama. Osim toga, mogu generirati tekst i govor koji je sličan ljudskoj inteligenciji.

Današnji AI i ML modeli uvelike se oslanjaju na obuku na označenom skupu podataka koji ih uči kako interpretirati blok teksta, identificirati objekte u okviru slike ili videa i nekoliko drugih zadataka. 

Unatoč svojim mogućnostima, AI & ML modeli nisu savršeni i znanstvenici rade na izgradnji modela koji su sposobni učiti iz informacija koje im se daju, a ne oslanjaju se nužno na označene ili komentirane podatke. Ovaj pristup je poznat kao samonadzirano učenje, i to je jedna od najučinkovitijih metoda za izgradnju ML i AI modela koji imaju "zdrav razum” ili osnovno znanje za rješavanje problema koji su izvan mogućnosti današnjih AI modela. 

Samonadzirano učenje već je pokazalo svoje rezultate u obradi prirodnog jezika budući da je programerima omogućilo treniranje velikih modela koji mogu raditi s ogromnom količinom podataka te je dovelo do nekoliko otkrića u poljima zaključivanje prirodnog jezika, strojno prevođenje i odgovaranje na pitanja. 

SEER model Facebook AI-a ima za cilj maksimizirati mogućnosti samonadziranog učenja u području računalnog vida. SEER odn Samonadzor je samonadzirani model učenja računalnog vida koji ima više od milijardu parametara i sposoban je pronaći obrasce ili učiti čak i iz nasumične skupine slika pronađenih na internetu bez odgovarajućih komentara ili oznaka. 

Potreba za samonadzornim učenjem u računalnom vidu

Bilježenje podataka ili označavanje podataka faza je pretprocesiranja u razvoju modela strojnog učenja i umjetne inteligencije. Proces označavanja podataka identificira neobrađene podatke kao što su slike ili video okviri, a zatim dodaje oznake podacima kako bi odredio kontekst podataka za model. Ove oznake omogućuju modelu točna predviđanja podataka. 

Jedna od najvećih prepreka i izazova s ​​kojima se programeri suočavaju kada rade na modelima računalnog vida je pronalaženje visokokvalitetnih označenih podataka. računalni vid modeli se danas oslanjaju na ove označene ili označene skupove podataka kako bi naučili uzorke koji im omogućuju prepoznavanje objekata na slici. 

Anotacija podataka i njihova upotreba u modelu računalnog vida predstavljaju sljedeće izazove:

Upravljanje dosljednom kvalitetom skupa podataka

Vjerojatno najveća prepreka pred programerima je dosljedno dobiti pristup skupu podataka visoke kvalitete jer skup podataka visoke kvalitete s odgovarajućim oznakama i jasnim slikama rezultira boljim učenjem i točnim modelima. Međutim, pristup skupu podataka visoke kvalitete dosljedno ima svoje izazove. 

Upravljanje radnom snagom

Označavanje podataka često dolazi s problemima upravljanja radnom snagom uglavnom zato što je velik broj radnika potreban za obradu i označavanje velikih količina nestrukturiranih i neoznačenih podataka, a pritom se osigurava kvaliteta. Stoga je ključno za programere pronaći ravnotežu između kvalitete i kvantitete kada je riječ o označavanju podataka. 

Financijska ograničenja

Vjerojatno najveća prepreka su financijska ograničenja koja prate proces označavanja podataka, a većinu vremena troškovi označavanja podataka predstavljaju značajan postotak ukupnih troškova projekta. 

Kao što možete vidjeti, označavanje podataka velika je prepreka u razvoju naprednih modela računalnog vida, posebno kada se radi o razvoju složenih modela koji se bave velikom količinom podataka za obuku. To je razlog zašto industrija računalnog vida treba samonadzirano učenje za razvoj složenih i naprednih modela računalnog vida koji su sposobni rješavati zadatke koji su izvan dosega trenutnih modela. 

Imajući to u vidu, već postoji mnogo modela samonadziranog učenja koji su dobro funkcionirali u kontroliranom okruženju, a prvenstveno na skupu podataka ImageNet. Iako bi ovi modeli mogli dobro raditi, oni ne zadovoljavaju primarni uvjet samonadziranog učenja u računalnom vidu: učiti iz bilo kojeg neograničenog skupa podataka ili nasumične slike, a ne samo iz dobro definiranog skupa podataka. Kada se implementira na idealan način, samonadzirano učenje može pomoći u razvoju preciznijih i sposobnijih modela računalnog vida koji su isplativi i isplativi. 

SEER ili model samonadzora: Uvod

Nedavni trendovi u industriji umjetne inteligencije i strojnog učenja pokazuju da pristupi modeliranja prije obuke kao što su polunadzirano, slabo nadzirano i samonadzirano učenje mogu značajno poboljšati izvedbu za većinu modela dubinskog učenja za nizvodne zadatke. 

Dva su ključna čimbenika koja su uvelike pridonijela poboljšanju izvedbe ovih modela dubokog učenja.

Predobuka o masivnim skupovima podataka

Prethodno uvježbavanje na velikim skupovima podataka općenito rezultira boljom preciznošću i izvedbom jer model izlaže širokom spektru podataka. Veliki skup podataka omogućuje modelima da bolje razumiju obrasce u podacima, što u konačnici rezultira boljom izvedbom modela u scenarijima stvarnog života. 

Neki od modela s najboljom izvedbom, poput modela GPT-3 i modela Wav2vec 2.0, treniraju se na ogromnim skupovima podataka. Jezični model GPT-3 koristi skup podataka prije obuke s over 300 milijardi riječi dok model Wav2vec 2.0 za prepoznavanje govora koristi skup podataka s preko 53 tisuće sati audio podataka

Modeli s ogromnim kapacitetom

Modeli s većim brojem parametara često daju točne rezultate jer veći broj parametara omogućuje modelu da se fokusira samo na objekte u podacima koji su potrebni umjesto da se fokusira na smetnje ili šum u podacima. 

Programeri su u prošlosti pokušavali obučiti modele samonadziranog učenja na neoznačenim ili neobrađenim podacima, ali s manjim skupovima podataka koji su sadržavali samo nekoliko milijuna slika. Ali mogu li modeli samonadziranog učenja dati visoku točnost kada se treniraju na velikoj količini neoznačenih i neobrađenih podataka? Upravo je to pitanje na koje model SEER želi odgovoriti. 

Korištenje električnih romobila ističe SEER model okvir je dubokog učenja koji ima za cilj registrirati slike dostupne na internetu neovisno o odabranim ili označenim skupovima podataka. Okvir SEER omogućuje programerima treniranje velikih i složenih ML modela na nasumičnim podacima bez nadzora, tj. model sam analizira podatke i uči obrasce ili informacije bez dodatnog ručnog unosa. 

Konačni cilj SEER modela je pomoći u razvoju strategija za proces prije obuke koji koristi neobrađene podatke za pružanje vrhunske izvedbe u prijenosnom učenju. Nadalje, SEER model također ima za cilj stvaranje sustava koji mogu kontinuirano učiti iz beskrajnog toka podataka na samonadgledan način

Okvir SEER trenira modele velikog kapaciteta na milijardama nasumičnih i neograničenih slika izdvojenih s interneta. Modeli obučeni na ovim slikama ne oslanjaju se na metapodatke slike ili komentare za obuku modela ili filtriranje podataka. Nedavno je samonadzirano učenje pokazalo veliki potencijal budući da su modeli obuke na neobrađenim podacima dali bolje rezultate u usporedbi s nadziranim i prethodno obučenim modelima za nizvodne zadatke. 

SEER Framework i RegNet: Kakva je veza?

Kako bi se analizirao SEER model, usredotočen je na RegNet arhitekturu s više od 700 milijuna parametara koji su usklađeni sa SEER-ovim ciljem samonadziranog učenja na neobrađenim podacima iz dva glavna razloga:

  1. Nude savršenu ravnotežu između performansi i učinkovitosti. 
  2. Vrlo su fleksibilni i mogu se koristiti za skaliranje niza parametara. 

SEER Framework: prethodni rad iz različitih područja

Okvir SEER ima za cilj istražiti granice obuke velikih arhitektura modela u neobrađenim ili neoznačenim skupovima podataka korištenjem samonadziranog učenja, a model traži inspiraciju iz prethodnog rada na terenu. 

Nenadzirana prethodna obuka vizualnih značajki

Samonadzorno učenje se već neko vrijeme implementira u računalni vid uz korištenje metoda autokoderi, diskriminacija na razini instance ili klasteriranje. Nedavno su metode koje koriste kontrastivno učenje pokazale da modeli prije obuke koji koriste nenadzirano učenje za nizvodne zadatke mogu biti bolji od pristupa nadziranog učenja. 

Glavni zaključak nenadziranog učenja vizualnih značajki je sljedeći sve dok trenirate na filtriranim podacima, nadzirane oznake nisu potrebne. SEER model ima za cilj istražiti može li model naučiti točne prikaze kada se velike arhitekture modela treniraju na velikoj količini neobrađenih, neoznačenih i nasumičnih slika. 

Učenje vizualnih značajki u mjerilu

Prethodni modeli imali su koristi od prethodne obuke modela na velikim označenim skupovima podataka sa slabim nadziranim učenjem, nadziranim učenjem i polunadziranim učenjem na milijunima filtriranih slika. Nadalje, analiza modela također je pokazala da prethodno uvježbavanje modela na milijardama slika često daje bolju točnost u usporedbi s uvježbavanjem modela od nule. 

Nadalje, obuka modela u velikoj mjeri obično se oslanja na korake filtriranja podataka kako bi slike bile u skladu s ciljnim konceptima. Ovi koraci filtriranja ili koriste predviđanja iz unaprijed obučenog klasifikatora ili koriste hashtagove koji su često sysnetovi ImageNet klase. Model SEER funkcionira drugačije jer ima za cilj učenje značajki na bilo kojoj nasumičnoj slici, pa stoga podaci o obuci za model SEER nisu odabrani tako da odgovaraju unaprijed definiranom skupu značajki ili koncepata. 

Arhitekture skaliranja za prepoznavanje slike

Modeli obično imaju koristi od treniranja velikih arhitektura na vizualnim značajkama bolje kvalitete. Bitno je uvježbati velike arhitekture kada je preduvježbavanje na velikom skupu podataka važno jer će model s ograničenim kapacitetom često nedostajati. Još je važnije kada se prethodna obuka provodi zajedno s kontrastivnim učenjem jer u takvim slučajevima model mora naučiti kako razlikovati instance skupa podataka kako bi mogao naučiti bolje vizualne prikaze. 

Međutim, za prepoznavanje slike, arhitektura skaliranja uključuje puno više od same promjene dubine i širine modela, a za izgradnju učinkovitog modela s većim kapacitetom potrebno je posvetiti puno literature. SEER model pokazuje prednosti korištenja RegNets obitelj modela za primjenu samonadziranog učenja u velikoj mjeri. 

SEER: Upotreba metoda i komponenti

Okvir SEER koristi razne metode i komponente za prethodno osposobljavanje modela za učenje vizualnih prikaza. Neke od glavnih metoda i komponenti koje koristi SEER okvir su: RegNet i SwAV. Raspravljajmo ukratko o metodama i komponentama koje se koriste u okviru SEER. 

Samonadgledana prethodna obuka sa SwAV-om

SEER okvir je prethodno obučen sa SwAV-om, online pristupom samonadziranog učenja. SwAV je online metoda klasteriranja koja se koristi za obuku convnets okvira bez napomena. Okvir SwAV funkcionira tako da obučava ugrađivanje koje dosljedno proizvodi dodjele klastera između različitih prikaza iste slike. Sustav zatim uči semantičke reprezentacije rudarskim klasterima koji su nepromjenjivi u odnosu na proširenja podataka. 

U praksi, okvir SwAV uspoređuje značajke različitih prikaza slike korištenjem njihovih neovisnih dodjela klastera. Ako ove dodjele obuhvaćaju iste ili slične značajke, moguće je predvidjeti dodjelu jedne slike korištenjem značajke drugog prikaza. 

SEER model razmatra skup K klasteri, a svaki od tih klastera povezan je s predmetom koji se može naučiti d-dimenzionalni vektor vk. Za seriju od B slike, svaka slika i pretvara se u dva različita pogleda: xi1 i xi2. Pogledi se zatim prikazuju uz pomoć convneta, što rezultira u dva skupa značajki: (f11, …, fB2), i (f12, … , fB2). Svaki skup značajki se zatim neovisno dodjeljuje prototipovima klastera uz pomoć Optimalan transport rješavač. 

Alat za rješavanje optimalnog transporta osigurava da su značajke ravnomjerno podijeljene po klasterima i pomaže u izbjegavanju trivijalnih rješenja gdje su svi prikazi preslikani u jedan prototip. Rezultirajuća dodjela se zatim mijenja između dva skupa: dodjela klastera yi1 pogleda xi1 treba predvidjeti pomoću prikaza značajke fi2 pogleda xi2, i obrnuto. 

Težine prototipa i convnet se zatim obučavaju da minimiziraju gubitak za sve primjere. Gubitak predviđanja klastera l je u biti unakrsna entropija između mekog maksimuma točkastog produkta f i dodjele klastera. 

RegNetY: Scale Efficient Model Family

Kapacitet modela za skaliranje i podaci zahtijevaju arhitekture koje su učinkovite ne samo u smislu memorije, već i u smislu vremena izvođenja, a okvir RegNets je obitelj modela dizajnirana posebno za ovu svrhu. 

Obitelj arhitekture RegNet definirana je dizajnerskim prostorom convneta s 4 stupnja gdje svaki stupanj sadrži niz identičnih blokova dok osigurava da struktura njihovog bloka ostaje fiksna, uglavnom rezidualni blok uskog grla. 

Okvir SEER fokusiran je na RegNetY arhitekturu i dodaje a Stisnite i pobudite na standardnu ​​RegNets arhitekturu u pokušaju poboljšanja njihove izvedbe. Nadalje, model RegNetY ima 5 parametara koji pomažu u traženju dobrih instanci s fiksnim brojem FLOP-ova koji troše razumne resurse. SEER model ima za cilj poboljšati svoje rezultate implementacijom RegNetY arhitekture izravno na svoj samonadzirani zadatak prije obuke. 

Arhitektura RegNetY 256GF: Model SEER fokusiran je uglavnom na arhitekturu RegNetY 256GF u obitelji RegNetY, a njegovi parametri koriste pravilo skaliranja RegNets arhitekture. Parametri su opisani kako slijedi. 

Arhitektura RegNetY 256GF ima 4 stupnja sa širinama stupnja (528, 1056, 2904, 7392) i dubinom stupnja (2,7,17,1) koji dodaju preko 696 milijuna parametara. Pri obuci na 512 V100 32GB NVIDIA GPU-u, svaka iteracija traje oko 6125 ms za veličinu serije od 8,704 slike. Uvježbavanje modela na skupu podataka s više od milijardu slika, s veličinom serije od 8,704 slike na preko 512 GPU-a zahtijeva 114,890 8 ponavljanja, a obuka traje oko XNUMX dana. 

Optimizacija i obuka na skali

SEER model predlaže nekoliko prilagodbi za osposobljavanje samonadziranih metoda za primjenu i prilagodbu tih metoda velikom opsegu. Ove metode su: 

  1. Raspored stopa učenja. 
  2. Smanjenje potrošnje memorije po GPU-u. 
  3. Optimiziranje brzine treninga. 
  4. Podaci prije treninga u velikoj mjeri. 

Razgovarajmo ukratko o njima. 

Raspored stopa učenja

SEER model istražuje mogućnost korištenja dvaju rasporeda stopa učenja: raspored brzine učenja kosinusnog vala, i fiksni raspored stope učenja

Raspored učenja kosinusnog vala koristi se za pravednu usporedbu različitih modela jer se prilagođava broju ažuriranja. Međutim, raspored brzine učenja kosinusnog vala ne prilagođava se obuci velikih razmjera prvenstveno zato što drugačije odmjerava slike na temelju toga kada se vide tijekom obuke, a također koristi potpuna ažuriranja za planiranje. 

Raspored fiksne stope učenja održava stopu učenja fiksnom sve dok se gubitak ne smanji, a zatim se stopa učenja dijeli s 2. Analiza pokazuje da raspoređivanje fiksne stope učenja radi bolje jer ima prostora za fleksibilniju obuku. Međutim, budući da model trenira samo na 1 milijardu slika, on koristi stopu učenja kosinusnog vala za obuku svog najvećeg modela, RegNet 256GF

Smanjenje potrošnje memorije po GPU-u

Model također ima za cilj smanjiti količinu GPU-a potrebnog tijekom perioda obuke korištenjem miješane preciznosti i ocjenjivanja kontrolnih točaka. Model koristi O1 razinu optimizacije NVIDIA Apex Library za izvođenje operacija poput konvolucija i GEMM-ova u 16-bitnoj preciznosti pomičnog zareza. Model također koristi PyTorch-ovu gradijentnu implementaciju kontrolnih točaka koja mijenja računala za memoriju. 

Nadalje, model također odbacuje sve međuaktivacije napravljene tijekom prolaska naprijed, a tijekom prolaska unatrag ponovno izračunava te aktivacije. 

Optimiziranje brzine treninga

Korištenje mješovite preciznosti za optimiziranje upotrebe memorije ima dodatne prednosti jer akceleratori iskorištavaju smanjenu veličinu FP16 povećanjem propusnosti u usporedbi s FP32. Pomaže u ubrzavanju razdoblja obuke poboljšavajući usko grlo memorijske propusnosti. 

Model SEER također sinkronizira BatchNorm sloj preko GPU-a za stvaranje grupa procesa umjesto korištenja globalne sinkronizacije koja obično oduzima više vremena. Konačno, učitavač podataka koji se koristi u modelu SEER unaprijed dohvaća više serija za obuku što dovodi do veće količine podataka u propusnosti u usporedbi s PyTorch-a učitavač podataka. 

Podaci velikih razmjera prije treninga

SEER model koristi preko milijardu slika tijekom predvježbavanja i uzima u obzir učitavač podataka koji uzorkuje nasumične slike izravno s interneta i Instagrama. Budući da model SEER trenira te slike u divljini i na mreži, on ne primjenjuje nikakvu predobradu na tim slikama niti ih njeguje pomoću procesa kao što su deduplikacija ili filtriranje hashtagova. 

Vrijedno je napomenuti da skup podataka nije statičan i da se slike u skupu podataka osvježavaju svaka tri mjeseca. Međutim, osvježavanje skupa podataka ne utječe na performanse modela. 

Implementacija modela SEER

Model SEER unaprijed trenira RegNetY 256GF sa SwAV-om koristeći šest obrezivanja po slici, pri čemu svaka slika ima razlučivost 2×224 + 4×96. Tijekom faze predvježbe, model koristi 3-slojni MLP ili višeslojni perceptron s projekcijskim glavama dimenzija 10444×8192, 8192×8192 i 8192×256. 

Umjesto korištenja BatchNorm slojeva u glavi, model SEER koristi 16 tisuća prototipova s ​​temperaturom t postaviti na 0.1. The Sinkhorn parametar regularizacije postavljen je na 0.05 i izvodi 10 ponavljanja algoritma. Model dalje sinkronizira BatchNorm statistiku preko GPU-a i stvara brojne grupe procesa sa suze 64 za sinkronizaciju. 

Nadalje, model koristi LARS ili Layer-wise Adaptive Rate Scaling optimizator, smanjenje težine od 10-5, aktivacijske kontrolne točke i O1 optimizacija mješovite preciznosti. Model se zatim uvježbava sa stohastičkim gradijentnim spuštanjem koristeći veličinu serije s 8192 nasumične slike raspoređene na 512 NVIDIA GPU-a, što rezultira u 16 slika po GPU-u. 

Stopa učenja linearno se povećava s 0.15 na 9.6 za prvih 8 tisuća ažuriranja obuke. Nakon zagrijavanja, model slijedi raspored kosinusne stope učenja koja opada do konačne vrijednosti od 0.0096. Sveukupno, model SEER trenira preko milijardu slika u 122 tisuće ponavljanja. 

Okvir SEER: Rezultati

Kvaliteta značajki generiranih samonadziranim pristupom prije obuke proučava se i analizira na različitim mjerilima i nizvodnim zadacima. Model također uzima u obzir postavku niskog snimanja koja omogućuje ograničeni pristup slikama i njihovim oznakama za nizvodne zadatke. 

FineTuning Veliki unaprijed obučeni modeli

Mjeri kvalitetu modela unaprijed obučenih na nasumičnim podacima njihovim prijenosom u ImageNet benchmark za klasifikaciju objekata. Rezultati finog ugađanja velikih unaprijed obučenih modela određuju se na sljedećim parametrima. 

Eksperimentalne postavke

Naime, model unaprijed trenira 6 RegNet arhitekturu s različitim kapacitetima RegNetY- {8,16,32,64,128,256}GF, na više od 1 milijarde nasumičnih i javnih Instagram slika sa SwAV-om. Modeli se zatim fino podešavaju u svrhu klasifikacije slika na ImageNetu koji koristi više od 1.28 milijuna standardnih slika za obuku s odgovarajućim oznakama i ima standardni set za provjeru valjanosti s više od 50 tisuća slika za procjenu. 

Model zatim primjenjuje iste tehnike povećanja podataka kao u SwAV-u i fino podešavanje za 35 epoha sa SGD optimizatorom ili Stochastic Gradient Descent s veličinom serije od 256 i stopom učenja od 0.0125 koja se smanjuje za faktor 10 nakon 30 epoha, impuls od 0.9, a smanjenje težine od 10-4. Model prijavljuje top-1 točnost na validacijskom skupu podataka koristeći središnji korpus od 224×224. 

Usporedba s drugim samonadzornim pristupima prethodnoj obuci

U sljedećoj tablici najveći prethodno obučeni model u RegNetY-256GF uspoređuje se s postojećim unaprijed obučenim modelima koji koriste pristup samonadzornog učenja. 

Kao što možete vidjeti, model SEER vraća top-1 točnost od 84.2% na ImageNet, i iznenađuje SimCLRv2, najbolji postojeći prethodno obučeni model za 1%. 

Nadalje, sljedeća slika uspoređuje SEER okvir s modelima različitih kapaciteta. Kao što možete vidjeti, bez obzira na kapacitet modela, kombiniranje okvira RegNet sa SwAV-om daje točne rezultate tijekom prethodne obuke. 

SEER model je unaprijed obučen na neobrađenim i nasumičnim slikama, a imaju RegNet arhitekturu sa SwAV metodom samonadgledanog učenja. SEER model se uspoređuje sa SimCLRv2 i ViT modelima s različitim mrežnim arhitekturama. Konačno, model se fino podešava na skupu podataka ImageNet i prijavljuje se najveća točnost. 

Utjecaj kapaciteta modela

Kapacitet modela ima značajan utjecaj na izvedbu modela predtreninga, a donja slika ga uspoređuje s utjecajem kod treninga od nule. 

Jasno se može vidjeti da je top-1 rezultat točnosti prethodno obučenih modela viši od modela koji su obučeni od nule, a razlika postaje sve veća kako se broj parametara povećava. Također je evidentno da iako kapacitet modela koristi i prethodno obučenim modelima i modelima obučenim od nule, utjecaj je veći na prethodno obučenim modelima kada se radi s velikom količinom parametara. 

Mogući razlog zašto bi obučavanje modela od nule moglo pretjerati kada se obučava na skupu podataka ImageNet je mala veličina skupa podataka.

Učenje niskog udarca

Low-shot učenje odnosi se na procjenu izvedbe SEER modela u low-shot postavci, tj. koristeći samo djelić ukupnih podataka pri izvođenju nizvodnih zadataka. 

Eksperimentalne postavke

Okvir SEER koristi dva skupa podataka za učenje u niskim okvirima Mjesta205 i ImageNet. Nadalje, model pretpostavlja da ima ograničen pristup skupu podataka tijekom prijenosa učenja u pogledu slika i njihovih oznaka. Ova postavka ograničenog pristupa razlikuje se od zadanih postavki koje se koriste za samonadzirano učenje gdje model ima pristup cijelom skupu podataka, a ograničen je samo pristup oznakama slika. 

  • Rezultati na skupu podataka Place205

Donja slika prikazuje utjecaj preduvježbavanja modela na različite dijelove skupa podataka Place205. 

Pristup koji se koristi uspoređuje se s prethodnom obukom modela na skupu podataka ImageNet pod nadzorom s istom RegNetY-128 GF arhitekturom. Rezultati usporedbe su iznenađujući jer se može primijetiti da postoji stabilan dobitak od oko 2.5% u top-1 točnosti bez obzira na dio podataka o obuci koji je dostupan za fino podešavanje na skupu podataka Places205. 

Razlika uočena između nadziranih i samonadziranih procesa prije obuke može se objasniti s obzirom na razliku u prirodi podataka o obuci jer značajke koje je model naučio iz nasumičnih slika u prirodi mogu biti prikladnije za klasifikaciju scene. Nadalje, neujednačena distribucija temeljnog koncepta mogla bi se pokazati kao prednost za prethodnu obuku na neuravnoteženom skupu podataka kao što je Places205. 

Rezultati na ImageNetu

Gornja tablica uspoređuje pristup modela SEER sa samonadziranim pristupima prije obuke i polunadziranim pristupima u učenju niskog cilja. Vrijedno je napomenuti da sve ove metode koriste svih 1.2 milijuna slika u skupu podataka ImageNet za prethodnu obuku i samo ograničavaju pristup oznakama. S druge strane, pristup koji se koristi u SEER modelu omogućuje da se vidi samo 1 do 10% slika u skupu podataka. 

Budući da su mreže vidjele više slika iz iste distribucije tijekom prethodne obuke, ovi pristupi imaju neizmjernu korist. Ali ono što je impresivno je da, iako model SEER vidi samo 1 do 10% ImageNet skupa podataka, on još uvijek može postići top-1 ocjenu točnosti od oko 80%, što je tek ispod ocjene točnosti razmatranih pristupa u gornjoj tablici. 

Utjecaj kapaciteta modela

Donja slika govori o utjecaju kapaciteta modela na učenje s niskom brzinom: na 1%, 10% i 100% skupa podataka ImageNet. 

Može se primijetiti da povećanje kapaciteta modela može poboljšati ocjenu točnosti modela jer smanjuje pristup i slikama i oznakama u skupu podataka. 

Prijenos na druge referentne vrijednosti

Kako bi se dodatno procijenio model SEER i analizirala njegova izvedba, unaprijed obučene značajke prenose se na druge nizvodne zadatke. 

Linearna evaluacija klasifikacije slike

Gornja tablica uspoređuje značajke SEER-ovog prethodno obučenog RegNetY-256GF i RegNetY128-GF prethodno obučenog na skupu podataka ImageNet s istom arhitekturom sa i bez nadzora. Za analizu kvalitete značajki, model zamrzava težine i koristi linearni klasifikator povrh značajki koristeći skup za obuku za nizvodne zadatke. Za proces se uzimaju u obzir sljedeća mjerila: Open-Images(OpIm), iNaturalist(iNat), Places205(Places) i Pascal VOC(VOC). 

Detekcija i segmentacija

Slika u nastavku uspoređuje unaprijed obučene značajke za otkrivanje i segmentaciju te ih ocjenjuje. 

Okvir SEER trenira Mask-RCNN model na referentnoj vrijednosti COCO s unaprijed obučenim RegNetY-64GF i RegNetY-128GF kao građevnim blokovima. I za arhitekturu i za nizvodne zadatke, SEER-ov samonadzirani pristup prije obuke nadmašuje nadziranu obuku od strane 1.5 do 2 AP boda

Usporedba sa slabo nadziranim prethodnim treningom

Većina slika dostupnih na internetu obično ima meta opis ili alternativni tekst, ili opise, ili geolokacije koje mogu pružiti prednost tijekom predobuke. Prethodni rad je pokazao da predviđanje odabranog ili označenog skupa hashtagova može poboljšati kvalitetu predviđanja rezultirajućih vizualnih značajki. Međutim, ovaj pristup treba filtrirati slike, a najbolje funkcionira samo kada su prisutni tekstualni metapodaci. 

Slika u nastavku uspoređuje prethodnu obuku arhitekture ResNetXt101-32dx8d trenirane na nasumičnim slikama s istom arhitekturom koja se trenira na označenim slikama s hashtagovima i metapodacima, te izvješćuje o najvišoj točnosti za obje. 

Može se vidjeti da, iako SEER okvir ne koristi metapodatke tijekom prethodne obuke, njegova točnost je usporediva s modelima koji koriste metapodatke za prethodnu obuku. 

Studije ablacije

Studija ablacije provodi se kako bi se analizirao utjecaj određene komponente na ukupnu izvedbu modela. Studija ablacije provodi se potpunim uklanjanjem komponente iz modela i razumijevanjem izvedbe modela. Programerima daje kratak pregled utjecaja te određene komponente na performanse modela. 

Utjecaj arhitekture modela

Arhitektura modela ima značajan utjecaj na performanse modela, posebno kada je model skaliran ili su specifikacije podataka prije obuke modificirane. 

Sljedeća slika govori o utjecaju na koji promjena arhitekture utječe na kvalitetu prethodno obučenih značajki uz linearnu procjenu skupa podataka ImageNet. Prethodno uvježbane značajke mogu se ispitati izravno u ovom slučaju jer procjena ne daje prednost modelu koji vraća visoku točnost kada se uvježbava od nule na skupu podataka ImageNet. 

Može se uočiti da za ResNeXts i ResNet arhitekturu značajke dobivene iz pretposljednjeg sloja bolje rade s trenutnim postavkama. S druge strane, RegNet arhitektura nadmašuje ostale arhitekture. 

Sve u svemu, može se zaključiti da povećanje kapaciteta modela ima pozitivan učinak na kvalitetu značajki, te postoji logaritamski dobitak u performansama modela. 

Skaliranje podataka prije obuke

Postoje dva glavna razloga zašto obučavanje modela na većem skupu podataka može poboljšati ukupnu kvalitetu vizualne značajke koju model uči: više jedinstvenih slika i više parametara. Pogledajmo ukratko kako ti razlozi utječu na performanse modela. 

Povećanje broja jedinstvenih slika

Gornja slika uspoređuje dvije različite arhitekture, RegNet8 i RegNet16 koje imaju isti broj parametara, ali su obučene na različitom broju jedinstvenih slika. Okvir SEER obučava modele za ažuriranja koja odgovaraju 1 epohi za milijardu slika, ili 32 epohi za 32 jedinstvene slike, i s kosinusnom stopom učenja jednog poluvala. 

Može se uočiti da bi model za dobru izvedbu idealno trebao biti veći broj jedinstvenih slika koje se unose u model. U ovom slučaju, model radi dobro kada mu se dodaju jedinstvene slike veće od slika prisutnih u skupu podataka ImageNet. 

Više parametara

Donja slika pokazuje izvedbu modela jer je obučen na milijardu slika koristeći RegNet-128GF arhitekturu. Može se uočiti da izvedba modela stalno raste kada se poveća broj parametara. 

Samonadgledani računalni vid u stvarnom svijetu

Do sada smo raspravljali o tome kako samonadzirano učenje i SEER model za računalni vid funkcioniraju u teoriji. Pogledajmo sada kako računalni vid sa samonadzorom funkcionira u scenarijima stvarnog svijeta i zašto je SEER budućnost računalnog vida sa samonadzorom. 

Model SEER konkurira radu koji je obavljen u industriji obrade prirodnog jezika gdje vrhunski najsuvremeniji modeli koriste trilijune skupova podataka i parametara zajedno s trilijunima riječi teksta tijekom prethodne obuke modela. Učinkovitost nizvodnih zadataka općenito raste s povećanjem broja ulaznih podataka za obuku modela, a isto vrijedi i za zadatke računalnog vida. 

Ali korištenje tehnika samonadzora učenja za obradu prirodnog jezika razlikuje se od korištenja samonadzora učenja za računalni vid. To je zato što kada se radi o tekstovima, semantički koncepti obično se raščlanjuju na zasebne riječi, ali kada se radi o slikama, model mora odlučiti koji piksel pripada kojem konceptu. 

Osim toga, različite slike imaju različite poglede, a iako više slika može imati isti objekt, koncept se može značajno razlikovati. Na primjer, razmotrite skup podataka sa slikama mačke. Iako je primarni objekt, mačka uobičajena na svim slikama, koncept može značajno varirati jer mačka može mirno stajati na slici, dok se na sljedećoj može igrati loptom i tako dalje i tako dalje. Budući da slike često imaju različite koncepte, bitno je da model pogleda značajnu količinu slika kako bi shvatio razlike oko istog koncepta. 

Uspješno skaliranje modela tako da učinkovito radi s visokodimenzionalnim i složenim slikovnim podacima zahtijeva dvije komponente: 

  1. Konvolucijska neuronska mreža ili CNN koja je dovoljno velika da uhvati i nauči vizualne koncepte iz vrlo velikog skupa slikovnih podataka.
  2. Algoritam koji može naučiti uzorke iz velike količine slika bez ikakvih oznaka, komentara ili metapodataka. 

SEER model ima za cilj primijeniti gore navedene komponente na polje računalnog vida. SEER model ima za cilj iskoristiti napredak koji je napravio SwAV, samonadzirani okvir za učenje koji koristi online klasteriranje za grupiranje ili uparivanje slika s paralelnim vizualnim konceptima, te iskoristiti te sličnosti za bolje prepoznavanje uzoraka. 

Sa SwAV arhitekturom, model SEER može učiniti korištenje samonadziranog učenja u računalnom vidu mnogo učinkovitijim i smanjiti vrijeme obuke do 6 puta. 

Nadalje, obuka modela u velikoj mjeri, u ovoj mjeri, preko 1 milijarde slika zahtijeva arhitekturu modela koja je učinkovita ne samo u pogledu vremena izvođenja i memorije, već i u pogledu točnosti. Ovo je mjesto gdje RegNet modeli stupaju na scenu budući da su ti RegNets modeli ConvNets modeli koji mogu skalirati trilijune parametara i mogu se optimizirati prema potrebama u skladu s ograničenjima memorije i propisima o vremenu izvođenja. 

Zaključak: budućnost pod nadzorom

Samonadzorno učenje već je neko vrijeme glavna točka razgovora u industriji umjetne inteligencije i strojnog učenja jer omogućuje modelima umjetne inteligencije da uče informacije izravno iz velike količine podataka koji su nasumično dostupni na internetu umjesto da se oslanjaju na pažljivo odabrane i označene skup podataka čija je jedina svrha obučavanje AI modela. 

Samonadzorno učenje ključni je koncept za budućnost umjetne inteligencije i strojnog učenja jer ima potencijal omogućiti razvojnim programerima stvaranje modela umjetne inteligencije koji se dobro prilagođavaju scenarijima u stvarnom svijetu i ima višestruke slučajeve upotrebe umjesto da ima određenu svrhu, a SEER je prekretnica u implementaciji samonadziranog učenja u industriji računalnog vida. 

SEER model poduzima prvi korak u transformaciji industrije računalnog vida i smanjuje našu ovisnost o označenom skupu podataka. SEER model ima za cilj eliminirati potrebu za označavanjem skupa podataka što će programerima omogućiti rad s raznolikim i velikim količinama podataka. Implementacija SEER-a posebno je korisna za programere koji rade na modelima koji se bave područjima koja imaju ograničene slike ili metapodatke poput medicinske industrije. 

Nadalje, uklanjanje ljudskih bilješki omogućit će programerima brži razvoj i implementaciju modela, što će im dodatno omogućiti da brže i točnije odgovore na situacije koje se brzo mijenjaju. 

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.