škrbina 10 najboljih algoritama strojnog učenja (2024.) - Unite.AI
Povežite se s nama

Najbolje

10 najboljih algoritama strojnog učenja

mm
Ažurirano on

Iako živimo u vremenu izvanrednih inovacija u GPU-ubrzanom strojnom učenju, najnoviji istraživački radovi često (i istaknuto) prikazuju algoritme stare desetljećima, u nekim slučajevima 70 godina.

Neki bi mogli tvrditi da mnoge od ovih starijih metoda spadaju u tabor 'statističke analize', a ne strojnog učenja, i radije datiraju pojavu sektora samo u 1957. godinu, s izum Perceptrona.

S obzirom na to u kojoj mjeri ovi stariji algoritmi podržavaju i upleteni su u najnovije trendove i razvoj strojnog učenja koji privlači naslove, to je stajalište koje se može osporiti. Dakle, pogledajmo neke od 'klasičnih' sastavnih dijelova koji podupiru najnovije inovacije, kao i neke novije unose koji daju rane ponude za Kuću slavnih umjetne inteligencije.

1: Transformatori

Godine 2017. Googleovo istraživanje predvodilo je istraživačku suradnju koja je kulminirala u papir Pažnja je sve što trebate. Djelo je ocrtalo novu arhitekturu koja je promicala mehanizmi pažnje od 'cijevovoda' u koderu/dekoderu i rekurentnim mrežnim modelima do same središnje transformacijske tehnologije.

Prilaz je bio sinkroniziran Transformator, i od tada je postala revolucionarna metodologija u obradi prirodnog jezika (NLP), pokrećući, među mnogim drugim primjerima, autoregresivni jezični model i AI poster-child GPT-3.

Transformatori su elegantno riješili problem transdukcija sekvence, također nazvana 'transformacija', koja se bavi obradom ulaznih nizova u izlazne nizove. Transformator također prima i upravlja podacima na kontinuirani način, umjesto u sekvencijalnim serijama, dopuštajući 'postojanost memorije' za koju RNN arhitekture nisu dizajnirane. Za detaljniji pregled transformatora pogledajte naš referentni članak.

Za razliku od ponavljajućih neuronskih mreža (RNN) koje su počele dominirati istraživanjem ML-a u eri CUDA, transformatorska arhitektura također se može lako paralelizirano, otvarajući put za produktivno rješavanje daleko većeg korpusa podataka od RNN-ova.

Popularna upotreba

Transformersi su zaokupili maštu javnosti 2020. izdavanjem OpenAI-jevog GPT-3, koji se mogao pohvaliti tada rekordnim brojem 175 milijardi parametara. Ovo naizgled zapanjujuće postignuće na kraju je zasjenjeno kasnijim projektima, kao što je 2021. objaviti Microsoftovog Megatron-Turing NLG 530B, koji (kao što ime sugerira) ima preko 530 milijardi parametara.

Vremenski slijed hiperrazmjernih Transformer NLP projekata. Izvor: Microsoft

Vremenski slijed hiperrazmjernih Transformer NLP projekata. Izvor: microsoft

Transformatorska arhitektura također je prešla iz NLP-a u računalni vid, napajajući a nova generacija okvira za sintezu slike kao što je OpenAI CLIP i DALL-E, koji koriste mapiranje domene teksta>slike kako bi dovršili nepotpune slike i sintetizirali nove slike iz obučenih domena, među sve većim brojem povezanih aplikacija.

DALL-E pokušava dovršiti djelomičnu sliku Platonove biste. Izvor: https://openai.com/blog/dall-e/

DALL-E pokušava dovršiti djelomičnu sliku Platonove biste. Izvor: https://openai.com/blog/dall-e/

2: Generativne kontradiktorne mreže (GAN)

Iako su transformatori stekli izvanrednu medijsku pokrivenost puštanjem i usvajanjem GPT-3, Generativna savjetodavna mreža (GAN) postala je prepoznatljiva marka za sebe, a možda će se i pridružiti deepfake kao glagol.

Prvo predloženo u 2014 i prvenstveno se koristi za sintezu slike, Generative Adversarial Network arhitektura sastoji se od a Generator a Diskriminator. Generator kruži kroz tisuće slika u skupu podataka, iterativno ih pokušavajući rekonstruirati. Za svaki pokušaj, Diskriminator ocjenjuje Generatorov rad i šalje Generatora natrag da bude bolji, ali bez ikakvog uvida u način na koji je prethodna rekonstrukcija pogriješila.

Izvor: https://developers.google.com/machine-learning/gan/gan_structure

Izvor: https://developers.google.com/machine-learning/gan/gan_structure

Ovo prisiljava Generator da istražuje mnoštvo puteva, umjesto da slijedi potencijalne slijepe ulice koje bi nastale da mu je Diskriminator rekao gdje ide krivo (vidi #8 dolje). Do završetka obuke, Generator ima detaljnu i sveobuhvatnu kartu odnosa između točaka u skupu podataka.

Izvadak iz popratnog videa istraživača (pogledajte ugrađeni na kraju članka). Imajte na umu da korisnik manipulira transformacijama s 'grab' kursorom (gore lijevo). Izvor: https://www.youtube.com/watch?v=k7sG4XY5rIc

Iz papira Poboljšanje GAN ravnoteže podizanjem svijesti o prostoru: novi okvir kruži kroz ponekad misteriozni latentni prostor GAN-a, pružajući odgovarajući instrumentalizam za arhitekturu sinteze slike. Izvor: https://genforce.github.io/eqgan/

Analogno tome, ovo je razlika između učenja jednog jednostavnog putovanja do središta Londona ili mukotrpnog stjecanja Znanje.

Rezultat je zbirka značajki visoke razine u latentnom prostoru uvježbanog modela. Semantički indikator za značajku visoke razine može biti 'osoba', dok spuštanje kroz specifičnosti povezane sa značajkom može otkriti druge naučene karakteristike, kao što su 'muško' i 'žensko'. Na nižim razinama podznačajke se mogu podijeliti na 'plavuša', 'bijelka' itd.

Zaplet je značajno pitanje u latentnom prostoru GAN-ova i okvira kodera/dekodera: je li osmijeh na GAN-generiranom ženskom licu zamršena značajka njezina 'identiteta' u latentnom prostoru ili je to paralelna grana?

GAN-generirana lica ove osobe ne postoje. Izvor: https://this-person-does-not-exist.com/en

GAN-generirana lica ove osobe ne postoje. Izvor: https://this-person-does-not-exist.com/en

Proteklih nekoliko godina iznjedrilo je sve veći broj novih istraživačkih inicijativa u tom pogledu, možda utirući put za uređivanje u Photoshop stilu na razini značajki za latentni prostor GAN-a, ali trenutno su mnoge transformacije učinkovito ' paketi sve ili ništa. Naime, NVIDIA-ino izdanje EditGAN-a krajem 2021. postiže a visok stupanj interpretabilnosti u latentnom prostoru korištenjem maski semantičke segmentacije.

Popularna upotreba

Osim njihove (zapravo prilično ograničene) uključenosti u popularne deepfake video zapise, GAN-ovi usmjereni na slike/video su se proširili tijekom posljednje četiri godine, oduševljavajući istraživače i javnost. Održavanje koraka s vrtoglavom stopom i učestalošću novih izdanja izazov je, iako GitHub repozitorij Sjajne GAN aplikacije ima za cilj pružiti sveobuhvatan popis.

Generativne kontradiktorne mreže mogu u teoriji izvesti značajke iz bilo koje dobro uokvirene domene, uključujući tekst.

3: SVM

Izvorni u 1963, Potporni vektorski stroj (SVM) temeljni je algoritam koji se često pojavljuje u novim istraživanjima. Pod SVM-om, vektori mapiraju relativni raspored podatkovnih točaka u skupu podataka, dok podrška vektori ocrtavaju granice između različitih skupina, obilježja ili svojstava.

Potporni vektori definiraju granice između skupina. Izvor: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Potporni vektori definiraju granice između skupina. Izvor: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Izvedena granica naziva se a hiperravan.

Na niskim razinama značajki, SVM je dvodimenzionalan (slika iznad), ali tamo gdje postoji veći broj prepoznatih grupa ili tipova, postaje trodimenzionalni.

Dublji niz točaka i grupa zahtijeva trodimenzionalni SVM. Izvor: https://cml.rhul.ac.uk/svm.html

Dublji niz točaka i grupa zahtijeva trodimenzionalni SVM. Izvor: https://cml.rhul.ac.uk/svm.html

Popularna upotreba

Budući da vektorski strojevi za podršku mogu učinkovito i agnostički rješavati visokodimenzionalne podatke mnogih vrsta, oni se široko pojavljuju u raznim sektorima strojnog učenja, uključujući deepfake detekcija, klasifikacija slika, klasifikacija govora mržnje, DNK analiza i predviđanje strukture stanovništva, među mnogim drugima.

4: Grupiranje K-srednjih vrijednosti

Grupiranje je općenito učenje bez nadzora pristup koji nastoji kategorizirati podatkovne točke putem procjena gustoće, stvarajući mapu distribucije podataka koji se proučavaju.

K-znači grupiranje božanskih segmenata, grupa i zajednica u podacima. Izvor: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-znači grupiranje božanskih segmenata, grupa i zajednica u podacima. Izvor: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

Klasteriranje K-sredstava je postala najpopularnija implementacija ovog pristupa, razvrstavajući podatkovne točke u karakteristične 'K grupe', koje mogu označavati demografske sektore, online zajednice ili bilo koju drugu moguću tajnu agregaciju koja čeka da bude otkrivena u neobrađenim statističkim podacima.

Klasteri se formiraju u K-Means analizi. Izvor: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Klasteri se formiraju u K-Means analizi. Izvor: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Sama K vrijednost je odlučujući čimbenik u korisnosti procesa iu uspostavljanju optimalne vrijednosti za klaster. U početku se K vrijednost dodjeljuje nasumično, a njezine značajke i vektorske karakteristike uspoređuju se sa susjedima. Oni susjedi koji su najsličniji podatkovnoj točki s nasumično dodijeljenom vrijednošću iterativno se dodjeljuju njegovom klasteru sve dok podaci ne daju sva grupiranja koja proces dopušta.

Grafikon kvadrata pogreške ili 'cijene' različitih vrijednosti među klasterima otkrit će točka lakta za podatke:

'Točka lakta' u klaster grafu. Izvor: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

'Točka lakta' u klaster grafu. Izvor: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Točka lakta po konceptu je slična načinu na koji se gubitak svodi na opadajuće povrate na kraju treninga za skup podataka. Predstavlja točku u kojoj daljnje razlike među skupinama neće postati očigledne, označavajući trenutak za prelazak na sljedeće faze u cjevovodu podataka ili za izvješćivanje o nalazima.

Popularna upotreba

K-Means Clustering je, iz očitih razloga, primarna tehnologija u analizi kupaca, budući da nudi jasnu i objašnjivu metodologiju za prevođenje velikih količina komercijalnih zapisa u demografske uvide i 'potencijalne klijente'.

Izvan ove aplikacije, K-Means Clustering također se koristi za predviđanje klizišta, segmentacija medicinske slike, sinteza slike s GAN-ovima, klasifikacija dokumenatai planiranje grada, među mnogim drugim potencijalnim i stvarnim upotrebama.

5: Slučajna šuma

Random Forest je učenje u ansamblu metoda koja izračunava prosjek rezultata iz niza stabla odlučivanja kako bi se utvrdilo opće predviđanje ishoda.

Izvor: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Izvor: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Ako ste to istraživali čak i samo gledajući Povratak u budućnost trilogije, samo stablo odlučivanja prilično je lako konceptualizirati: niz putova leži pred vama, a svaki se put grana do novog ishoda koji zauzvrat sadrži daljnje moguće putove.

In učenje učvršćivanja, možete se povući s puta i ponovno krenuti s ranijeg stajališta, dok se stabla odlučivanja obvezuju na svoja putovanja.

Stoga je algoritam Random Forest u biti klađenje na širenje odluka. Algoritam se naziva 'slučajnim' jer čini ad hoc odabira i promatranja kako bismo razumjeli srednja zbroj rezultata iz niza stabla odlučivanja.

Budući da uzima u obzir mnoštvo čimbenika, pristup Random Forest može biti teže pretvoriti u smislene grafikone nego stablo odlučivanja, ali će vjerojatno biti znatno produktivniji.

Stabla odlučivanja podložna su prekomjernom opremanju, gdje su dobiveni rezultati specifični za podatke i nije vjerojatno da će se generalizirati. Proizvoljni odabir podatkovnih točaka Random Foresta bori se protiv ove tendencije, bušenjem do značajnih i korisnih reprezentativnih trendova u podacima.

Regresija stabla odlučivanja. Izvor: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Regresija stabla odlučivanja. Izvor: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Popularna upotreba

Kao i kod mnogih algoritama na ovom popisu, Random Forest obično radi kao 'rani' razvrstivač i filter podataka, i kao takav se stalno pojavljuje u novim istraživačkim radovima. Neki primjeri korištenja Random Forest uključuju Sinteza slike magnetskom rezonancijom, Predviđanje cijene bitcoina, segmentacija popisa stanovništva, klasifikacija teksta i otkrivanje prijevare s kreditnom karticom.

Budući da je Random Forest algoritam niske razine u arhitekturama strojnog učenja, također može doprinijeti izvedbi drugih metoda niske razine, kao i algoritama vizualizacije, uključujući Induktivno grupiranje, Transformacije značajki, klasifikacija tekstualnih dokumenata korištenjem rijetkih značajkii prikazivanje cjevovoda.

6: Naivni Bayes

Zajedno s procjenom gustoće (vidi 4, gore), a naivni Bayes klasifikator je moćan, ali relativno lagan algoritam koji može procijeniti vjerojatnosti na temelju izračunatih značajki podataka.

Odnosi značajki u jednostavnom Bayesovom klasifikatoru. Izvor: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Odnosi značajki u jednostavnom Bayesovom klasifikatoru. Izvor: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Izraz 'naivan' odnosi se na pretpostavku u Bayesov teorem da značajke nisu povezane, poznate kao uvjetna neovisnost. Ako prihvatite ovo stajalište, hodanje i govor kao patka nisu dovoljni da se utvrdi da imamo posla s patkom, a nikakve 'očite' pretpostavke nisu preuranjeno usvojene.

Ova razina akademske i istraživačke strogosti bila bi pretjerana tamo gdje je dostupan 'zdrav razum', ali je vrijedan standard kada se prevladavaju mnoge dvosmislenosti i potencijalno nepovezane korelacije koje mogu postojati u skupu podataka strojnog učenja.

U originalnoj Bayesovoj mreži značajke su podložne funkcije bodovanja, uključujući minimalnu duljinu opisa i Bayesovo bodovanje, što može nametnuti ograničenja podacima u smislu procijenjenih veza pronađenih između podatkovnih točaka i smjera u kojem te veze teku.

Naivni Bayesov klasifikator, nasuprot tome, funkcionira tako da pretpostavlja da su značajke danog objekta neovisne, a zatim koristi Bayesov teorem za izračunavanje vjerojatnosti danog objekta, na temelju njegovih značajki.

Popularna upotreba

Naivni Bayesovi filtri dobro su zastupljeni u predviđanje bolesti i kategorizacija dokumenata, filtriranje neželjene pošte, klasifikacija osjećaja, sustavi preporukai otkrivanje prijevara, između ostalih aplikacija.

7: K- Najbliži susjedi (KNN)

Prvo je predložila Zrakoplovna medicinska škola američkih zračnih snaga u 1951, i mora se prilagoditi najsuvremenijem računalnom hardveru iz sredine 20. stoljeća, K-najbliži susjedi (KNN) je skroman algoritam koji je još uvijek istaknut u akademskim radovima i istraživačkim inicijativama za strojno učenje u privatnom sektoru.

KNN je nazvan 'lijenim učenikom', budući da iscrpno skenira skup podataka kako bi procijenio odnose između podatkovnih točaka, umjesto da zahtijeva obuku potpunog modela strojnog učenja.

KNN grupacija. Izvor: https://scikit-learn.org/stable/modules/neighbors.html

KNN grupacija. Izvor: https://scikit-learn.org/stable/modules/neighbors.html

Iako je KNN arhitektonski vitak, njegov sustavni pristup zahtijeva značajne operacije čitanja/pisanja, a njegova upotreba u vrlo velikim skupovima podataka može biti problematična bez pomoćnih tehnologija kao što je analiza glavnih komponenti (PCA), koja može transformirati složene i velike skupove podataka u reprezentativne grupacije koje KNN može prijeći s manje napora.

A Nedavna studija procijenili su učinkovitost i ekonomičnost niza algoritama čiji je zadatak predvidjeti hoće li zaposlenik napustiti tvrtku, otkrivši da je sedamdesetogodišnji KNN ostao superioran u odnosu na modernije konkurente u pogledu točnosti i prediktivne učinkovitosti.

Popularna upotreba

Uza svu svoju popularnu jednostavnost koncepta i izvedbe, KNN nije zapeo u 1950-ima – adaptiran je u pristup koji je više usmjeren na DNN u prijedlogu Pennsylvania State University iz 2018. i ostaje središnji proces u ranoj fazi (ili analitički alat za naknadnu obradu) u mnogim daleko složenijim okvirima strojnog učenja.

U raznim konfiguracijama, KNN je korišten ili za online provjera potpisa, klasifikacija slika, vađenje teksta, predviđanje usjevai prepoznavanje lica, osim drugih aplikacija i inkorporacija.

Sustav za prepoznavanje lica temeljen na KNN-u u obuci. Izvor: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Sustav za prepoznavanje lica temeljen na KNN-u u obuci. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Markovljev proces odlučivanja (MDP)

Matematički okvir koji je predstavio američki matematičar Richard Bellman u 1957, Markovljev proces odlučivanja (MDP) jedan je od najosnovnijih blokova učenje učvršćivanja arhitekture. Konceptualni algoritam sam po sebi, prilagođen je velikom broju drugih algoritama i često se ponavlja u trenutačnom istraživanju AI/ML-a.

MDP istražuje podatkovno okruženje koristeći svoju procjenu trenutnog stanja (tj. 'gdje' se nalazi u podacima) kako bi odlučio koji će čvor podataka sljedeći istražiti.

Izvor: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Izvor: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Osnovni Markovljev proces odlučivanja dat će prednost kratkoročnoj prednosti u odnosu na poželjnije dugoročne ciljeve. Iz tog razloga, obično je ugrađeno u kontekst sveobuhvatnije arhitekture politike u učenju s potkrepljenjem i često je podložno ograničavajućim čimbenicima kao što su nagrada s popustomi druge modificirajuće varijable okoline koje će ga spriječiti da žuri prema neposrednom cilju bez razmatranja šireg željenog ishoda.

Popularna upotreba

MDP-ov koncept niske razine raširen je iu istraživanju iu aktivnoj implementaciji strojnog učenja. Predloženo je za IoT sigurnosni obrambeni sustavi, izlov ribei predviđanje tržišta.

Osim svog očita primjenjivost šahu i drugim striktno sekvencijalnim igrama, MDP je također prirodni kandidat za proceduralno osposobljavanje robotskih sustava, kao što možemo vidjeti u videu ispod.

Globalni planer koji koristi Markovljev proces odlučivanja - mobilna industrijska robotika

 

9: Učestalost termina - Inverzna učestalost dokumenta

Učestalost termina (TF) dijeli broj pojavljivanja riječi u dokumentu s ukupnim brojem riječi u tom dokumentu. Stoga riječ brtvljenje koji se pojavljuje jednom u članku od tisuću riječi ima učestalost termina od 0.001. Sam po sebi, TF je uglavnom beskoristan kao pokazatelj važnosti izraza, zbog činjenice da besmisleni članci (kao što je a, i, oi it) prevladavaju.

Kako bi se dobila smislena vrijednost za pojam, Inverse Document Frequency (IDF) izračunava TF riječi u više dokumenata u skupu podataka, dodjeljujući nisku ocjenu vrlo visokoj frekvenciji zaustavne riječi, kao što su članci. Rezultirajući vektori značajki normalizirani su na cijele vrijednosti, pri čemu je svakoj riječi dodijeljena odgovarajuća težina.

TF-IDF ponderira relevantnost pojmova na temelju učestalosti u nizu dokumenata, pri čemu je rjeđe pojavljivanje pokazatelj istaknutosti. Izvor: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

TF-IDF ponderira relevantnost pojmova na temelju učestalosti u nizu dokumenata, pri čemu je rjeđe pojavljivanje pokazatelj istaknutosti. Izvor: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Iako ovaj pristup sprječava gubitak semantički važnih riječi kao outlieri, invertiranje težine frekvencije ne znači automatski da je izraz niske frekvencije ne izuzetak, jer su neke stvari rijetke i bezvrijedan. Stoga će pojam niske frekvencije morati dokazati svoju vrijednost u širem arhitektonskom kontekstu pojavljivanjem (čak i s niskom učestalošću po dokumentu) u nizu dokumenata u skupu podataka.

Unatoč svom starost, TF-IDF je moćna i popularna metoda za početne prolaze filtriranja u okvirima obrade prirodnog jezika.

Popularna upotreba

Budući da je TF-IDF igrao barem neku ulogu u razvoju Googleovog uglavnom okultnog PageRank algoritma tijekom posljednjih dvadeset godina, postao je vrlo široko usvojen kao manipulativna SEO taktika, usprkos Johnu Muelleru 2019 poricanje njegove važnosti za rezultate pretraživanja.

Zbog tajnovitosti oko PageRanka, nema jasnih dokaza da TF-IDF jest ne trenutno učinkovita taktika za uspon na Googleovoj ljestvici. Palikuća rasprava među IT stručnjacima u posljednje vrijeme ukazuje na popularno shvaćanje, ispravno ili ne, da zlouporaba izraza ipak može rezultirati poboljšanim SEO položajem (iako dodatno optužbe za zlouporabu monopola i pretjerano oglašavanje zamagliti granice ove teorije).

10: Stohastički gradijentni pad

Stohastički gradijentni silazak (SGD) je sve popularnija metoda za optimizaciju obuke modela strojnog učenja.

Sam Gradient Descent je metoda optimiziranja i naknadnog kvantificiranja poboljšanja koje model čini tijekom obuke.

U tom smislu, 'gradijent' označava nagib prema dolje (umjesto gradacije temeljene na boji, vidi sliku ispod), gdje najviša točka 'brda', s lijeve strane, predstavlja početak procesa treninga. U ovoj fazi model još nije niti jednom vidio sve podatke i nije dovoljno naučio o odnosima između podataka da bi proizveo učinkovite transformacije.

Gradijentni spust na treningu FaceSwap. Možemo vidjeti da je obuka zastala neko vrijeme u drugoj polovici, ali se na kraju oporavila niz gradijent prema prihvatljivoj konvergenciji.

Gradijentni spust na treningu FaceSwap. Možemo vidjeti da je obuka zastala neko vrijeme u drugoj polovici, ali se na kraju oporavila niz gradijent prema prihvatljivoj konvergenciji.

Najniža točka, s desne strane, predstavlja konvergenciju (točku u kojoj je model onoliko učinkovit koliko će ikada biti pod nametnutim ograničenjima i postavkama).

Gradijent djeluje kao zapis i prediktor za disparitet između stope pogreške (koliko točno je model trenutno mapirao odnose podataka) i težine (postavke koje utječu na način na koji će model učiti).

Ovaj zapis o napretku može se koristiti za informiranje a raspored tečaja učenja, automatski proces koji govori arhitekturi da postane granularnija i preciznija kako se rani nejasni detalji pretvaraju u jasne odnose i preslikavanja. U stvari, gubitak gradijenta pruža pravovremenu mapu gdje bi trening trebao ići dalje i kako bi se trebao nastaviti.

Inovacija Stochastic Gradient Descenta je u tome što ažurira parametre modela na svakom primjeru obuke po iteraciji, što općenito ubrzava putovanje do konvergencije. Zbog pojave hiperrazmjernih skupova podataka posljednjih godina, SGD je u posljednje vrijeme postao sve popularniji kao jedna od mogućih metoda za rješavanje logističkih problema koji iz toga proizlaze.

S druge strane, SGD ima negativne implikacije za skaliranje značajki i može zahtijevati više ponavljanja za postizanje istog rezultata, zahtijevajući dodatno planiranje i dodatne parametre, u usporedbi s uobičajenim Gradijentnim spuštanjem.

Popularna upotreba

Zbog svoje konfigurabilnosti i unatoč svojim nedostacima, SGD je postao najpopularniji optimizacijski algoritam za prilagođavanje neuronskih mreža. Jedna konfiguracija SGD-a koja postaje dominantna u novim AI/ML istraživačkim radovima je izbor Adaptive Moment Estimation (ADAM, uveden u 2015) optimizator.

ADAM dinamički prilagođava stopu učenja za svaki parametar ('adaptivna stopa učenja'), kao i uključivanje rezultata prethodnih ažuriranja u naknadnu konfiguraciju ('momentum'). Dodatno, može se konfigurirati za korištenje kasnijih inovacija, kao što je Nesterov Momentum.

Međutim, neki tvrde da korištenje zamaha također može ubrzati ADAM (i slične algoritme) na a sub-optimalan zaključak. Kao i s većinom krvavog ruba istraživačkog sektora strojnog učenja, SGD je u tijeku.

 

Prvi put objavljeno 10. veljače 2022. Izmijenjeno 10. veljače 20.05 EET – oblikovanje.