Najbolje
10 najboljih algoritama strojnog učenja
Iako živimo u vremenu izvanrednih inovacija u strojnom učenju ubrzanom GPU-om, najnoviji istraživački radovi često (i istaknuto) prikazuju algoritme stare desetljećima, u nekim slučajevima i 70 godina.
Neki bi mogli tvrditi da mnoge od tih starijih metoda spadaju u kategoriju 'statističke analize', a ne strojnog učenja, te bi radije datirali pojavu sektora tek u 1957. godinu. izum Perceptrona.
S obzirom na stupanj u kojem ovi stariji algoritmi podržavaju i upleteni su u najnovije trendove i popularna dostignuća u strojnom učenju, to je sporan stav. Stoga pogledajmo neke od 'klasičnih' gradivnih blokova koji podupiru najnovije inovacije, kao i neke novije unose koji se rano bore za mjesto u dvorani slavnih umjetne inteligencije.
1: Transformatori
Godine 2017. Googleovo istraživanje predvodilo je istraživačku suradnju koja je kulminirala u papir Pažnja je sve što trebate. Djelo je ocrtalo novu arhitekturu koja je promicala mehanizmi pažnje od 'cijevovođenja' u modelima kodera/dekodera i rekurentnih mreža do samostalne središnje transformacijske tehnologije.
Prilaz je bio sinkroniziran Transformator, i od tada je postala revolucionarna metodologija u obradi prirodnog jezika (NLP), pokrećući, među mnogim drugim primjerima, autoregresivni jezični model i AI poster-child GPT-3.

Transformatori su elegantno riješili problem transdukcija sekvence, također nazvana 'transformacija', koja se bavi obradom ulaznih sekvenci u izlazne sekvence. Transformator također prima i upravlja podacima kontinuirano, a ne u sekvencijalnim serijama, omogućujući 'perzistentnost memorije' koju RNN arhitekture nisu dizajnirane postići. Za detaljniji pregled transformatora, pogledajte naš referentni članak.
Za razliku od ponavljajućih neuronskih mreža (RNN) koje su počele dominirati istraživanjem ML-a u eri CUDA, transformatorska arhitektura također se može lako paralelizirano, otvarajući put za produktivno rješavanje daleko većeg korpusa podataka od RNN-ova.
Popularna upotreba
Transformersi su osvojili maštu javnosti 2020. godine izlaskom OpenAI-jevog GPT-3, koji se mogao pohvaliti tadašnjim rekordnim 175 milijardi parametara. Ovo naizgled zapanjujuće postignuće na kraju je zasjenjeno kasnijim projektima, kao što je 2021. objaviti Microsoftovog Megatron-Turing NLG 530B, koji (kao što ime sugerira) ima preko 530 milijardi parametara.

Vremenski slijed hiperrazmjernih Transformer NLP projekata. Izvor: microsoft
Transformatorska arhitektura također je prešla iz NLP-a u računalni vid, napajajući a nova generacija okvira za sintezu slika kao što je OpenAI-jev CLIP i DALL-E, koji koriste mapiranje domene teksta>slike kako bi dovršili nepotpune slike i sintetizirali nove slike iz obučenih domena, među sve većim brojem povezanih aplikacija.

DALL-E pokušava dovršiti djelomičnu sliku Platonove biste. Izvor: https://openai.com/blog/dall-e/
2: Generativne kontradiktorne mreže (GAN)
Iako su transformatori stekli izvanrednu medijsku pokrivenost puštanjem i usvajanjem GPT-3, Generativna savjetodavna mreža (GAN) postala je prepoznatljiva marka za sebe, a možda će se i pridružiti deepfake kao glagol.
Prvo predloženo u 2014 i prvenstveno se koristi za sintezu slike, Generative Adversarial Network arhitektura sastoji se od a Generator a DiskriminatorGenerator ciklički prolazi kroz tisuće slika u skupu podataka, iterativno pokušavajući ih rekonstruirati. Za svaki pokušaj, Diskriminator ocjenjuje rad Generatora i šalje Generator natrag da napravi bolje, ali bez ikakvog uvida u način na koji je prethodna rekonstrukcija pogriješila.

Izvor: https://developers.google.com/machine-learning/gan/gan_structure
Ovo prisiljava Generator da istražuje mnoštvo puteva, umjesto da slijedi potencijalne slijepe ulice koje bi nastale da mu je Diskriminator rekao gdje ide krivo (vidi #8 dolje). Do završetka obuke, Generator ima detaljnu i sveobuhvatnu kartu odnosa između točaka u skupu podataka.

Iz papira Poboljšanje GAN ravnoteže podizanjem svijesti o prostoru: novi okvir kruži kroz ponekad misteriozni latentni prostor GAN-a, pružajući odgovarajući instrumentalizam za arhitekturu sinteze slike. Izvor: https://genforce.github.io/eqgan/
Analogno tome, ovo je razlika između učenja jednog jednostavnog putovanja do središta Londona ili mukotrpnog stjecanja Znanje.
Rezultat je skup značajki visoke razine u latentnom prostoru treniranog modela. Semantički indikator za značajku visoke razine mogao bi biti 'osoba', dok spuštanje kroz specifičnost povezanu sa značajkom može otkriti druge naučene karakteristike, poput 'muškarac' i 'žena'. Na nižim razinama podznačajke se mogu podijeliti na 'plavuša', 'bijelac' itd.
Zaplet je značajno pitanje U latentnom prostoru GAN-ova i okvira za kodiranje/dekodere: je li osmijeh na ženskom licu generiranom GAN-om isprepletena značajka njezina 'identiteta' u latentnom prostoru ili je to paralelna grana?

GAN-generirana lica ove osobe ne postoje. Izvor: https://this-person-does-not-exist.com/en
Posljednjih nekoliko godina pojavilo se sve više novih istraživačkih inicijativa u tom pogledu, možda otvarajući put uređivanju latentnog prostora GAN-a na razini značajki u Photoshopu, ali trenutno su mnoge transformacije zapravo paketi 'sve ili ništa'. Značajno je da NVIDIA-ino izdanje EditGAN-a krajem 2021. postiže visok stupanj interpretabilnosti u latentnom prostoru korištenjem maski semantičke segmentacije.
Popularna upotreba
Osim njihove (zapravo prilično ograničene) uključenosti u popularne deepfake video zapise, GAN-ovi usmjereni na slike/video su se proširili tijekom posljednje četiri godine, oduševljavajući istraživače i javnost. Održavanje koraka s vrtoglavom stopom i učestalošću novih izdanja izazov je, iako GitHub repozitorij Sjajne GAN aplikacije ima za cilj pružiti sveobuhvatan popis.
Generativne kontradiktorne mreže mogu u teoriji izvesti značajke iz bilo koje dobro uokvirene domene, uključujući tekst.
3: SVM
Izvorni u 1963, Potporni vektorski stroj (SVM) temeljni je algoritam koji se često pojavljuje u novim istraživanjima. Pod SVM-om, vektori mapiraju relativni raspored podatkovnih točaka u skupu podataka, dok podrška vektori ocrtavaju granice između različitih skupina, obilježja ili svojstava.

Potporni vektori definiraju granice između skupina. Izvor: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html
Izvedena granica naziva se a hiperravan.
Na niskim razinama značajki, SVM je dvodimenzionalan (slika gore), ali tamo gdje postoji veći prepoznati broj grupa ili tipova, postaje trodimenzionalni.

Dublji niz točaka i grupa zahtijeva trodimenzionalni SVM. Izvor: https://cml.rhul.ac.uk/svm.html
Popularna upotreba
Budući da vektorski strojevi za podršku mogu učinkovito i agnostički rješavati visokodimenzionalne podatke mnogih vrsta, oni se široko pojavljuju u raznim sektorima strojnog učenja, uključujući deepfake detekcija, klasifikacija slika, klasifikacija govora mržnje, DNK analiza i predviđanje strukture stanovništva, među mnogim drugima.
4: Grupiranje K-srednjih vrijednosti
Grupiranje je općenito učenje bez nadzora pristup koji nastoji kategorizirati podatkovne točke putem procjena gustoće, stvarajući mapu distribucije podataka koji se proučavaju.

K-znači grupiranje božanskih segmenata, grupa i zajednica u podacima. Izvor: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/
Klasteriranje K-sredstava postala je najpopularnija implementacija ovog pristupa, usmjeravajući podatkovne točke u prepoznatljive 'K skupine', što može ukazivati na demografske sektore, online zajednice ili bilo koju drugu moguću tajnu agregaciju koja čeka da bude otkrivena u sirovim statističkim podacima.

Klasteri se formiraju u K-Means analizi. Izvor: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/
Sama K vrijednost je odlučujući čimbenik u korisnosti procesa iu uspostavljanju optimalne vrijednosti za klaster. U početku se K vrijednost dodjeljuje nasumično, a njezine značajke i vektorske karakteristike uspoređuju se sa susjedima. Oni susjedi koji su najsličniji podatkovnoj točki s nasumično dodijeljenom vrijednošću iterativno se dodjeljuju njegovom klasteru sve dok podaci ne daju sva grupiranja koja proces dopušta.
Grafikon kvadratne pogreške ili 'cijene' različitih vrijednosti među klasterima otkrit će točka lakta za podatke:

'Točka lakta' u klaster grafu. Izvor: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html
Točka lakta po konceptu je slična načinu na koji se gubitak svodi na opadajuće povrate na kraju treninga za skup podataka. Predstavlja točku u kojoj daljnje razlike među skupinama neće postati očigledne, označavajući trenutak za prelazak na sljedeće faze u cjevovodu podataka ili za izvješćivanje o nalazima.
Popularna upotreba
K-Means klasteriranje je, iz očitih razloga, primarna tehnologija u analizi kupaca, budući da nudi jasnu i objašnjivu metodologiju za prevođenje velikih količina komercijalnih zapisa u demografske uvide i 'potencijalne klijente'.
Izvan ove aplikacije, K-Means Clustering također se koristi za predviđanje klizišta, segmentacija medicinske slike, sinteza slike s GAN-ovima, klasifikacija dokumenatai planiranje grada, među mnogim drugim potencijalnim i stvarnim upotrebama.
5: Slučajna šuma
Random Forest je učenje u ansamblu metoda koja izračunava prosjek rezultata iz niza stabla odlučivanja kako bi se utvrdilo opće predviđanje ishoda.

Izvor: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png
Ako ste to istražili čak i samo gledanjem Povratak u budućnost trilogije, samo stablo odlučivanja prilično je lako konceptualizirati: niz putova leži pred vama, a svaki se put grana do novog ishoda koji zauzvrat sadrži daljnje moguće putove.
In učenje učvršćivanja, možete se povući s puta i ponovno krenuti s ranijeg stajališta, dok se stabla odlučivanja obvezuju na svoja putovanja.
Stoga je algoritam Slučajne šume u biti klađenje na raspršene odluke. Algoritam se naziva 'slučajnim' jer čini ad hoc odabira i promatranja kako bismo razumjeli srednja zbroj rezultata iz niza stabla odlučivanja.
Budući da uzima u obzir mnoštvo čimbenika, pristup Random Forest može biti teže pretvoriti u smislene grafikone nego stablo odlučivanja, ali će vjerojatno biti znatno produktivniji.
Stabla odlučivanja podložna su prekomjernom prilagođavanju, gdje su dobiveni rezultati specifični za podatke i nije vjerojatno da će se generalizirati. Proizvoljni odabir podatkovnih točaka u Random Forestu suzbija tu tendenciju, istražujući značajne i korisne reprezentativne trendove u podacima.

Regresija stabla odlučivanja. Izvor: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html
Popularna upotreba
Kao i mnogi algoritmi na ovom popisu, Random Forest obično djeluje kao 'rani' sorter i filter podataka te se kao takav dosljedno pojavljuje u novim istraživačkim radovima. Neki primjeri korištenja Random Foresta uključuju Sinteza slike magnetskom rezonancijom, Predviđanje cijene bitcoina, segmentacija popisa stanovništva, klasifikacija teksta i otkrivanje prijevare s kreditnom karticom.
Budući da je Random Forest algoritam niske razine u arhitekturama strojnog učenja, također može doprinijeti izvedbi drugih metoda niske razine, kao i algoritama vizualizacije, uključujući Induktivno grupiranje, Transformacije značajki, klasifikacija tekstualnih dokumenata korištenjem rijetkih značajkii prikazivanje cjevovoda.
6: Naivni Bayes
Zajedno s procjenom gustoće (vidi 4, gore), a naivni Bayes klasifikator je moćan, ali relativno lagan algoritam koji može procijeniti vjerojatnosti na temelju izračunatih značajki podataka.

Odnosi značajki u jednostavnom Bayesovom klasifikatoru. Izvor: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model
Pojam 'naivan' odnosi se na pretpostavku u Bayesov teorem da značajke nisu povezane, poznate kao uvjetna neovisnostAko usvojite ovo stajalište, hodanje i govor poput patke nisu dovoljni da bismo utvrdili da imamo posla s patkom, a nikakve 'očite' pretpostavke nisu preuranjeno usvojene.
Ova razina akademske i istraživačke strogosti bila bi pretjerana tamo gdje je dostupan 'zdrav razum', ali je vrijedan standard pri prolasku kroz mnoge dvosmislenosti i potencijalno nepovezane korelacije koje mogu postojati u skupu podataka strojnog učenja.
U originalnoj Bayesovoj mreži značajke su podložne funkcije bodovanja, uključujući minimalnu duljinu opisa i Bayesovo bodovanje, što može nametnuti ograničenja podacima u smislu procijenjenih veza pronađenih između podatkovnih točaka i smjera u kojem te veze teku.
Naivni Bayesov klasifikator, s druge strane, funkcionira pretpostavljajući da su značajke danog objekta neovisne, a zatim koristi Bayesov teorem za izračun vjerojatnosti danog objekta na temelju njegovih značajki.
Popularna upotreba
Naivni Bayesovi filtri dobro su zastupljeni u predviđanje bolesti i kategorizacija dokumenata, filtriranje neželjene pošte, klasifikacija osjećaja, sustavi preporukai otkrivanje prijevara, između ostalih aplikacija.
7: K- Najbliži susjedi (KNN)
Prvo je predložila Zrakoplovna medicinska škola američkih zračnih snaga u 1951, i mora se prilagoditi najsuvremenijem računalnom hardveru iz sredine 20. stoljeća, K-najbliži susjedi (KNN) je skroman algoritam koji je još uvijek istaknut u akademskim radovima i istraživačkim inicijativama za strojno učenje u privatnom sektoru.
KNN je nazvan 'lijenim učenikom' jer iscrpno skenira skup podataka kako bi procijenio odnose između podatkovnih točaka, umjesto da zahtijeva obuku potpuno razvijenog modela strojnog učenja.

KNN grupacija. Izvor: https://scikit-learn.org/stable/modules/neighbors.html
Iako je KNN arhitektonski vitak, njegov sustavni pristup zahtijeva značajne operacije čitanja/pisanja, a njegova upotreba u vrlo velikim skupovima podataka može biti problematična bez pomoćnih tehnologija kao što je analiza glavnih komponenti (PCA), koja može transformirati složene i velike skupove podataka u reprezentativne grupacije koje KNN može prijeći s manje napora.
A Nedavna studija procijenili su učinkovitost i ekonomičnost niza algoritama čiji je zadatak predvidjeti hoće li zaposlenik napustiti tvrtku, otkrivši da je sedamdesetogodišnji KNN ostao superioran u odnosu na modernije konkurente u pogledu točnosti i prediktivne učinkovitosti.
Popularna upotreba
Unatoč svojoj popularnoj jednostavnosti koncepta i izvedbe, KNN nije zaglavljen u 1950-ima – adaptiran je u pristup koji je više usmjeren na DNN u prijedlogu Pennsylvania State University iz 2018. i ostaje središnji proces u ranoj fazi (ili analitički alat za naknadnu obradu) u mnogim daleko složenijim okvirima strojnog učenja.
U raznim konfiguracijama, KNN je korišten ili za online provjera potpisa, klasifikacija slika, vađenje teksta, predviđanje usjevai prepoznavanje lica, osim drugih aplikacija i inkorporacija.

Sustav za prepoznavanje lica temeljen na KNN-u u obuci. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf
8: Markovljev proces odlučivanja (MDP)
Matematički okvir koji je predstavio američki matematičar Richard Bellman u 1957, Markovljev proces odlučivanja (MDP) jedan je od najosnovnijih blokova učenje učvršćivanja arhitekture. Konceptualni algoritam sam po sebi, prilagođen je velikom broju drugih algoritama i često se ponavlja u trenutačnom istraživanju AI/ML-a.
MDP istražuje podatkovno okruženje koristeći svoju procjenu njegovog trenutnog stanja (tj. 'gdje' se nalazi u podacima) kako bi odlučio koji čvor podataka će sljedeći istražiti.

Izvor: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420
Osnovni Markovljev proces odlučivanja dat će prednost kratkoročnoj prednosti u odnosu na poželjnije dugoročne ciljeve. Iz tog razloga, obično je ugrađeno u kontekst sveobuhvatnije arhitekture politike u učenju s potkrepljenjem i često je podložno ograničavajućim čimbenicima kao što su snižene nagrade i druge modificirajuće varijable okoline koje će ga spriječiti da žuri prema neposrednom cilju bez razmatranja šireg željenog ishoda.
Popularna upotreba
MDP-ov koncept niske razine široko je rasprostranjen i u istraživanjima i u aktivnoj primjeni strojnog učenja. Predložen je za IoT sigurnosni obrambeni sustavi, izlov ribei predviđanje tržišta.
Osim svog očita primjenjivost šahu i drugim striktno sekvencijalnim igrama, MDP je također prirodni kandidat za proceduralno osposobljavanje robotskih sustava, kao što možemo vidjeti u videu ispod.
9: Učestalost termina - Inverzna učestalost dokumenta
Učestalost termina (TF) dijeli broj pojavljivanja riječi u dokumentu s ukupnim brojem riječi u tom dokumentu. Stoga riječ brtvljenje koji se pojavljuje jednom u članku od tisuću riječi ima učestalost termina od 0.001. Sam po sebi, TF je uglavnom beskoristan kao pokazatelj važnosti izraza, zbog činjenice da besmisleni članci (kao što je a, i, oi it) prevladavaju.
Kako bi se dobila smislena vrijednost za pojam, Inverse Document Frequency (IDF) izračunava TF riječi u više dokumenata u skupu podataka, dodjeljujući nisku ocjenu vrlo visokoj frekvenciji zaustavne riječi, kao što su članci. Rezultirajući vektori značajki normalizirani su na cijele vrijednosti, pri čemu je svakoj riječi dodijeljena odgovarajuća težina.

TF-IDF ponderira relevantnost pojmova na temelju učestalosti u nizu dokumenata, pri čemu je rjeđe pojavljivanje pokazatelj istaknutosti. Izvor: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness
Iako ovaj pristup sprječava gubitak semantički važnih riječi kao outlieri, invertiranje težine frekvencije ne znači automatski da je izraz niske frekvencije ne izuzetak, jer su neke stvari rijetke i bezvrijedan. Stoga će pojam niske frekvencije morati dokazati svoju vrijednost u širem arhitektonskom kontekstu pojavljivanjem (čak i s niskom učestalošću po dokumentu) u nizu dokumenata u skupu podataka.
Unatoč svom starost, TF-IDF je moćna i popularna metoda za početne prolaze filtriranja u okvirima obrade prirodnog jezika.
Popularna upotreba
Budući da je TF-IDF odigrao barem određenu ulogu u razvoju Googleovog uglavnom okultnog PageRank algoritma tijekom posljednjih dvadeset godina, postao je vrlo široko usvojen kao manipulativna SEO taktika, unatoč Johnu Muelleru iz 2019. poricanje njegove važnosti za rezultate pretraživanja.
Zbog tajnovitosti oko PageRanka, nema jasnih dokaza da TF-IDF jest ne trenutno učinkovita taktika za napredovanje na Googleovoj ljestvici. Zapaljivo rasprava među IT stručnjacima u posljednje vrijeme ukazuje na popularno shvaćanje, ispravno ili ne, da zlouporaba izraza ipak može rezultirati poboljšanim SEO položajem (iako dodatno optužbe za zlouporabu monopola i pretjerano oglašavanje zamagliti granice ove teorije).
10: Stohastički gradijentni pad
Stohastički gradijentni silazak (SGD) je sve popularnija metoda za optimizaciju obuke modela strojnog učenja.
Sam Gradient Descent je metoda optimiziranja i naknadnog kvantificiranja poboljšanja koje model čini tijekom obuke.
U tom smislu, 'gradijent' označava nagib prema dolje (umjesto gradacije temeljene na boji, vidi sliku ispod), gdje najviša točka 'brda', s lijeve strane, predstavlja početak procesa treniranja. U ovoj fazi model još nije ni jednom vidio sve podatke i nije dovoljno naučio o odnosima između podataka da bi proizveo učinkovite transformacije.

Gradijentni spust na treningu FaceSwap. Možemo vidjeti da je obuka zastala neko vrijeme u drugoj polovici, ali se na kraju oporavila niz gradijent prema prihvatljivoj konvergenciji.
Najniža točka, s desne strane, predstavlja konvergenciju (točku u kojoj je model onoliko učinkovit koliko će ikada biti pod nametnutim ograničenjima i postavkama).
Gradijent djeluje kao zapis i prediktor za disparitet između stope pogreške (koliko točno je model trenutno mapirao odnose podataka) i težine (postavke koje utječu na način na koji će model učiti).
Ovaj zapis o napretku može se koristiti za informiranje a raspored tečaja učenja, automatski proces koji govori arhitekturi da postane granularnija i preciznija kako se rani nejasni detalji pretvaraju u jasne odnose i preslikavanja. U stvari, gubitak gradijenta pruža pravovremenu mapu gdje bi trening trebao ići dalje i kako bi se trebao nastaviti.
Inovacija stohastičkog gradijentnog spusta je u tome što ažurira parametre modela na svakom primjeru treniranja po iteraciji, što općenito ubrzava put do konvergencije. Zbog pojave hiperskalnih skupova podataka posljednjih godina, SGD je u posljednje vrijeme postao popularan kao jedna od mogućih metoda za rješavanje nastalih logističkih problema.
S druge strane, SGD ima negativne implikacije za skaliranje značajki i može zahtijevati više ponavljanja za postizanje istog rezultata, zahtijevajući dodatno planiranje i dodatne parametre, u usporedbi s uobičajenim Gradijentnim spuštanjem.
Popularna upotreba
Zbog svoje konfigurabilnosti i unatoč svojim nedostacima, SGD je postao najpopularniji optimizacijski algoritam za prilagođavanje neuronskih mreža. Jedna konfiguracija SGD-a koja postaje dominantna u novim AI/ML istraživačkim radovima je izbor Adaptive Moment Estimation (ADAM, uveden u 2015) optimizator.
ADAM dinamički prilagođava brzinu učenja za svaki parametar („adaptivna brzina učenja“), kao i uključuje rezultate prethodnih ažuriranja u sljedeću konfiguraciju („zamah“). Osim toga, može se konfigurirati za korištenje kasnijih inovacija, kao što su Nesterov Momentum.
Međutim, neki tvrde da korištenje zamaha također može ubrzati ADAM (i slične algoritme) na a sub-optimalan zaključak. Kao i s većinom krvavog ruba istraživačkog sektora strojnog učenja, SGD je u tijeku.
Prvi put objavljeno 10. veljače 2022. Izmijenjeno 10. veljače 20.05 EET – oblikovanje.










