Best Of
10 nejlepších algoritmů strojového učení
Přestože žijeme v době mimořádných inovací v oblasti strojového učení akcelerovaného GPU, nejnovější výzkumné práce často (a prominentně) uvádějí algoritmy staré desítky let, v některých případech i 70 let.
Někdo by mohl namítnout, že mnoho z těchto starších metod spadá spíše do tábora „statistické analýzy“ než strojového učení, a raději datuje vznik tohoto sektoru pouze do roku 1957, kdy... vynález Perceptronu.
Vzhledem k rozsahu, v jakém tyto starší algoritmy podporují a jsou propojeny s nejnovějšími trendy a senzačním vývojem v oblasti strojového učení, je to sporný postoj. Pojďme se tedy podívat na některé „klasické“ stavební kameny, které jsou základem nejnovějších inovací, a také na některé novější položky, které se brzy ucházejí o místo v síni slávy umělé inteligence.
1: Transformátory
V roce 2017 Google Research vedl výzkumnou spolupráci, která vyvrcholila v papír Pozornost je vše, co potřebujete. Práce nastínila novou architekturu, která se prosazovala mechanismy pozornosti od „propojení“ v modelech kodérů/dekodérů a rekurentních sítí až po samostatnou centrální transformační technologii.
Přístup byl nazván transformátora od té doby se stala revoluční metodologií zpracování přirozeného jazyka (NLP), která kromě mnoha dalších příkladů pohání autoregresivní jazykový model a AI poster-child GPT-3.

Transformers elegantně vyřešil problém sekvenční transdukce, nazývaná také „transformace“, která se zabývá zpracováním vstupních sekvencí na výstupní sekvence. Transformátor také přijímá a spravuje data kontinuálně, nikoli v sekvenčních dávkách, což umožňuje „perzistenci paměti“, k níž architektury RNN nejsou navrženy. Podrobnější přehled transformátorů naleznete na náš referenční článek.
Na rozdíl od rekurentních neuronových sítí (RNN), které začaly dominovat výzkumu ML v éře CUDA, mohla být architektura transformátoru snadno paralelizované, což otevírá cestu k produktivnímu adresování mnohem většího korpusu dat než RNN.
Populární použití
Transformers uchvátili pozornost veřejnosti v roce 2020 vydáním GPT-3 od OpenAI, který se pyšnil tehdy rekordním výkonem. 175 miliardy parametrů. Tento zjevně ohromující úspěch byl nakonec zastíněn pozdějšími projekty, jako je rok 2021 uvolněte Microsoft Megatron-Turing NLG 530B, který (jak název napovídá) obsahuje více než 530 miliard parametrů.

Časová osa projektů hyperscale Transformer NLP. Zdroj: Microsoft
Transformátorová architektura také přešla od NLP k počítačovému vidění a pohání a nová generace frameworků pro syntézu obrazu, jako je například OpenAI CLIP si DALL-E, které využívají mapování text>obrázkové domény k dokončení neúplných obrázků a syntetizují nové obrázky z trénovaných domén mezi rostoucím počtem souvisejících aplikací.

DALL-E se pokouší dokončit částečný obraz busty Platóna. Zdroj: https://openai.com/blog/dall-e/
2: Generative Adversarial Networks (GAN)
Ačkoli transformátory získaly mimořádné mediální pokrytí vydáním a přijetím GPT-3, Generativní protivníková síť (GAN) se stala uznávanou značkou sama o sobě a může se nakonec připojit deepfake jako sloveso.
První navrženo v 2014 a primárně se používá pro syntézu obrazu, Generative Adversarial Network architektura je složen z Generátor a DiskriminátorGenerátor cyklicky prochází tisíci obrázků v datové sadě a iterativně se je pokouší rekonstruovat. Pro každý pokus diskriminátor ohodnotí práci generátoru a pošle generátor zpět k lepším výsledkům, ale bez jakéhokoli vhledu do toho, jakým způsobem předchozí rekonstrukce chybovala.

Zdroj: https://developers.google.com/machine-learning/gan/gan_structure
To nutí Generátora prozkoumat množství cest, místo aby sledoval potenciální slepé uličky, které by byly výsledkem, kdyby mu Diskriminátor řekl, kde je chyba (viz #8 níže). V době, kdy školení skončí, má Generátor podrobnou a komplexní mapu vztahů mezi body v datové sadě.

Z papíru Zlepšení GAN Equilibrium zvýšením prostorového povědomí: nový rámec prochází někdy tajemným latentním prostorem GAN a poskytuje responzivní nástroje pro architekturu syntézy obrazu. Zdroj: https://genforce.github.io/eqgan/
Analogicky je to rozdíl mezi učením se jedné nudné dojíždění do centra Londýna nebo pracným získáváním Vědění.
Výsledkem je kolekce rysů na vysoké úrovni v latentním prostoru trénovaného modelu. Sémantickým indikátorem pro rys na vysoké úrovni by mohl být „osoba“, zatímco sestup skrze specifičnost související s tímto rysem může odhalit další naučené charakteristiky, jako například „muž“ a „žena“. Na nižších úrovních se dílčí rysy mohou rozdělit na „blondýna“, „běloch“ atd.
Zapletení je pozoruhodný problém V latentním prostoru GAN a frameworků kodérů/dekodérů: je úsměv na ženské tváři generované GAN propleteným prvkem její „identity“ v latentním prostoru, nebo je to paralelní větev?

Obličeje vygenerované GAN od této osoby neexistují. Zdroj: https://this-person-does-not-exist.com/en
V posledních několika letech se v tomto ohledu objevilo rostoucí množství nových výzkumných iniciativ, které možná připravily cestu pro úpravy latentního prostoru GAN na úrovni funkcí ve stylu Photoshopu, ale v současné době je mnoho transformací v podstatě balíčky typu „všechno nebo nic“. Zejména vydání EditGAN od společnosti NVIDIA z konce roku 2021 dosahuje vysoká úroveň interpretovatelnosti v latentním prostoru pomocí sémantických segmentačních masek.
Populární použití
Kromě jejich (ve skutečnosti dosti omezeného) zapojení do populárních deepfake videí se za poslední čtyři roky rozmohly GAN zaměřené na obrázky/video a fascinovaly výzkumníky i veřejnost. Udržet krok se závratnou rychlostí a frekvencí nových verzí je výzva, ačkoli úložiště GitHub Úžasné GAN aplikace si klade za cíl poskytnout úplný seznam.
Generative Adversarial Networks mohou teoreticky odvozovat vlastnosti z jakékoli dobře zarámované domény, včetně textu.
3: SVM
Původ v 1963, Podpora Vector Machine (SVM) je základní algoritmus, který se často objevuje v nových výzkumech. V rámci SVM vektory mapují relativní rozmístění datových bodů v datové sadě, zatímco podpora vektory vymezují hranice mezi různými skupinami, rysy nebo rysy.

Podporové vektory definují hranice mezi skupinami. Zdroj: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html
Odvozená hranice se nazývá a nadrovina.
Při nízkých úrovních funkcí je SVM dvourozměrný (obrázek výše), ale tam, kde je rozpoznaný vyšší počet skupin nebo typů, se stává trojrozměrný.

Hlubší pole bodů a skupin vyžaduje trojrozměrný SVM. Zdroj: https://cml.rhul.ac.uk/svm.html
Populární použití
Protože podpora Vector Machines může efektivně a agnosticky řešit vysokorozměrná data mnoha druhů, objevují se široce v různých sektorech strojového učení, včetně detekce deepfake, klasifikace obrázků, klasifikace nenávistných projevů, DNA analýza si predikce struktury populace, mezi mnoha dalšími.
4: Shlukování K-Means
Shlukování obecně je učení bez dozoru přístup, který se snaží kategorizovat datové body prostřednictvím odhad hustoty, vytvoření mapy rozložení studovaných dat.

K-Means seskupování božských segmentů, skupin a komunit v datech. Zdroj: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/
K-Means Clustering se stala nejoblíbenější implementací tohoto přístupu, která shromažďuje datové body do charakteristických „K skupin“, které mohou naznačovat demografické sektory, online komunity nebo jakoukoli jinou možnou tajnou agregaci čekající na objevení v nezpracovaných statistických datech.

Shluky se tvoří v K-Means analýze. Zdroj: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/
Samotná hodnota K je určujícím faktorem pro užitečnost procesu a pro stanovení optimální hodnoty pro shluk. Zpočátku je hodnota K náhodně přiřazena a její vlastnosti a vektorové charakteristiky se porovnávají s jejími sousedy. Ti sousedé, kteří se nejvíce podobají datovému bodu s náhodně přiřazenou hodnotou, se k jeho clusteru přiřazují iterativně, dokud data neposkytnou všechna seskupení, která proces umožňuje.
Graf pro čtvercovou chybu neboli „cenu“ různých hodnot mezi shluky odhalí loketní bod pro data:

„Loketní bod“ v klastrovém grafu. Zdroj: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html
Loketní bod je svou koncepcí podobný způsobu, jakým se ztráta vyrovnává na klesající výnosy na konci tréninku pro datovou sadu. Představuje bod, ve kterém nebudou patrné žádné další rozdíly mezi skupinami, což naznačuje okamžik, kdy je třeba přejít k dalším fázím v datovém potrubí, nebo jinak oznámit zjištění.
Populární použití
K-Means Clustering je z pochopitelných důvodů primární technologií v analýze zákazníků, protože nabízí jasnou a vysvětlitelnou metodologii pro převod velkého množství komerčních záznamů do demografických poznatků a „leadů“.
Mimo tuto aplikaci se také používá K-Means Clustering předpověď sesuvu půdy, segmentace lékařského obrazu, syntéza obrazu s GAN, klasifikace dokumentu, a městské plánování, kromě mnoha dalších potenciálních a skutečných použití.
5: Náhodný les
Random Forest je an souborové učení metoda, která zprůměruje výsledek z pole rozhodovací stromy vytvořit celkovou předpověď výsledku.

Zdroj: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png
Pokud jste si to alespoň trochu nastudovali, jako je sledování Návrat do budoucnosti trilogie, samotný rozhodovací strom lze poměrně snadno pojmout: před vámi leží řada cest a každá cesta se rozvětvuje k novému výsledku, který zase obsahuje další možné cesty.
In posilování učení, můžete ustoupit z cesty a začít znovu z dřívějšího postoje, zatímco rozhodovací stromy se zavazují ke svým cestám.
Algoritmus Random Forest je tedy v podstatě sázka na spread-betting pro rozhodnutí. Algoritmus se nazývá „náhodný“, protože... ad hoc výběry a pozorování za účelem pochopení medián součet výsledků z pole rozhodovacího stromu.
Vzhledem k tomu, že bere v úvahu mnoho faktorů, může být přístup Random Forest obtížnější převést na smysluplné grafy než rozhodovací strom, ale pravděpodobně bude výrazně produktivnější.
Rozhodovací stromy podléhají přeplnění, kdy získané výsledky jsou specifické pro data a pravděpodobně se nedají zobecnit. Libovolný výběr datových bodů v metodě Random Forest s tímto trendem bojuje a proniká do smysluplných a užitečných reprezentativních trendů v datech.

Regrese rozhodovacího stromu. Zdroj: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html
Populární použití
Stejně jako mnoho algoritmů v tomto seznamu, i Random Forest obvykle funguje jako „raný“ třídič a filtr dat, a proto se neustále objevuje v nových výzkumných pracích. Mezi příklady použití Random Forest patří Syntéza obrazu magnetickou rezonancí, Predikce ceny bitcoinů, segmentace sčítání, klasifikace textu si odhalování podvodů s kreditními kartami.
Vzhledem k tomu, že Random Forest je nízkoúrovňový algoritmus v architekturách strojového učení, může také přispět k výkonu jiných nízkoúrovňových metod, stejně jako vizualizačních algoritmů, včetně Indukční shlukování, Transformace funkcí, klasifikace textových dokumentů pomocí řídkých funkcí, a zobrazení potrubí.
6: Naivní Bayes
Ve spojení s odhadem hustoty (viz 4, výše), a naivní Bayes klasifikátor je výkonný, ale relativně lehký algoritmus schopný odhadovat pravděpodobnosti na základě vypočítaných vlastností dat.

Vztahy rysů v naivním Bayesově klasifikátoru. Zdroj: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model
Termín „naivní“ označuje předpoklad v Bayesova věta že funkce spolu nesouvisejí, tzv podmíněná nezávislostPokud zaujmete tento postoj, chůze a mluvení jako kachna nestačí k prokázání, že máme co do činění s kachnou, a žádné „zřejmé“ předpoklady nejsou předčasně přijaty.
Tato úroveň akademické a vyšetřovací důslednosti by byla přehnaná tam, kde je k dispozici „selský rozum“, ale je cenným standardem při řešení mnoha nejasností a potenciálně nesouvisejících korelací, které mohou existovat v datové sadě strojového učení.
V původní Bayesovské síti jsou funkce předmětem bodovací funkce, včetně minimální délky popisu a Bayesovské bodování, který může uvalit omezení na data, pokud jde o odhadovaná spojení nalezená mezi datovými body a směr, kterým tato spojení proudí.
Naivní Bayesův klasifikátor naopak funguje na principu, že vlastnosti daného objektu jsou nezávislé, a následně pomocí Bayesovy věty vypočítá pravděpodobnost daného objektu na základě jeho vlastností.
Populární použití
Filtry Naive Bayes jsou dobře zastoupeny v predikce onemocnění a kategorizace dokumentů, filtrování spamu, klasifikace sentimentu, doporučovací systémy, a detekce podvodů, mimo jiné aplikace.
7: K- Nearest Neighbors (KNN)
Nejprve navrhla americká Air Force School of Aviation Medicine v 1951a musí se přizpůsobit nejmodernějšímu výpočetnímu hardwaru poloviny 20. století, K-Nejbližší sousedé (KNN) je štíhlý algoritmus, který stále figuruje na předních místech v akademických pracích a výzkumných iniciativách strojového učení v soukromém sektoru.
KNN byl nazýván „líným učením“, protože důkladně prohledává datovou sadu, aby vyhodnotil vztahy mezi datovými body, spíše než aby vyžadoval trénování plnohodnotného modelu strojového učení.

Seskupení KNN. Zdroj: https://scikit-learn.org/stable/modules/neighbors.html
Přestože je KNN architektonicky štíhlý, jeho systematický přístup klade značné nároky na operace čtení/zápisu a jeho použití ve velmi velkých datových sadách může být problematické bez doplňkových technologií, jako je analýza hlavních komponent (PCA), která dokáže transformovat složité a objemné datové sady. do reprezentativní uskupení že KNN dokáže projet s menší námahou.
A Nedávná studie hodnotili efektivitu a hospodárnost řady algoritmů, jejichž úkolem bylo předvídat, zda zaměstnanec opustí společnost, a zjistil, že sedmdesátník KNN zůstal lepší než modernější uchazeči, pokud jde o přesnost a prediktivní účinnost.
Populární použití
Přestože je KNN všude oblíbenou jednoduchostí konceptu a provedení, neuvízl v 1950. letech – byl adaptován do... přístup více zaměřený na DNN v návrhu z roku 2018 od Pennsylvania State University a zůstává ústředním procesem v rané fázi (nebo analytickým nástrojem pro následné zpracování) v mnoha mnohem složitějších rámcích strojového učení.
V různých konfiguracích byl KNN použit nebo pro online ověření podpisu, klasifikace obrázků, těžba textu, předpověď plodiny, a Rozpoznávání obličeje, kromě jiných aplikací a začlenění.

Systém rozpoznávání obličeje založený na KNN v tréninku. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf
8: Markovův rozhodovací proces (MDP)
Matematický rámec zavedený americkým matematikem Richardem Bellmanem v 1957, Markovův rozhodovací proces (MDP) je jedním z nejzákladnějších bloků posilování učení architektury. Jako koncepční algoritmus sám o sobě byl adaptován do velkého množství dalších algoritmů a často se opakuje v současné úrodě výzkumu AI/ML.
MDP zkoumá datové prostředí pomocí vyhodnocení jeho aktuálního stavu (tj. „kde“ se v datech nachází) k rozhodnutí, který uzel dat prozkoumat dále.

Zdroj: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420
Základní Markovův rozhodovací proces bude upřednostňovat krátkodobou výhodu před více žádoucími dlouhodobými cíli. Z tohoto důvodu je obvykle zasazena do kontextu komplexnější politické architektury v posilování učení a často podléhá omezujícím faktorům, jako je snížená odměna a další modifikující proměnné prostředí, které mu zabrání spěchat k okamžitému cíli bez uvážení. širšího požadovaného výsledku.
Populární použití
Nízkoúrovňový koncept MDP je rozšířený jak ve výzkumu, tak v aktivním nasazení strojového učení. Byl navržen pro Bezpečnostní obranné systémy IoT, sběr ryb, a prognózování trhu.
Kromě toho zřejmá použitelnost k šachům a dalším striktně sekvenčním hrám je MDP také přirozeným uchazečem o procedurální školení robotických systémů, jak můžeme vidět na videu níže.
9: Pojem frekvence-inverzní frekvence dokumentu
Frekvence období (TF) vydělí počet výskytů slova v dokumentu celkovým počtem slov v tomto dokumentu. Tedy slovo těsnění vyskytující se jednou v tisícislovném článku má četnost výrazů 0.001. Sama o sobě je TF jako indikátor důležitosti termínu do značné míry k ničemu, a to z toho důvodu, že nesmyslné články (např. a, si, ο, a it) převažují.
Chcete-li získat smysluplnou hodnotu pro termín, Inverse Document Frequency (IDF) vypočítá TF slova ve více dokumentech v datové sadě a přiřadí nízké hodnocení velmi vysoké frekvenci. stopwords, jako jsou články. Výsledné příznakové vektory jsou normalizovány na celé hodnoty, přičemž každému slovu je přiřazena vhodná váha.

TF-IDF posuzuje relevanci termínů na základě četnosti v řadě dokumentů, přičemž vzácnější výskyt je indikátorem význačnosti. Zdroj: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness
I když tento přístup zabraňuje ztrátě sémanticky důležitých slov odlehlé hodnoty, převrácení frekvenční váhy automaticky neznamená, že nízkofrekvenční člen je ne odlehlá hodnota, protože některé věci jsou vzácné si bezcenný. Nízkofrekvenční termín proto bude muset prokázat svou hodnotu v širším architektonickém kontextu tím, že se objeví (i s nízkou frekvencí na dokument) v řadě dokumentů v datové sadě.
Přes jeho stáříTF-IDF je výkonná a oblíbená metoda pro počáteční filtrování průchodů v rámci zpracování přirozeného jazyka.
Populární použití
Protože TF-IDF sehrál alespoň nějakou roli ve vývoji převážně okultního algoritmu PageRank společnosti Google v posledních dvaceti letech, stal se velmi široce přijato jako manipulativní SEO taktika, a to navzdory zprávám Johna Muellera z roku 2019 popření jeho důležitosti pro výsledky vyhledávání.
Kvůli utajení kolem PageRank neexistuje žádný jasný důkaz, že TF-IDF je ne v současné době účinná taktika pro postup ve výsledcích vyhledávání Google. Štíhlý diskuse mezi odborníky v oblasti IT v poslední době naznačuje, že je všeobecně známo, ať už je to správné nebo ne, že zneužívání výrazů může stále vést k lepšímu umístění SEO (ačkoli další obvinění ze zneužívání monopolů si nadměrná reklama rozostřují hranice této teorie).
10: Stochastický sestup gradientu
Stochastický gradientní sestup (SGD) je stále oblíbenější metodou pro optimalizaci trénování modelů strojového učení.
Gradient Descent sám o sobě je metodou optimalizace a následného vyčíslení zlepšení, které model během tréninku dosahuje.
V tomto smyslu „gradient“ označuje sklon směrem dolů (spíše než barevnou gradaci, viz obrázek níže), kde nejvyšší bod „kopce“ vlevo představuje začátek trénovacího procesu. V této fázi model ještě ani jednou neviděl všechna data a nenaučil se dostatečně o vztazích mezi daty, aby mohl vytvořit efektivní transformace.

Gradientní klesání na tréninku FaceSwap. Můžeme vidět, že trénink ve druhé polovině na nějakou dobu stagnoval, ale nakonec se vrátil z gradientu směrem k přijatelné konvergenci.
Nejnižší bod napravo představuje konvergenci (bod, ve kterém je model tak efektivní, jak jen se kdy dostane pod uložená omezení a nastavení).
Gradient funguje jako záznam a prediktor disparity mezi chybovostí (jak přesně model aktuálně mapoval datové vztahy) a vahami (nastavení, která ovlivňují způsob, jakým se bude model učit).
Tento záznam o pokroku lze použít k informování a rozvrh míry učení, automatický proces, který říká architektuře, aby se stala granulárnější a přesnější, jak se rané vágní detaily transformují do jasných vztahů a mapování. Ztráta gradientu ve skutečnosti poskytuje mapu just-in-time toho, kam by měl trénink pokračovat a jak by měl pokračovat.
Inovací stochastického gradientního sestupu (SGO) spočívá v aktualizaci parametrů modelu v každém trénovacím příkladu na iteraci, což obecně urychluje cestu ke konvergenci. Vzhledem k nástupu hyperškálovaných datových sad v posledních letech se SGD v poslední době těší na popularitě jako jedna z možných metod řešení následných logistických problémů.
Na druhou stranu má SGD negativní důsledky pro škálování prvků a může vyžadovat více iterací k dosažení stejného výsledku, což vyžaduje další plánování a další parametry ve srovnání s běžným sestupem gradientu.
Populární použití
Díky své konfigurovatelnosti a navzdory svým nedostatkům se SGD stal nejoblíbenějším optimalizačním algoritmem pro montáž neuronových sítí. Jednou z konfigurací SGD, která se stává dominantní v nových výzkumných pracích AI/ML, je volba Adaptive Moment Estimation (ADAM, představený v 2015) optimalizátor.
ADAM dynamicky přizpůsobuje rychlost učení pro každý parametr („adaptivní rychlost učení“) a také začleňuje výsledky z předchozích aktualizací do následné konfigurace („hybnost“). Kromě toho jej lze nakonfigurovat tak, aby využíval novější inovace, jako například Nesterov Momentum.
Někteří však tvrdí, že použití hybnosti může také urychlit ADAM (a podobné algoritmy) na a suboptimální závěr. Stejně jako u většiny neúprosných okrajů výzkumného sektoru strojového učení se na SGD stále pracuje.
Poprvé publikováno 10. února 2022. Upraveno 10. února 20.05 EET – formátování.










