Best Of

10 nejlepších algoritmů strojového učení

aktualizováno on Února 10, 2022

Přestože žijeme v době mimořádných inovací v oblasti strojového učení akcelerovaného GPU, nejnovější výzkumné práce často (a prominentně) obsahují algoritmy, které jsou desítky let, v některých případech 70 let staré.

Někteří by mohli tvrdit, že mnohé z těchto starších metod spadají do tábora „statistické analýzy“ spíše než strojového učení, a dávají přednost datování nástupu tohoto sektoru až do roku 1957, kdy vynález Perceptronu.

Vzhledem k tomu, do jaké míry tyto starší algoritmy podporují a jsou zakomponovány do nejnovějších trendů a pozoruhodného vývoje v oblasti strojového učení, je to sporný postoj. Pojďme se tedy podívat na některé z „klasických“ stavebních bloků, na kterých jsou založeny nejnovější inovace, a také na některé novější položky, které se brzy ucházejí o vstup do síně slávy umělé inteligence.

1: Transformátory

V roce 2017 Google Research vedl výzkumnou spolupráci, která vyvrcholila v papír Pozornost je vše, co potřebujete. Práce nastínila novou architekturu, která se prosazovala mechanismy pozornosti od „potrubí“ v kodérech/dekodérech a modelech rekurentních sítí až po centrální transformační technologii jako takovou.

Přístup byl nazván transformátora od té doby se stala revoluční metodologií zpracování přirozeného jazyka (NLP), která kromě mnoha dalších příkladů pohání autoregresivní jazykový model a AI poster-child GPT-3.

Transformers elegantně vyřešil problém sekvenční transdukce, nazývaný také 'transformace', který se zabývá zpracováním vstupních sekvencí na výstupní sekvence. Transformátor také přijímá a spravuje data kontinuálně, spíše než v sekvenčních dávkách, což umožňuje „perzistenci paměti“, kterou RNN architektury nejsou navrženy. Pro podrobnější přehled transformátorů se podívejte na náš referenční článek.

Na rozdíl od rekurentních neuronových sítí (RNN), které začaly dominovat výzkumu ML v éře CUDA, mohla být architektura transformátoru snadno paralelizované, což otevírá cestu k produktivnímu adresování mnohem většího korpusu dat než RNN.

Populární použití

Transformers zaujali veřejnost v roce 2020 vydáním OpenAI GPT-3, který se pyšnil tehdy rekordním 175 miliardy parametrů. Tento zjevně ohromující úspěch byl nakonec zastíněn pozdějšími projekty, jako je rok 2021 uvolněte Microsoft Megatron-Turing NLG 530B, který (jak název napovídá) obsahuje přes 530 miliard parametrů.

Časová osa projektů hyperscale Transformer NLP. Zdroj: Microsoft

Transformátorová architektura také přešla od NLP k počítačovému vidění a pohání a nová generace rámců pro syntézu obrazu, jako je OpenAI CLIP a DALL-E, které využívají mapování text>obrázkové domény k dokončení neúplných obrázků a syntetizují nové obrázky z trénovaných domén mezi rostoucím počtem souvisejících aplikací.

DALL-E se pokouší dokončit částečný obraz busty Platóna. Zdroj: https://openai.com/blog/dall-e/

2: Generative Adversarial Networks (GAN)

Ačkoli transformátory získaly mimořádné mediální pokrytí vydáním a přijetím GPT-3, Generativní protivníková síť (GAN) se stala uznávanou značkou sama o sobě a může se nakonec připojit deepfake jako sloveso.

První navrženo v 2014 a primárně se používá pro syntézu obrazu, Generative Adversarial Network architektura je složen z Generátor a Diskriminátor. Generátor prochází tisíce obrázků v datové sadě a opakovaně se je pokouší rekonstruovat. Za každý pokus Diskriminátor ohodnotí práci Generátoru a pošle Generátora zpět, aby to udělal lépe, ale bez jakéhokoli pochopení způsobu, jakým předchozí rekonstrukce chybovala.

Zdroj: https://developers.google.com/machine-learning/gan/gan_structure

To nutí Generátora prozkoumat množství cest, místo aby sledoval potenciální slepé uličky, které by byly výsledkem, kdyby mu Diskriminátor řekl, kde je chyba (viz #8 níže). V době, kdy školení skončí, má Generátor podrobnou a komplexní mapu vztahů mezi body v datové sadě.

Výňatek z doprovodného videa výzkumníků (viz vložení na konci článku). Všimněte si, že uživatel manipuluje s transformacemi pomocí „uchopovacího“ kurzoru (vlevo nahoře). Zdroj: https://www.youtube.com/watch?v=k7sG4XY5rIc

Z papíru Zlepšení GAN Equilibrium zvýšením prostorového povědomí: nový rámec prochází někdy tajemným latentním prostorem GAN a poskytuje responzivní nástroje pro architekturu syntézy obrazu. Zdroj: https://genforce.github.io/eqgan/

Analogicky je to rozdíl mezi učením se jedné nudné dojíždění do centra Londýna nebo pracným získáváním Vědění.

Výsledkem je kolekce prvků na vysoké úrovni v latentním prostoru trénovaného modelu. Sémantický indikátor pro rys na vysoké úrovni by mohl být „osoba“, zatímco sestup prostřednictvím specifičnosti související s rysem může odhalit další naučené vlastnosti, jako je „muž“ a „žena“. Na nižších úrovních se mohou dílčí rysy rozdělit na „blond“, „bělošský“ a kol.

Zapletení je pozoruhodný problém v latentním prostoru GAN a rámců kodéru/dekodéru: je úsměv na ženské tváři generované GAN zapleteným rysem její „identity“ v latentním prostoru, nebo je to paralelní větev?

Obličeje vygenerované GAN od této osoby neexistují. Zdroj: https://this-person-does-not-exist.com/en

Posledních několik let přineslo v tomto ohledu rostoucí počet nových výzkumných iniciativ, které možná připravily cestu pro úpravy na úrovni funkcí ve stylu Photoshopu pro latentní prostor GAN, ale v současné době je mnoho transformací efektivně ' všechny nebo nic. Zejména vydání EditGAN společnosti NVIDIA z konce roku 2021 dosáhlo a vysoká úroveň interpretovatelnosti v latentním prostoru pomocí sémantických segmentačních masek.

Populární použití

Kromě jejich (ve skutečnosti dosti omezeného) zapojení do populárních deepfake videí se za poslední čtyři roky rozmohly GAN zaměřené na obrázky/video a fascinovaly výzkumníky i veřejnost. Udržet krok se závratnou rychlostí a frekvencí nových verzí je výzva, ačkoli úložiště GitHub Úžasné GAN aplikace si klade za cíl poskytnout úplný seznam.

Generative Adversarial Networks mohou teoreticky odvozovat vlastnosti z jakékoli dobře zarámované domény, včetně textu.

3: SVM

Původ v 1963, Podpora Vector Machine (SVM) je základní algoritmus, který se často objevuje v nových výzkumech. V rámci SVM vektory mapují relativní rozmístění datových bodů v datové sadě, zatímco podpora vektory vymezují hranice mezi různými skupinami, rysy nebo rysy.

Podporové vektory definují hranice mezi skupinami. Zdroj: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Odvozená hranice se nazývá a nadrovina.

Při nízkých úrovních funkcí je SVM dvourozměrný (obrázek výše), ale tam, kde je vyšší rozpoznaný počet skupin nebo typů, stane se trojrozměrný.

Hlubší pole bodů a skupin vyžaduje trojrozměrný SVM. Zdroj: https://cml.rhul.ac.uk/svm.html

Populární použití

Protože podpora Vector Machines může efektivně a agnosticky řešit vysokorozměrná data mnoha druhů, objevují se široce v různých sektorech strojového učení, včetně detekce deepfake, klasifikace obrázků, klasifikace nenávistných projevů, DNA analýza a predikce struktury populace, mezi mnoha dalšími.

4: Shlukování K-Means

Shlukování obecně je učení bez dozoru přístup, který se snaží kategorizovat datové body prostřednictvím odhad hustoty, vytvoření mapy rozložení studovaných dat.

K-Means seskupování božských segmentů, skupin a komunit v datech. Zdroj: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Means Clustering se stala nejoblíbenější implementací tohoto přístupu, kdy se datové body shromažďují do charakteristických „skupin K“, které mohou označovat demografické sektory, online komunity nebo jakoukoli jinou možnou tajnou agregaci čekající na objevení v hrubých statistických datech.

Shluky se tvoří v K-Means analýze. Zdroj: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Samotná hodnota K je určujícím faktorem pro užitečnost procesu a pro stanovení optimální hodnoty pro shluk. Zpočátku je hodnota K náhodně přiřazena a její vlastnosti a vektorové charakteristiky se porovnávají s jejími sousedy. Ti sousedé, kteří se nejvíce podobají datovému bodu s náhodně přiřazenou hodnotou, se k jeho clusteru přiřazují iterativně, dokud data neposkytnou všechna seskupení, která proces umožňuje.

Graf pro druhou mocninu chyby neboli „náklady“ různých hodnot mezi shluky odhalí loketní bod pro data:

„Bod lokte“ ve shlukovém grafu. Zdroj: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Loketní bod je svou koncepcí podobný způsobu, jakým se ztráta vyrovnává na klesající výnosy na konci tréninku pro datovou sadu. Představuje bod, ve kterém nebudou patrné žádné další rozdíly mezi skupinami, což naznačuje okamžik, kdy je třeba přejít k dalším fázím v datovém potrubí, nebo jinak oznámit zjištění.

Populární použití

K-Means Clustering je ze zřejmých důvodů primární technologií v analýze zákazníků, protože nabízí jasnou a vysvětlitelnou metodologii pro převod velkého množství obchodních záznamů do demografických náhledů a „potenciálních zákazníků“.

Mimo tuto aplikaci se také používá K-Means Clustering předpověď sesuvu půdy, segmentace lékařského obrazu, syntéza obrazu s GAN, klasifikace dokumentu, a městské plánování, kromě mnoha dalších potenciálních a skutečných použití.

5: Náhodný les

Random Forest je an souborové učení metoda, která zprůměruje výsledek z pole rozhodovací stromy vytvořit celkovou předpověď výsledku.

Zdroj: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Pokud jste to zkoumali i tak málo jako sledování Návrat do budoucnosti trilogie, samotný rozhodovací strom lze poměrně snadno pojmout: před vámi leží řada cest a každá cesta se rozvětvuje k novému výsledku, který zase obsahuje další možné cesty.

In posilování učení, můžete ustoupit z cesty a začít znovu z dřívějšího postoje, zatímco rozhodovací stromy se zavazují ke svým cestám.

Algoritmus Random Forest je tedy v podstatě sázení na rozpětí pro rozhodování. Algoritmus se nazývá „náhodný“, protože vytváří ad hoc výběry a pozorování za účelem pochopení medián součet výsledků z pole rozhodovacího stromu.

Vzhledem k tomu, že bere v úvahu mnoho faktorů, může být přístup Random Forest obtížnější převést na smysluplné grafy než rozhodovací strom, ale pravděpodobně bude výrazně produktivnější.

Rozhodovací stromy podléhají nadměrnému přizpůsobení, přičemž získané výsledky jsou datově specifické a není pravděpodobné, že budou zobecňovat. Libovolný výběr datových bodů Random Forest s touto tendencí bojuje a proniká až ke smysluplným a užitečným reprezentativním trendům v datech.

Regrese rozhodovacího stromu. Zdroj: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Populární použití

Stejně jako u mnoha algoritmů v tomto seznamu, Random Forest obvykle funguje jako „časný“ třídič a filtr dat a jako takový se neustále objevuje v nových výzkumných dokumentech. Některé příklady použití Random Forest zahrnují Syntéza obrazu magnetickou rezonancí, Predikce ceny bitcoinů, segmentace sčítání, klasifikace textu a odhalování podvodů s kreditními kartami.

Vzhledem k tomu, že Random Forest je nízkoúrovňový algoritmus v architekturách strojového učení, může také přispět k výkonu jiných nízkoúrovňových metod, stejně jako vizualizačních algoritmů, včetně Indukční shlukování, Transformace funkcí, klasifikace textových dokumentů pomocí řídkých funkcí, a zobrazení potrubí.

6: Naivní Bayes

Ve spojení s odhadem hustoty (viz 4, výše), a naivní Bayes klasifikátor je výkonný, ale relativně lehký algoritmus schopný odhadovat pravděpodobnosti na základě vypočítaných vlastností dat.

Vztahy rysů v naivním Bayesově klasifikátoru. Zdroj: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Termín „naivní“ odkazuje na předpoklad v Bayesova věta že funkce spolu nesouvisejí, tzv podmíněná nezávislost. Pokud přijmete toto stanovisko, chůze a mluvení jako kachna nestačí k tomu, aby se zjistilo, že máme co do činění s kachnou, a žádné „zřejmé“ předpoklady nejsou předčasně přijaty.

Tato úroveň akademické a vyšetřovací přísnosti by byla přehnaná tam, kde je k dispozici „zdravý rozum“, ale je cenným standardem při procházení mnoha nejasností a potenciálně nesouvisejících korelací, které mohou existovat v datovém souboru strojového učení.

V původní Bayesovské síti jsou funkce předmětem bodovací funkce, včetně minimální délky popisu a Bayesovské bodování, který může uvalit omezení na data, pokud jde o odhadovaná spojení nalezená mezi datovými body a směr, kterým tato spojení proudí.

Naivní Bayesův klasifikátor naopak funguje tak, že předpokládá, že rysy daného objektu jsou nezávislé, a následně používá Bayesovu větu k výpočtu pravděpodobnosti daného objektu na základě jeho vlastností.

Populární použití

Filtry Naive Bayes jsou dobře zastoupeny v predikce onemocnění a kategorizace dokumentů, filtrování spamu, klasifikace sentimentu, doporučovací systémy, a detekce podvodů, mimo jiné aplikace.

7: K- Nearest Neighbors (KNN)

Nejprve navrhla americká Air Force School of Aviation Medicine v 1951a musí se přizpůsobit nejmodernějšímu výpočetnímu hardwaru poloviny 20. století, K-Nejbližší sousedé (KNN) je štíhlý algoritmus, který stále figuruje na předních místech v akademických pracích a výzkumných iniciativách strojového učení v soukromém sektoru.

KNN se nazývá „líný žák“, protože vyčerpávajícím způsobem skenuje datovou sadu, aby vyhodnotil vztahy mezi datovými body, spíše než aby vyžadoval trénování plnohodnotného modelu strojového učení.

Seskupení KNN. Zdroj: https://scikit-learn.org/stable/modules/neighbors.html

Přestože je KNN architektonicky štíhlý, jeho systematický přístup klade značné nároky na operace čtení/zápisu a jeho použití ve velmi velkých datových sadách může být problematické bez doplňkových technologií, jako je analýza hlavních komponent (PCA), která dokáže transformovat složité a objemné datové sady. do reprezentativní uskupení že KNN dokáže projet s menší námahou.

A Nedávná studie hodnotili efektivitu a hospodárnost řady algoritmů, jejichž úkolem bylo předvídat, zda zaměstnanec opustí společnost, a zjistil, že sedmdesátník KNN zůstal lepší než modernější uchazeči, pokud jde o přesnost a prediktivní účinnost.

Populární použití

Přes svou oblíbenou jednoduchost konceptu a provedení KNN neuvízla v 1950. letech XNUMX. století – byla přizpůsobena přístup více zaměřený na DNN v návrhu z roku 2018 od Pennsylvania State University a zůstává ústředním procesem v rané fázi (nebo analytickým nástrojem pro následné zpracování) v mnoha mnohem složitějších rámcích strojového učení.

V různých konfiguracích byl KNN použit nebo pro online ověření podpisu, klasifikace obrázků, těžba textu, předpověď plodiny, a Rozpoznávání obličeje, kromě jiných aplikací a začlenění.

Systém rozpoznávání obličeje založený na KNN v tréninku. Zdroj: https://pdfs.sémanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Systém rozpoznávání obličeje založený na KNN v tréninku. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Markovův rozhodovací proces (MDP)

Matematický rámec zavedený americkým matematikem Richardem Bellmanem v 1957, Markovův rozhodovací proces (MDP) je jedním z nejzákladnějších bloků posilování učení architektury. Jako koncepční algoritmus sám o sobě byl adaptován do velkého množství dalších algoritmů a často se opakuje v současné úrodě výzkumu AI/ML.

MDP prozkoumává datové prostředí pomocí vyhodnocení jeho aktuálního stavu (tj. „kde“ se v datech nachází) k rozhodnutí, který uzel dat prozkoumat jako další.

Zdroj: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Základní Markovův rozhodovací proces bude upřednostňovat krátkodobou výhodu před více žádoucími dlouhodobými cíli. Z tohoto důvodu je obvykle zasazena do kontextu komplexnější politické architektury v posilovacím učení a často podléhá omezujícím faktorům, jako je např. zvýhodněná odměnaa další modifikující proměnné prostředí, které mu zabrání spěchat k okamžitému cíli bez ohledu na širší požadovaný výsledek.

Populární použití

Nízkoúrovňový koncept MDP je rozšířený jak ve výzkumu, tak v aktivním nasazení strojového učení. Bylo navrženo pro Bezpečnostní obranné systémy IoT, sběr ryb, a prognózování trhu.

Kromě toho zřejmá použitelnost k šachům a dalším striktně sekvenčním hrám je MDP také přirozeným uchazečem o procedurální školení robotických systémů, jak můžeme vidět na videu níže.

Globální plánovač využívající Markovův rozhodovací proces – mobilní průmyslová robotika

Global Planner using a Markov Decision Process - Mobile Industrial Robotics

Watch this video on YouTube

9: Pojem frekvence-inverzní frekvence dokumentu

Frekvence období (TF) vydělí počet výskytů slova v dokumentu celkovým počtem slov v tomto dokumentu. Tedy slovo těsnění vyskytující se jednou v tisícislovném článku má četnost výrazů 0.001. Sama o sobě je TF jako indikátor důležitosti termínu do značné míry k ničemu, a to z toho důvodu, že nesmyslné články (např. a, a , ο, a it) převažují.

Chcete-li získat smysluplnou hodnotu pro termín, Inverse Document Frequency (IDF) vypočítá TF slova ve více dokumentech v datové sadě a přiřadí nízké hodnocení velmi vysoké frekvenci. stopwords, jako jsou články. Výsledné příznakové vektory jsou normalizovány na celé hodnoty, přičemž každému slovu je přiřazena vhodná váha.

TF-IDF posuzuje relevanci termínů na základě četnosti v řadě dokumentů, přičemž vzácnější výskyt je indikátorem význačnosti. Zdroj: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

I když tento přístup zabraňuje ztrátě sémanticky důležitých slov odlehlé hodnoty, převrácení frekvenční váhy automaticky neznamená, že nízkofrekvenční člen je ne odlehlá hodnota, protože některé věci jsou vzácné a bezcenný. Nízkofrekvenční termín proto bude muset prokázat svou hodnotu v širším architektonickém kontextu tím, že se objeví (i s nízkou frekvencí na dokument) v řadě dokumentů v datové sadě.

Přes jeho stáříTF-IDF je výkonná a oblíbená metoda pro počáteční filtrování průchodů v rámci zpracování přirozeného jazyka.

Populární použití

Vzhledem k tomu, že TF-IDF sehrála za posledních dvacet let alespoň nějakou roli ve vývoji do značné míry okultního algoritmu PageRank společnosti Google, stala se velmi široce přijato jako manipulativní SEO taktika, navzdory Johnu Muellerovi 2019 popření jeho důležitosti pro výsledky vyhledávání.

Kvůli utajení kolem PageRank neexistuje žádný jasný důkaz, že TF-IDF je ne v současnosti účinná taktika, jak stoupat v žebříčku Google. Zápalný diskuse mezi odborníky v oblasti IT v poslední době naznačuje, že je všeobecně známo, ať už je to správné nebo ne, že zneužívání výrazů může stále vést k lepšímu umístění SEO (ačkoli další obvinění ze zneužívání monopolů a nadměrná reklama rozostřují hranice této teorie).

10: Stochastický sestup gradientu

Stochastický gradientní sestup (SGD) je stále oblíbenější metodou pro optimalizaci trénování modelů strojového učení.

Gradient Descent sám o sobě je metodou optimalizace a následného vyčíslení zlepšení, které model během tréninku dosahuje.

V tomto smyslu „gradient“ označuje sklon směrem dolů (spíše než barevnou gradaci, viz obrázek níže), kde nejvyšší bod „kopce“ nalevo představuje začátek tréninkového procesu. V této fázi model ještě ani jednou neviděl všechna data a nenaučil se dostatečně o vztazích mezi daty, aby produkoval efektivní transformace.

Gradientní klesání na tréninku FaceSwap. Můžeme vidět, že trénink ve druhé polovině na nějakou dobu stagnoval, ale nakonec se vrátil z gradientu směrem k přijatelné konvergenci.

Nejnižší bod napravo představuje konvergenci (bod, ve kterém je model tak efektivní, jak jen se kdy dostane pod uložená omezení a nastavení).

Gradient funguje jako záznam a prediktor disparity mezi chybovostí (jak přesně model aktuálně mapoval datové vztahy) a vahami (nastavení, která ovlivňují způsob, jakým se bude model učit).

Tento záznam o pokroku lze použít k informování a rozvrh míry učení, automatický proces, který říká architektuře, aby se stala granulárnější a přesnější, jak se rané vágní detaily transformují do jasných vztahů a mapování. Ztráta gradientu ve skutečnosti poskytuje mapu just-in-time toho, kam by měl trénink pokračovat a jak by měl pokračovat.

Inovace Stochastic Gradient Descent spočívá v tom, že aktualizuje parametry modelu na každém tréninkovém příkladu po iteraci, což obecně urychluje cestu ke konvergenci. Vzhledem k nástupu hyperškálových datových sad v posledních letech se popularita SGD v poslední době stala jednou z možných metod řešení následných logistických problémů.

Na druhou stranu má SGD negativní důsledky pro škálování prvků a může vyžadovat více iterací k dosažení stejného výsledku, což vyžaduje další plánování a další parametry ve srovnání s běžným sestupem gradientu.

Populární použití

Díky své konfigurovatelnosti a navzdory svým nedostatkům se SGD stal nejoblíbenějším optimalizačním algoritmem pro montáž neuronových sítí. Jednou z konfigurací SGD, která se stává dominantní v nových výzkumných pracích AI/ML, je volba Adaptive Moment Estimation (ADAM, představený v 2015) optimalizátor.

ADAM dynamicky přizpůsobuje rychlost učení pro každý parametr („adaptivní rychlost učení“) a také začleňuje výsledky z předchozích aktualizací do následné konfigurace („hybnost“). Navíc jej lze nakonfigurovat pro použití pozdějších inovací, jako např Nesterov Momentum.

Někteří však tvrdí, že použití hybnosti může také urychlit ADAM (a podobné algoritmy) na a suboptimální závěr. Stejně jako u většiny neúprosných okrajů výzkumného sektoru strojového učení se na SGD stále pracuje.

Poprvé publikováno 10. února 2022. Upraveno 10. února 20.05 EET – formátování.