Bäst Av

10 bästa maskininlärningsalgoritmer

publicerade Februari 10, 2022

Martin Anderson

Även om vi lever i en tid av extraordinär innovation inom GPU-accelererad maskininlärning, innehåller de senaste forskningsrapporterna ofta (och framträdande) algoritmer som är årtionden, i vissa fall 70 år gamla.

Vissa kanske menar att många av dessa äldre metoder snarare faller inom kategorin "statistisk analys" än maskininlärning, och föredrar att datera sektorns tillkomst tillbaka till endast 1957, med uppfinning av Perceptron.

Med tanke på i vilken utsträckning dessa äldre algoritmer stöder och är integrerade i de senaste trenderna och uppmärksammade utvecklingarna inom maskininlärning, är det en omtvistad ståndpunkt. Så låt oss ta en titt på några av de "klassiska" byggstenarna som ligger till grund för de senaste innovationerna, såväl som några nyare aktörer som gör ett tidigt försök att bli en del av AI:s Hall of Fame.

1: Transformatorer

2017 ledde Google Research ett forskningssamarbete som kulminerade i papper Uppmärksamhet är allt du behöver. Verket skisserade en ny arkitektur som främjade uppmärksamhetsmekanismer från "piping" i kodare/avkodare och återkommande nätverksmodeller till en central transformerande teknologi i sig själv.

Tillvägagångssättet dubbades Transformator, och har sedan dess blivit en revolutionerande metod inom Natural Language Processing (NLP), som driver, bland många andra exempel, den autoregressiva språkmodellen och AI-poster-barn GPT-3.

Transformatorer löste elegant problemet med sekvenstransduktion, även kallad 'transformation', som sysslar med bearbetning av ingångssekvenser till utgångssekvenser. En transformator tar också emot och hanterar data kontinuerligt, snarare än i sekventiella batcher, vilket möjliggör en 'persistens av minne' som RNN-arkitekturer inte är utformade för att uppnå. För en mer detaljerad översikt över transformatorer, ta en titt på vår referensartikel.

I motsats till de återkommande neurala nätverken (RNN) som hade börjat dominera ML-forskningen under CUDA-eran, kunde transformatorarkitektur också vara lätt parallelliserad, vilket öppnar vägen för att produktivt adressera en mycket större mängd data än RNN.

Populär användning

Transformers fångade allmänhetens fantasi 2020 med lanseringen av OpenAI:s GPT-3, som då skröt om en rekordbrytande ... 175 miljarder parametrar. Denna uppenbarligen häpnadsväckande prestation överskuggades så småningom av senare projekt, såsom 2021 frigöra av Microsofts Megatron-Turing NLG 530B, som (som namnet antyder) har över 530 miljarder parametrar.

En tidslinje av hyperscale Transformer NLP-projekt. Källa: Microsoft

Transformatorarkitektur har också gått över från NLP till datorseende, vilket driver en ny generation av bildsyntesramverk som OpenAI:s KLÄMMA och DALL-E, som använder text>image domänmappning för att avsluta ofullständiga bilder och syntetisera nya bilder från utbildade domäner, bland ett växande antal relaterade applikationer.

DALL-E försöker färdigställa en delbild av en byst av Platon. Källa: https://openai.com/blog/dall-e/

2: Generative Adversarial Networks (GAN)

Även om transformatorer har fått extraordinär mediebevakning genom lanseringen och adoptionen av GPT-3 Generativt Adversarial Network (GAN) har blivit ett igenkännligt varumärke i sin egen rätt och kan så småningom gå med deepfake som ett verb.

Föreslog först i 2014 och används främst för bildsyntes, ett Generative Adversarial Network arkitektur består av en Generator och en DiskriminatorGeneratorn går igenom tusentals bilder i en datauppsättning och försöker iterativt rekonstruera dem. För varje försök betygsätter diskriminatorn generatorns arbete och skickar tillbaka generatorn för att göra bättre ifrån sig, men utan någon insikt i hur den tidigare rekonstruktionen gjorde fel.

Källa: https://developers.google.com/machine-learning/gan/gan_structure

Detta tvingar Generatorn att utforska en mångfald av vägar, istället för att följa de potentiella återvändsgränderna som skulle ha uppstått om Diskriminatorn hade berättat var det gick fel (se #8 nedan). När träningen är över har Generatorn en detaljerad och heltäckande karta över relationer mellan punkter i datamängden.

Ett utdrag ur forskarnas medföljande video (se inbäddning i slutet av artikeln). Observera att användaren manipulerar transformationerna med en "grip"-markör (överst till vänster). Källa: https://www.youtube.com/watch?v=k7sG4XY5rIc

Från tidningen Förbättra GAN-jämvikten genom att höja rumslig medvetenhet: ett nytt ramverk cirkulerar genom det ibland mystiska latenta utrymmet i ett GAN, vilket ger responsiv instrumentalitet för en bildsyntesarkitektur. Källa: https://genforce.github.io/eqgan/

I analogi är detta skillnaden mellan att lära sig en enkel pendling till centrala London, eller att noggrant skaffa Kunskapen.

Resultatet är en samling av egenskaper på hög nivå i den tränade modellens latenta utrymme. Den semantiska indikatorn för en egenskap på hög nivå kan vara "person", medan en nedgång genom specificitet relaterad till egenskapen kan avslöja andra inlärda egenskaper, såsom "man" och "kvinna". På lägre nivåer kan underegenskaperna delas upp i "blond", "kaukasisk" etc.

Förveckling är en anmärkningsvärd fråga i det latenta rummet av GAN och kodar-/avkodarramverk: är leendet på ett GAN-genererat kvinnligt ansikte ett intrasslat drag av hennes "identitet" i det latenta rummet, eller är det en parallell gren?

GAN-genererade ansikten från denna person existerar inte. Källa: https://this-person-does-not-exist.com/en

De senaste åren har ett växande antal nya forskningsinitiativ i detta avseende lett till, vilket kanske banar väg för redigering på funktionsnivå i Photoshop-stil för det latenta utrymmet i ett GAN, men för närvarande är många transformationer i praktiken "allt eller inget"-paket. NVIDIAs EditGAN-utgåva i slutet av 2021 uppnår en hög grad av tolkningsbarhet i det latenta utrymmet genom att använda semantiska segmenteringsmasker.

Populär användning

Förutom deras (faktiskt ganska begränsade) engagemang i populära deepfake-videor, har bild-/videocentrerade GAN:er ökat under de senaste fyra åren, och fängslat både forskare och allmänheten. Att hålla jämna steg med den svindlande takten och frekvensen av nya utgåvor är en utmaning, även om GitHub-förvaret Fantastiska GAN-applikationer syftar till att ge en heltäckande lista.

Generativa kontradiktoriska nätverk kan i teorin härleda egenskaper från vilken väl inramad domän som helst, inklusive text.

3: SVM

ursprung i 1963, Stöd Vector Machine (SVM) är en kärnalgoritm som dyker upp ofta i ny forskning. Under SVM kartlägger vektorer den relativa dispositionen av datapunkter i en datamängd, medan stödja vektorer avgränsar gränserna mellan olika grupper, egenskaper eller egenskaper.

Stödvektorer definierar gränserna mellan grupper. Källa: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Den härledda gränsen kallas a hyperplan.

På låga funktionsnivåer är SVM tvådimensionell (bilden ovan), men där det finns ett högre erkänt antal grupper eller typer blir det tredimensionella.

En djupare samling av punkter och grupper kräver en tredimensionell SVM. Källa: https://cml.rhul.ac.uk/svm.html

Populär användning

Eftersom support Vector Machines effektivt och agnostiskt kan adressera högdimensionell data av många slag, dyker de upp brett inom en mängd olika maskininlärningssektorer, inklusive deepfake-detektering, bildklassificering, klassificering av hatretorik, DNA-analys och förutsägelse av befolkningsstruktur, bland många andra.

4: K-Means Clustering

Clustering i allmänhet är en oövervakat lärande tillvägagångssätt som försöker kategorisera datapunkter genom densitetsuppskattning, skapa en karta över fördelningen av data som studeras.

K-Betyder att gruppera gudomliga segment, grupper och gemenskaper i data. Källa: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Means Clustering har blivit den mest populära implementeringen av denna metod, genom att leda datapunkter till distinkta "K-grupper", vilket kan indikera demografiska sektorer, onlinecommunities eller någon annan möjlig hemlig aggregering som väntar på att upptäckas i rådata.

Kluster bildas i K-Means-analys. Källa: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

K-värdet i sig är den avgörande faktorn för processens användbarhet och för att fastställa ett optimalt värde för ett kluster. Inledningsvis tilldelas K-värdet slumpmässigt och dess egenskaper och vektoregenskaper jämfört med dess grannar. De grannar som mest liknar datapunkten med det slumpmässigt tilldelade värdet tilldelas dess kluster iterativt tills data har gett alla grupperingar som processen tillåter.

Diagrammet för det kvadrerade felet, eller 'kostnaden', för olika värden mellan klustren kommer att avslöja en armbågsspets för data:

'Armbågspunkten' i en klustergraf. Källa: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

"Armbågspunkten" i ett klusterdiagram. Källa: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Armbågspunkten liknar konceptet hur förlusten planar ut till minskande avkastning i slutet av ett träningspass för en datauppsättning. Det representerar den punkt då inga ytterligare skillnader mellan grupper kommer att bli uppenbara, vilket indikerar tidpunkten för att gå vidare till efterföljande faser i datapipelinen, eller annars för att rapportera fynd.

Populär användning

K-Means Clustering är, av uppenbara skäl, en primär teknik inom kundanalys, eftersom den erbjuder en tydlig och förklarlig metod för att översätta stora mängder kommersiella register till demografiska insikter och "leads".

Utanför denna applikation används även K-Means Clustering för jordskred förutsägelse, medicinsk bildsegmentering, bildsyntes med GAN, dokumentklassificeringoch stadsplanering, bland många andra potentiella och faktiska användningsområden.

5: Random Forest

Random Forest är en ensembleinlärning metod som ger ett genomsnitt av resultatet från en array av beslutsträd att upprätta en övergripande förutsägelse för resultatet.

Källa: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Om du har undersökt det så lite som att titta på Tillbaka till framtiden trilogin är ett beslutsträd i sig ganska lätt att konceptualisera: ett antal vägar ligger framför dig, och varje väg förgrenar sig till ett nytt resultat som i sin tur innehåller ytterligare möjliga vägar.

In förstärkning lärande, kan du dra dig tillbaka från en stig och börja om från en tidigare hållning, medan beslutsträd förbinder sig till sina resor.

Således är Random Forest-algoritmen i huvudsak spread-betting för beslut. Algoritmen kallas "slumpmässig" eftersom den gör ad hoc urval och observationer för att förstå median summan av resultaten från beslutsträdsmatrisen.

Eftersom det tar hänsyn till en mångfald faktorer kan en Random Forest-metod vara svårare att omvandla till meningsfulla grafer än ett beslutsträd, men kommer sannolikt att vara betydligt mer produktivt.

Beslutsträd är benägna att överanpassa, vilket innebär att resultaten är dataspecifika och sannolikt inte generaliseras. Random Forests godtyckliga urval av datapunkter motverkar denna tendens och borrar sig fram till meningsfulla och användbara representativa trender i data.

Regression av beslutsträd. Källa: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Populär användning

Precis som många av algoritmerna i den här listan fungerar Random Forest vanligtvis som en "tidig" sorterare och filterare av data, och dyker därför konsekvent upp i nya forskningsartiklar. Några exempel på användning av Random Forest inkluderar Magnetisk resonansbildsyntes, Bitcoin prisprognos, folkräkningssegmentering, textklassificering och upptäckt av kreditkortsbedrägerier.

Eftersom Random Forest är en lågnivåalgoritm i maskininlärningsarkitekturer kan den även bidra till prestanda för andra lågnivåmetoder, samt visualiseringsalgoritmer, bl.a. Induktiv klustring, Funktionstransformationer, klassificering av textdokument använder glesa funktioneroch visar pipelines.

6: Naiv Bayes

Tillsammans med densitetsuppskattning (se 4, ovan), a naiva Bayes klassificerare är en kraftfull men relativt lätt algoritm som kan uppskatta sannolikheter baserat på de beräknade egenskaperna hos data.

Visa relationer i en naiv Bayes-klassificerare. Källa: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Termen "naiv" hänvisar till antagandet i Bayes sats att funktioner inte är relaterade, känd som villkorligt oberoendeOm man intar denna ståndpunkt räcker det inte att gå och prata som en anka för att fastställa att vi har att göra med en anka, och inga "uppenbara" antaganden antas i förtid.

Denna nivå av akademisk och undersökande stringens skulle vara överdriven där "sunt förnuft" finns tillgängligt, men är en värdefull standard när man går igenom de många oklarheter och potentiellt orelaterade korrelationer som kan finnas i en maskininlärningsdatauppsättning.

I ett original bayesiskt nätverk är funktioner föremål för poängfunktioner, inklusive minimal beskrivningslängd och Bayesiansk poäng, vilket kan införa begränsningar för data när det gäller de uppskattade kopplingarna som hittas mellan datapunkterna och i vilken riktning dessa förbindelser flyter.

En naiv Bayes-klassificerare, omvänt, fungerar genom att anta att egenskaperna hos ett givet objekt är oberoende, och sedan använda Bayes sats för att beräkna sannolikheten för ett givet objekt, baserat på dess egenskaper.

Populär användning

Naiva Bayes-filter är väl representerade i sjukdomsförutsägelse och dokumentkategorisering, skräppostfiltrering, sentimentklassificering, rekommendatorsystemoch spårning av bedrägerierbland andra applikationer.

7: K- Nearest Neighbors (KNN)

Först föreslogs av US Air Force School of Aviation Medicine i 1951, och måste anpassa sig till det senaste inom datorhårdvara från mitten av 20-talet, K-närmaste grannar (KNN) är en slank algoritm som fortfarande har en framträdande plats i akademiska artiklar och forskningsinitiativ för maskininlärning inom den privata sektorn.

KNN har kallats "den lata eleven", eftersom den uttömmande skannar en datamängd för att utvärdera sambanden mellan datapunkter, snarare än att kräva träning av en fullfjädrad maskininlärningsmodell.

En KNN-gruppering. Källa: https://scikit-learn.org/stable/modules/neighbors.html

Även om KNN är arkitektoniskt smal, ställer dess systematiska tillvägagångssätt ett anmärkningsvärt krav på läs-/skrivoperationer, och dess användning i mycket stora datamängder kan vara problematisk utan tilläggsteknologier som Principal Component Analysis (PCA), som kan transformera komplexa och stora datamängder. in i representativa grupperingar att KNN kan korsa med mindre ansträngning.

A färsk studie utvärderade effektiviteten och ekonomin hos ett antal algoritmer med uppgift att förutsäga om en anställd kommer att lämna ett företag, och fann att den sjuåriga KNN förblev överlägsen mer moderna utmanare när det gäller noggrannhet och prediktiv effektivitet.

Populär användning

Trots all sin populära enkelhet i koncept och utförande är KNN inte fast i 1950-talet – det har anpassats till ett mer DNN-fokuserat tillvägagångssätt i ett förslag från 2018 från Pennsylvania State University, och förblir en central process i tidigt skede (eller analytiskt verktyg efter bearbetning) i många mycket mer komplexa ramverk för maskininlärning.

I olika konfigurationer har KNN använts eller för signaturverifiering online, bildklassificering, textbrytning, förutsägelse av skördoch ansiktsigenkänning, förutom andra tillämpningar och införlivningar.

Ett KNN-baserat ansiktsigenkänningssystem under träning. Källa: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Ett KNN-baserat ansiktsigenkänningssystem under träning. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Markov Decision Process (MDP)

Ett matematiskt ramverk introducerat av den amerikanske matematikern Richard Bellman i 1957, Markov Decision Process (MDP) är en av de mest grundläggande blocken av förstärkning lärande arkitekturer. En konceptuell algoritm i sin egen rätt, den har anpassats till ett stort antal andra algoritmer och återkommer ofta i den nuvarande skörden av AI/ML-forskning.

MDP utforskar en datamiljö genom att använda sin utvärdering av dess nuvarande tillstånd (dvs. "var" den befinner sig i data) för att bestämma vilken nod i datan som ska utforskas härnäst.

Källa: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

En grundläggande Markov-beslutsprocess kommer att prioritera kortsiktiga fördelar framför mer önskvärda långsiktiga mål. Av denna anledning är det vanligtvis inbäddat i en mer omfattande policyarkitektur inom förstärkt lärande, och är ofta föremål för begränsande faktorer som rabatterad belöning och andra modifierande miljövariabler som kommer att hindra den från att skynda till ett omedelbart mål utan hänsyn. av det bredare önskade resultatet.

Populär användning

MDP:s lågnivåkoncept är utbrett inom både forskning och aktiva implementeringar av maskininlärning. Det har föreslagits för IoT säkerhetsförsvarssystem, skörd av fiskoch marknadsprognoser.

Förutom dess uppenbar tillämplighet till schack och andra strikt sekventiella spel är MDP också en naturlig utmanare för procedurutbildning av robotsystem, som vi kan se i videon nedan.

Global Planner använder en Markov-beslutsprocess - Mobile Industrial Robotics

Global Planner using a Markov Decision Process - Mobile Industrial Robotics

Watch this video on YouTube

9: Term Frequency-Invers Document Frequency

Term Frequency (TF) dividerar antalet gånger ett ord förekommer i ett dokument med det totala antalet ord i det dokumentet. Alltså ordet försegla som förekommer en gång i en tusenordsartikel har en termfrekvens på 0.001. I och för sig är TF i stort sett värdelös som en indikator på termens betydelse, på grund av att meningslösa artiklar (t.ex. a, och, doch it) dominerar.

För att få ett meningsfullt värde för en term, beräknar Inverse Document Frequency (IDF) TF för ett ord över flera dokument i en datamängd, vilket ger lågt betyg till mycket hög frekvens stoppord, såsom artiklar. De resulterande egenskapsvektorerna normaliseras till hela värden, med varje ord tilldelad en lämplig vikt.

TF-IDF väger relevansen av termer baserat på frekvens i ett antal dokument, med sällsynta förekomst en indikator på framträdande. Källa: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Även om detta tillvägagångssätt förhindrar semantiskt viktiga ord från att gå förlorade outliers, invertering av frekvensvikten betyder inte automatiskt att en lågfrekvent term är det inte en outlier, eftersom vissa saker är sällsynta och värdelös. Därför kommer en lågfrekvent term att behöva bevisa sitt värde i det bredare arkitektoniska sammanhanget genom att presentera (även med en låg frekvens per dokument) i ett antal dokument i datamängden.

Trots det ålder, TF-IDF är en kraftfull och populär metod för initiala filtreringspass i Natural Language Processing-ramverk.

Populär användning

Eftersom TF-IDF har spelat åtminstone en viss roll i utvecklingen av Googles till stor del hemliga PageRank-algoritm under de senaste tjugo åren, har den blivit mycket allmänt antagen som en manipulativ SEO-taktik, trots John Muellers 2019 förnekande om dess betydelse för sökresultaten.

På grund av sekretessen kring PageRank finns det inga tydliga bevis för att TF-IDF är det inte för närvarande en effektiv taktik för att stiga i Googles ranking. Brandfarlig diskussion bland IT-proffs på senare tid indikerar en populär förståelse, korrekt eller inte, att termmissbruk fortfarande kan resultera i förbättrad SEO-placering (även om ytterligare anklagelser om monopolmissbruk och överdriven reklam sudda ut gränserna för denna teori).

10: Stokastisk Gradient Descent

Stokastisk Gradient Descent (SGD) är en alltmer populär metod för att optimera utbildningen av maskininlärningsmodeller.

Gradient Descent i sig är en metod för att optimera och därefter kvantifiera den förbättring som en modell gör under träning.

I den här bemärkelsen indikerar "gradient" en nedåtgående lutning (snarare än en färgbaserad gradering, se bilden nedan), där den högsta punkten på "kullen", till vänster, representerar början på träningsprocessen. I detta skede har modellen ännu inte sett hela datan ens en gång, och har inte lärt sig tillräckligt om relationerna mellan datan för att producera effektiva transformationer.

En lutning nedstigning på ett FaceSwap-träningspass. Vi kan se att träningen har platåerat ett tag i andra halvlek, men har så småningom återhämtat sig nerför lutning mot en acceptabel konvergens.

Den lägsta punkten, till höger, representerar konvergens (den punkt där modellen är lika effektiv som den någonsin kommer att hamna under de pålagda begränsningarna och inställningarna).

Gradienten fungerar som en post och prediktor för skillnaden mellan felfrekvensen (hur exakt modellen för närvarande har kartlagt datarelationerna) och vikterna (inställningarna som påverkar hur modellen kommer att lära sig).

Denna registrering av framsteg kan användas för att informera en schema för inlärningstakt, en automatisk process som säger åt arkitekturen att bli mer detaljerad och exakt när de tidiga vaga detaljerna förvandlas till tydliga relationer och kartläggningar. I själva verket ger gradientförlust en just-in-time-karta över vart träningen ska gå härnäst och hur den ska fortsätta.

Innovationen med Stochastic Gradient Descent är att den uppdaterar modellens parametrar för varje träningsexempel per iteration, vilket generellt sett påskyndar resan mot konvergens. På grund av tillkomsten av hyperskaliga datamängder under senare år har SGD ökat i popularitet på senare tid som en möjlig metod för att hantera de efterföljande logistiska problemen.

Å andra sidan har SGD negativa konsekvenser för funktionsskalning, och kan kräva fler iterationer för att uppnå samma resultat, vilket kräver ytterligare planering och ytterligare parametrar, jämfört med vanlig Gradient Descent.

Populär användning

På grund av dess konfigurerbarhet, och trots dess brister, har SGD blivit den mest populära optimeringsalgoritmen för att passa neurala nätverk. En konfiguration av SGD som blir dominerande i nya AI/ML-forskningsartiklar är valet av Adaptive Moment Estimation (ADAM, introducerad i 2015) optimerare.

ADAM anpassar inlärningshastigheten för varje parameter dynamiskt ("adaptiv inlärningshastighet") och införlivar resultat från tidigare uppdateringar i den efterföljande konfigurationen ("momentum"). Dessutom kan den konfigureras för att använda senare innovationer, såsom Nesterov Momentum.

Vissa hävdar dock att användningen av momentum också kan påskynda ADAM (och liknande algoritmer) till en suboptimal slutsats. Som med det mesta av spetsen inom maskininlärningsforskningssektorn är SGD ett pågående arbete.

Första gången publicerad 10 februari 2022. Ändrad 10 februari 20.05 EET – formatering.

Relaterade ämnen:AI AI affärsverktyg artificiell intelligens Maskininlärning

Martin Anderson

Skribent på maskininlärning, domänspecialist på mänsklig bildsyntes. Tidigare chef för forskningsinnehåll på Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai

Unite.AI

10 bästa maskininlärningsalgoritmer

1: Transformatorer

2: Generative Adversarial Networks (GAN)

3: SVM

4: K-Means Clustering

5: Random Forest

6: Naiv Bayes

7: K- Nearest Neighbors (KNN)

8: Markov Decision Process (MDP)

9: Term Frequency-Invers Document Frequency

10: Stokastisk Gradient Descent

Du må gilla