Best Of

10 bedste maskinlæringsalgoritmer

Opdateret on Februar 10, 2022

Selvom vi lever gennem en tid med ekstraordinær innovation inden for GPU-accelereret maskinlæring, indeholder de seneste forskningsartikler ofte (og fremtrædende) algoritmer, der er årtier, i visse tilfælde 70 år gamle.

Nogle vil måske hævde, at mange af disse ældre metoder falder ind i lejren for 'statistisk analyse' snarere end maskinlæring, og foretrækker at datere sektorens fremkomst kun så langt tilbage som 1957, med Opfindelsen af Perceptron.

I betragtning af det omfang, i hvilket disse ældre algoritmer understøtter og er indblandet i de seneste trends og overskrifter inden for maskinlæring, er det en anfægtelig holdning. Så lad os tage et kig på nogle af de 'klassiske' byggeklodser, der ligger til grund for de seneste innovationer, samt nogle nyere poster, der giver et tidligt bud på AI Hall of Fame.

1: Transformere

I 2017 ledede Google Research et forskningssamarbejde, der kulminerede med papir Opmærksomhed er alt hvad du behøver. Værket skitserede en ny arkitektur, der fremmede opmærksomhedsmekanismer fra 'piping' i encoder/dekoder og tilbagevendende netværksmodeller til en central transformationsteknologi i sig selv.

Tilgangen blev døbt Transformer, og er siden blevet en revolutionerende metode inden for Natural Language Processing (NLP), der blandt mange andre eksempler driver den autoregressive sprogmodel og AI-plakat-barn GPT-3.

Transformere løste elegant problemet med sekvenstransduktion, også kaldet 'transformation', som er optaget af bearbejdning af inputsekvenser til outputsekvenser. En transformer modtager og administrerer også data på en kontinuerlig måde snarere end i sekventielle batches, hvilket tillader en 'vedvarende hukommelse', som RNN-arkitekturer ikke er designet til at opnå. For en mere detaljeret oversigt over transformere, tag et kig på vores referenceartikel.

I modsætning til de tilbagevendende neurale netværk (RNN'er), der var begyndt at dominere ML-forskning i CUDA-æraen, kunne transformatorarkitektur også let være paralleliseret, hvilket åbner vejen for produktivt at adressere et langt større korpus af data end RNN'er.

Populær brug

Transformers fangede offentlighedens fantasi i 2020 med udgivelsen af OpenAI's GPT-3, som pralede af en dengang rekordstor 175 milliarder parametre. Denne tilsyneladende svimlende præstation blev til sidst overskygget af senere projekter, såsom 2021 frigive af Microsofts Megatron-Turing NLG 530B, der (som navnet antyder) har over 530 milliarder parametre.

En tidslinje af hyperscale Transformer NLP-projekter. Kilde: microsoft

Transformerarkitektur er også gået over fra NLP til computervision, der driver en ny generation af billedsyntese rammer såsom OpenAI's CLIP , DALL-E, som bruger tekst>billede domænekortlægning til at færdiggøre ufuldstændige billeder og syntetisere nye billeder fra trænede domæner blandt et stigende antal relaterede applikationer.

DALL-E forsøger at færdiggøre et delvist billede af en buste af Platon. Kilde: https://openai.com/blog/dall-e/

2: Generative Adversarial Networks (GAN'er)

Selvom transformere har fået ekstraordinær mediedækning gennem udgivelsen og vedtagelsen af GPT-3, er den Generativt kontradiktorisk netværk (GAN) er blevet et genkendeligt brand i sig selv, og kan med tiden slutte sig til deepfake som et verbum.

Først foreslået i 2014 og primært brugt til billedsyntese, et Generative Adversarial Network arkitektur er sammensat af en Generator og en Diskriminator. Generatoren cykler gennem tusindvis af billeder i et datasæt og forsøger iterativt at rekonstruere dem. For hvert forsøg bedømmer Diskriminatoren Generatorens arbejde og sender Generatoren tilbage for at gøre det bedre, men uden nogen indsigt i den måde, den tidligere rekonstruktion fejlede.

Kilde: https://developers.google.com/machine-learning/gan/gan_structure

Dette tvinger Generatoren til at udforske en mangfoldighed af veje, i stedet for at følge de potentielle blindgyder, der ville have resulteret, hvis Diskriminatoren havde fortalt den, hvor det gik galt (se #8 nedenfor). Når træningen er slut, har Generatoren et detaljeret og omfattende kort over forhold mellem punkter i datasættet.

Et uddrag fra forskernes medfølgende video (se indlejring i slutningen af artiklen). Bemærk, at brugeren manipulerer transformationerne med en 'grab'-markør (øverst til venstre). Kilde: https://www.youtube.com/watch?v=k7sG4XY5rIc

Fra avisen Forbedring af GAN-ligevægt ved at øge rumlig bevidsthed: en ny ramme cykler gennem det til tider mystiske latente rum i et GAN, hvilket giver responsiv instrumentalitet til en billedsyntesearkitektur. Kilde: https://genforce.github.io/eqgan/

I analogi er dette forskellen mellem at lære en enkelt ensartet pendling til det centrale London eller omhyggeligt at tilegne sig Viden.

Resultatet er en samling af funktioner på højt niveau i den trænede models latente rum. Den semantiske indikator for et træk på højt niveau kunne være 'person', mens en nedstigning gennem specificitet relateret til træk kan afsløre andre indlærte kendetegn, såsom 'mandlig' og 'kvinde'. På lavere niveauer kan underfunktionerne nedbrydes til 'blond', 'kaukasisk' et al.

Forvikling er et bemærkelsesværdigt problem i det latente rum af GAN'er og encoder/decoder frameworks: er smilet på et GAN-genereret kvindeansigt et sammenfiltret træk ved hendes 'identitet' i det latente rum, eller er det en parallel gren?

GAN-genererede ansigter fra denne person eksisterer ikke. Kilde: https://this-person-does-not-exist.com/en

De seneste par år har frembragt et voksende antal nye forskningsinitiativer i denne henseende, hvilket måske har banet vejen for redigering i Photoshop-stil på funktionsniveau for det latente rum i en GAN, men i øjeblikket er mange transformationer effektivt ' alt eller intet' pakker. Navnlig opnår NVIDIAs EditGAN-udgivelse i slutningen af 2021 en høj grad af fortolkning i det latente rum ved at bruge semantiske segmenteringsmasker.

Populær brug

Udover deres (faktisk temmelig begrænsede) involvering i populære deepfake-videoer, er billed-/videocentrerede GAN'er vokset i løbet af de sidste fire år, hvilket har begejstret både forskere og offentligheden. At holde trit med den svimlende hastighed og hyppighed af nye udgivelser er en udfordring, selvom GitHub-lageret Fantastiske GAN-applikationer har til formål at give en omfattende liste.

Generative kontradiktoriske netværk kan i teorien udlede træk fra ethvert velindrammet domæne, inklusive tekst.

3: SVM

stammer i 1963, Support Vector Machine (SVM) er en kernealgoritme, der ofte dukker op i ny forskning. Under SVM kortlægger vektorer den relative placering af datapunkter i et datasæt, mens support vektorer afgrænser grænserne mellem forskellige grupper, træk eller træk.

Støttevektorer definerer grænserne mellem grupper. Kilde: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Den afledte grænse kaldes a hyperplan.

Ved lave funktionsniveauer er SVM todimensional (billede ovenfor), men hvor der er et højere anerkendt antal grupper eller typer, bliver det tredimensionale.

En dybere række af punkter og grupper nødvendiggør en tredimensionel SVM. Kilde: https://cml.rhul.ac.uk/svm.html

Populær brug

Da support Vector Machines effektivt og agnostisk kan adressere højdimensionelle data af mange slags, dukker de op bredt på tværs af en række maskinlæringssektorer, bl.a. deepfake detektion, billedklassificering, klassificering af hadefulde ytringer, DNA-analyse , forudsigelse af befolkningsstruktur, blandt mange andre.

4: K-Means Clustering

Clustering er generelt en uovervåget læring tilgang, der søger at kategorisere datapunkter igennem tæthedsvurdering, at skabe et kort over fordelingen af de data, der undersøges.

K-Betyder at gruppere guddommelige segmenter, grupper og fællesskaber i data. Kilde: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Betyder Clustering er blevet den mest populære implementering af denne tilgang, og at hyrdedata peger ind i karakteristiske 'K-grupper', som kan indikere demografiske sektorer, online-fællesskaber eller enhver anden mulig hemmelig aggregering, der venter på at blive opdaget i rå statistiske data.

Klynger dannes i K-Means-analyse. Kilde: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

K-værdien i sig selv er den afgørende faktor for processens nytte og for at etablere en optimal værdi for en klynge. Indledningsvis tildeles K-værdien tilfældigt, og dens funktioner og vektorkarakteristika sammenlignes med dens naboer. De naboer, der mest ligner datapunktet med den tilfældigt tildelte værdi, bliver tildelt dets klynge iterativt, indtil dataene har givet alle de grupperinger, som processen tillader.

Plottet for den kvadrerede fejl eller 'omkostning' af forskellige værdier blandt klyngerne vil afsløre en albuepunkt for data:

'Albuepunktet' i en klyngegraf. Kilde: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Albuepunktet ligner i konceptet den måde, hvorpå tab flader ud til aftagende afkast i slutningen af en træningssession for et datasæt. Det repræsenterer det punkt, hvor ingen yderligere skelnen mellem grupper vil blive synlig, hvilket angiver tidspunktet for at gå videre til efterfølgende faser i datapipelinen eller ellers at rapportere resultater.

Populær brug

K-Means Clustering er af indlysende årsager en primær teknologi inden for kundeanalyse, da den tilbyder en klar og forklarlig metode til at omsætte store mængder kommercielle optegnelser til demografiske indsigter og 'leads'.

Uden for denne applikation er K-Means Clustering også ansat til forudsigelse af jordskred, medicinsk billedsegmentering, billedsyntese med GAN'er, dokumentklassificeringog byplanlægning, blandt mange andre potentielle og faktiske anvendelser.

5: Tilfældig skov

Random Forest er en ensemble læring metode, der gennemsnit af resultatet fra en række af beslutning træer at etablere en overordnet forudsigelse for resultatet.

Kilde: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Hvis du har undersøgt det, så lidt som at se Tilbage til fremtiden trilogien, er et beslutningstræ i sig selv ret let at begrebsliggøre: en række stier ligger foran dig, og hver vej forgrener sig til et nyt resultat, som igen indeholder yderligere mulige stier.

In forstærkning læring, kan du trække dig tilbage fra en sti og starte igen fra en tidligere holdning, mens beslutningstræer forpligter sig til deres rejser.

Således er Random Forest-algoritmen i det væsentlige spread-betting for beslutninger. Algoritmen kaldes 'tilfældig', fordi den laver ad hoc valg og observationer for at forstå median summen af resultaterne fra beslutningstræet.

Da den tager højde for en mangfoldighed af faktorer, kan en Random Forest-tilgang være sværere at konvertere til meningsfulde grafer end et beslutningstræ, men den vil sandsynligvis være væsentlig mere produktiv.

Beslutningstræer er underlagt overfitting, hvor de opnåede resultater er dataspecifikke og sandsynligvis ikke vil generalisere. Random Forests vilkårlige udvælgelse af datapunkter bekæmper denne tendens og borer igennem til meningsfulde og nyttige repræsentative tendenser i dataene.

Beslutningstræ regression. Kilde: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Populær brug

Som med mange af algoritmerne på denne liste, fungerer Random Forest typisk som en 'tidlig' sorterer og filter af data, og dukker som sådan konsekvent op i nye forskningsartikler. Nogle eksempler på Random Forest-brug inkluderer Magnetisk resonans billedsyntese, Bitcoin pris forudsigelse, folketællings segmentering, tekstklassificering , opdagelse af svindel med kreditkort.

Da Random Forest er en lavniveaualgoritme i maskinlæringsarkitekturer, kan den også bidrage til ydeevnen af andre lavniveaumetoder, samt visualiseringsalgoritmer, bl.a. Induktiv klyngedannelse, Funktionstransformationer, klassificering af tekstdokumenter ved hjælp af sparsomme funktionerog viser rørledninger.

6: Naiv Bayes

Sammenholdt med tæthedsestimering (se 4, ovenfor), a naive Bayes classifier er en kraftfuld, men relativt let algoritme, der er i stand til at estimere sandsynligheder baseret på de beregnede funktioner i data.

Fremhæv relationer i en naiv Bayes-klassificering. Kilde: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Udtrykket 'naiv' refererer til antagelsen i Bayes' sætning at funktioner ikke er relaterede, kendt som betinget uafhængighed. Hvis du indtager dette standpunkt, er det ikke nok at gå og tale som en and til at fastslå, at vi har med en and at gøre, og ingen 'åbenlyse' antagelser bliver overtaget for tidligt.

Dette niveau af akademisk og efterforskningsmæssig stringens ville være overdrevent, hvor 'sund fornuft' er tilgængelig, men er en værdifuld standard, når man krydser de mange tvetydigheder og potentielt ikke-relaterede sammenhænge, der kan eksistere i et maskinlæringsdatasæt.

I et originalt Bayesiansk netværk er funktioner underlagt scoringsfunktioner, herunder minimal beskrivelseslængde og Bayesiansk scoring, som kan pålægge data begrænsninger med hensyn til de estimerede forbindelser fundet mellem datapunkterne, og i hvilken retning disse forbindelser flyder.

En naiv Bayes-klassifikator opererer omvendt ved at antage, at et givent objekts egenskaber er uafhængige, og efterfølgende bruger Bayes' sætning til at beregne sandsynligheden for et givet objekt, baseret på dets egenskaber.

Populær brug

Naive Bayes-filtre er godt repræsenteret i sygdomsforudsigelse og dokumentkategorisering, spamfiltrering, følelsesklassificering, anbefalingssystemerog bedrageri afsløring, blandt andre applikationer.

7: K- Nearest Neighbours (KNN)

Først foreslået af US Air Force School of Aviation Medicine i 1951, og at skulle tilpasse sig den avancerede computerhardware fra midten af det 20. århundrede, K-Nærmeste Naboer (KNN) er en slank algoritme, der stadig har en fremtrædende plads på tværs af akademiske artikler og forskningsinitiativer for maskinlæring i den private sektor.

KNN er blevet kaldt 'den dovne lærende', da det udtømmende scanner et datasæt for at evaluere relationerne mellem datapunkter i stedet for at kræve træning af en fuldgyldig maskinlæringsmodel.

En KNN-gruppering. Kilde: https://scikit-learn.org/stable/modules/neighbors.html

Selvom KNN er arkitektonisk slank, stiller dens systematiske tilgang et bemærkelsesværdigt krav til læse/skrive-operationer, og dets brug i meget store datasæt kan være problematisk uden supplerende teknologier såsom Principal Component Analysis (PCA), som kan transformere komplekse datasæt og højvolumendatasæt ind i repræsentative grupperinger at KNN kan krydse med mindre indsats.

A nylig undersøgelse evaluerede effektiviteten og økonomien af en række algoritmer, der har til opgave at forudsige, om en medarbejder vil forlade en virksomhed, og fandt ud af, at den syvårige KNN forblev overlegen i forhold til mere moderne konkurrenter med hensyn til nøjagtighed og forudsigelig effektivitet.

Populær brug

På trods af al dens populære enkelhed i koncept og udførelse er KNN ikke fastlåst i 1950'erne – det er blevet tilpasset til en mere DNN-fokuseret tilgang i et 2018-forslag fra Pennsylvania State University, og forbliver en central tidlig proces (eller analytisk efterbehandlingsværktøj) i mange langt mere komplekse maskinlæringsrammer.

I forskellige konfigurationer er KNN blevet brugt eller til online signaturbekræftelse, billedklassificering, tekst mining, forudsigelse af afgrødeog ansigtsgenkendelse, udover andre applikationer og inkorporeringer.

Et KNN-baseret ansigtsgenkendelsessystem under træning. Kilde: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Et KNN-baseret ansigtsgenkendelsessystem under træning. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Markov Decision Process (MDP)

En matematisk ramme introduceret af den amerikanske matematiker Richard Bellman i 1957, Markov Decision Process (MDP) er en af de mest grundlæggende blokke af forstærkning læring arkitekturer. En konceptuel algoritme i sig selv, den er blevet tilpasset til et stort antal andre algoritmer og gentager sig ofte i den nuværende afgrøde af AI/ML-forskning.

MDP udforsker et datamiljø ved at bruge dets evaluering af dets nuværende tilstand (dvs. "hvor" det er i dataene) til at beslutte, hvilken node af dataene der skal udforskes næste gang.

Kilde: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

En grundlæggende Markov-beslutningsproces vil prioritere fordele på kort sigt frem for mere ønskværdige langsigtede mål. Af denne grund er det normalt indlejret i konteksten af en mere omfattende politisk arkitektur i forstærkende læring og er ofte underlagt begrænsende faktorer som f.eks. nedsat belønning, og andre ændrende miljøvariabler, der vil forhindre det i at skynde sig til et øjeblikkeligt mål uden hensyntagen til det bredere ønskede resultat.

Populær brug

MDP's lavniveaukoncept er udbredt i både forskning og aktive implementeringer af maskinlæring. Det er blevet foreslået til IoT sikkerhedsforsvarssystemer, høst af fiskog markedsprognose.

Udover det åbenlys anvendelighed til skak og andre strengt sekventielle spil er MDP også en naturlig udfordrer til proceduretræning af robotsystemer, som vi kan se i videoen nedenfor.

Global Planner ved hjælp af en Markov-beslutningsproces - Mobile Industrial Robotics

Global Planner using a Markov Decision Process - Mobile Industrial Robotics

Watch this video on YouTube

9: Term Frequency-Inverse Document Frequency

Term Hyppighed (TF) dividerer antallet af gange, et ord forekommer i et dokument med det samlede antal ord i det pågældende dokument. Altså ordet forsegle optræder én gang i en tusind ord-artikel har en termfrekvens på 0.001. I sig selv er TF stort set ubrugelig som en indikator for begrebets betydning, på grund af det faktum, at meningsløse artikler (som f.eks. a, ,, ogog it) dominerer.

For at opnå en meningsfuld værdi for et udtryk beregner Inverse Document Frequency (IDF) TF af et ord på tværs af flere dokumenter i et datasæt, og tildeler lav vurdering til meget høj frekvens stopord, såsom artikler. De resulterende egenskabsvektorer normaliseres til hele værdier, hvor hvert ord tildeles en passende vægt.

TF-IDF vægter relevansen af termer baseret på hyppighed på tværs af en række dokumenter, med sjældnere forekomst en indikator for fremtræden. Kilde: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Selvom denne tilgang forhindrer semantisk vigtige ord i at gå tabt som outliers, invertering af frekvensvægten betyder ikke automatisk, at en lavfrekvent term er ikke en outlier, fordi nogle ting er sjældne , værdiløs. Derfor vil et lavfrekvent udtryk skulle bevise sin værdi i den bredere arkitektoniske kontekst ved at præsentere (selv ved en lav frekvens pr. dokument) i en række dokumenter i datasættet.

På trods af det alder, TF-IDF er en kraftfuld og populær metode til indledende filtrering af gennemløb i rammer for naturlig sprogbehandling.

Populær brug

Fordi TF-IDF i det mindste har spillet en del i udviklingen af Googles stort set okkulte PageRank-algoritme i løbet af de sidste tyve år, er det blevet meget bredt vedtaget som en manipulerende SEO-taktik, på trods af John Muellers 2019 desavouering af dens betydning for søgeresultaterne.

På grund af hemmeligholdelsen omkring PageRank er der ingen klare beviser for, at TF-IDF er det ikke i øjeblikket en effektiv taktik til at stige i Googles placeringer. Brandvækst diskussion blandt it-professionelle på det seneste indikerer en populær forståelse, korrekt eller ej, at termmisbrug stadig kan resultere i forbedret SEO-placering (selvom yderligere anklager om monopolmisbrug , overdreven reklame sløre grænserne for denne teori).

10: Stokastisk gradientnedstigning

Stokastisk gradientnedstigning (SGD) er en stadig mere populær metode til at optimere træningen af maskinlæringsmodeller.

Gradient Descent i sig selv er en metode til at optimere og efterfølgende kvantificere den forbedring, som en model laver under træning.

I denne forstand indikerer 'gradient' en hældning nedad (i stedet for en farvebaseret graduering, se billedet nedenfor), hvor det højeste punkt på 'bakken' til venstre repræsenterer begyndelsen af træningsprocessen. På dette stadium har modellen endnu ikke set hele dataene én gang og har ikke lært nok om forhold mellem dataene til at producere effektive transformationer.

En gradient nedstigning på en FaceSwap træningssession. Vi kan se, at træningen har plateauet et stykke tid i anden halvleg, men til sidst er kommet sig ned ad gradienten mod en acceptabel konvergens.

Det laveste punkt, til højre, repræsenterer konvergens (det punkt, hvor modellen er lige så effektiv, som den nogensinde vil komme under de pålagte begrænsninger og indstillinger).

Gradienten fungerer som en registrering og forudsigelse for forskellen mellem fejlraten (hvor nøjagtigt modellen i øjeblikket har kortlagt datarelationerne) og vægtene (de indstillinger, der påvirker den måde, modellen vil lære).

Denne registrering af fremskridt kan bruges til at informere en læringshastighedsplan, en automatisk proces, der fortæller arkitekturen at blive mere granulær og præcis, efterhånden som de tidlige vage detaljer forvandles til klare relationer og kortlægninger. I virkeligheden giver gradienttab et just-in-time kort over, hvor træningen skal gå næste gang, og hvordan den skal forløbe.

Innovationen ved Stochastic Gradient Descent er, at den opdaterer modellens parametre på hvert træningseksempel per iteration, hvilket generelt fremskynder rejsen til konvergens. På grund af fremkomsten af hyperskala-datasæt i de senere år er SGD vokset i popularitet på det seneste som en mulig metode til at løse de efterfølgende logistiske problemer.

På den anden side har SGD negative implikationer til funktionsskalering og kan kræve flere iterationer for at opnå det samme resultat, hvilket kræver yderligere planlægning og yderligere parametre sammenlignet med almindelig gradientnedstigning.

Populær brug

På grund af dens konfigurerbarhed og på trods af dens mangler er SGD blevet den mest populære optimeringsalgoritme til tilpasning af neurale netværk. En konfiguration af SGD, der er ved at blive dominerende i nye AI/ML forskningsartikler, er valget af Adaptive Moment Estimation (ADAM, introduceret i 2015) optimering.

ADAM tilpasser indlæringshastigheden for hver parameter dynamisk ('adaptive learning rate'), samt inkorporerer resultater fra tidligere opdateringer i den efterfølgende konfiguration ('momentum'). Derudover kan den konfigureres til at bruge senere innovationer, som f.eks Nesterov momentum.

Nogle hævder dog, at brugen af momentum også kan fremskynde ADAM (og lignende algoritmer) til en suboptimal konklusion. Som med det meste af den blødende kant af maskinlæringsforskningssektoren, er SGD et igangværende arbejde.

Først offentliggjort 10. februar 2022. Ændret 10. februar 20.05 EET – formatering.