Det bedste

10 Bedste Maskinlæringsalgoritmer

mm

Selv om vi er midt i en periode med ekstraordinær innovation inden for GPU-accelereret maskinlærning, fremhæver de seneste forskningsartikler ofte (og prominente) algoritmer, der er årtier gamle, i visse tilfælde 70 år gamle.

Nogle måtte påstå, at mange af disse ældre metoder falder ind under kategorien ‘statistisk analyse’ snarere end maskinlærning, og foretrækker at datere begyndelsen af sektoren tilbage til 1957, med opfindelsen af Perceptron.

Givet omfanget af, hvilken grad disse ældre algoritmer understøtter og er indviklet i de seneste trends og overskrifter i maskinlærning, er det en diskutabel holdning. Så lad os kaste et blik på nogle af de ‘klassiske’ byggesten, der ligger til grund for de seneste innovationer, samt nogle nye indgange, der søger at komme ind i AI-hallen.

1: Transformers

I 2017 ledte Google Research en forskningssamarbejde, der kulminerede i artiklen Attention Is All You Need. Arbejdet omfattede en ny arkitektur, der fremhævede opmærksomhedsmekanismer fra ‘piping’ i encoder/decoder og rekurrente netværksmodeller til en central transformationsteknologi i deres eget ret.

Tilgangen blev kaldt Transformer, og er siden blevet en revolutionerende metode i Natural Language Processing (NLP), der driver, blandt mange andre eksempler, den autoregressive sprogmodel og AI-poster-barnet GPT-3.

Transformers løste elegant problemet med sekvens transduktion, også kaldet ‘transformation’, som beskæftiger sig med behandlingen af indgangssekvenser til udgangssekvenser. En transformer modtager og behandler data på en kontinuerlig måde, snarere end i sekventielle batch, hvilket tillader en ‘varighed af hukommelse’, som RNN-arkitekturer ikke er designede til at opnå. For en mere detaljeret oversigt over transformers, se vores referenceartikel.

I modsætning til de Rekurrente Neurale Netværk (RNN), der var begyndt at dominere ML-forskning i CUDA-æraen, kunne Transformer-arkitekturen også let paralleliseres, hvilket åbnede vejen for at produktivt tackle en langt større korpus af data end RNN.

Populær Brug

Transformers fik offentlighedens opmærksomhed i 2020 med udgivelsen af OpenAI’s GPT-3, der havde en daværende rekord på 175 milliarder parametre. Denne tilsyneladende imponerende præstation blev senere overgået af senere projekter, såsom udgivelsen i 2021 af Microsofts Megatron-Turing NLG 530B, der (som navnet antyder) har over 530 milliarder parametre.

En tidslinje for hyperskala Transformer NLP-projekter. Kilde: Microsoft

En tidslinje for hyperskala Transformer NLP-projekter. Kilde: Microsoft

Transformer-arkitekturen er også gået over fra NLP til computer vision, og driver en ny generation af billedsynthesis-rammer, såsom OpenAI’s CLIP og DALL-E, der bruger tekst> billedområde-kortlægning til at fuldføre ufuldstændige billeder og syntetisere nye billeder fra trænede domæner, blandt en voksende mængde af relaterede anvendelser.

DALL-E forsøger at fuldføre et delvist billede af en buste af Plato. Kilde: https://openai.com/blog/dall-e/

DALL-E forsøger at fuldføre et delvist billede af en buste af Plato. Kilde: https://openai.com/blog/dall-e/

2: Generative Adversarial Networks (GANs)

Selv om transformers har fået ekstraordinær mediedækning gennem udgivelsen og antagelsen af GPT-3, er Generative Adversarial Network (GAN) blevet et genkendeligt brand i sin egen ret, og kan muligvis slutte sig til deepfake som et verb.

Først foreslået i 2014 og primært brugt til billedsynthesis, består en Generative Adversarial Network arkitektur af en Generator og en Discriminator. Generatoren gennemløber tusindvis af billeder i en dataset, og forsøger iterativt at genskabe dem. For hver forsøg vurderer Discriminatoren Generatoren arbejde, og sender Generatoren tilbage for at gøre bedre, men uden indsigt i, hvordan den tidligere rekonstruktion fejlede.

Kilde: https://developers.google.com/machine-learning/gan/gan_structure

Kilde: https://developers.google.com/machine-learning/gan/gan_structure

Dette tvinger Generatoren til at udforske en mangfoldighed af veje, snarere end at følge de potentielle blindgyder, der ville være opstået, hvis Discriminatoren havde fortalt det, hvor det gik galt (se #8 nedenfor). Ved afslutningen af træningen har Generatoren en detaljeret og omfattende kort over forhold mellem punkter i datasettet.

Et uddrag fra forskernes ledsagende video (se embed i slutningen af artiklen). Bemærk, at brugeren manipulerer transformationerne med en 'grab'-cursor (øverst til venstre). Kilde: https://www.youtube.com/watch?v=k7sG4XY5rIc

Fra artiklen Improving GAN Equilibrium by Raising Spatial Awareness: en ny ramme gennemløber latentrummet i en GAN, og giver responsiv instrumentering til en billedsynthesis-arkitektur. Kilde: https://genforce.github.io/eqgan/

Ved analogi er dette forskellen på at lære en enkelt kedelig pendling til centrum af London, eller på at erhverve The Knowledge.

Resultatet er en højniveau-samling af funktioner i latentrummet af den trænede model. Den semantiske indikator for en højniveau-funktion kunne være ‘person’, mens en nedgang gennem specifikke relationer til funktionen kan afsløre andre lænte karakteristika, såsom ‘mand’ og ‘kvinde’. På lavere niveauer kan underfunktionerne bryde ned til ‘blond’, ‘kaukasisk’, osv.

Forbinding er et bemærkelsesværdigt problem i latentrummet af GANs og encoder/decoder-rammer: er smilet på et GAN-genereret kvindeligt ansigt en forbundet funktion af dens ‘identitet’ i latentrummet, eller er det en parallel gren?

GAN-genererede ansigter fra thispersondoesnotexist. Kilde: https://this-person-does-not-exist.com/en

GAN-genererede ansigter fra thispersondoesnotexist. Kilde: https://this-person-does-not-exist.com/en

De sidste par år har ført til en voksende mængde af nye forskningsinitiativer i denne henseende, måske baner vejen for funktion-niveau, Photoshop-stil-redigering af latentrummet i en GAN, men for nu er mange transformationer effektivt ‘alt eller intet’-pakker. Bemærkelsesværdigt er, at NVIDIA’s EditGAN-udgivelse i slutningen af 2021 opnår et højt niveau af fortolkning i latentrummet ved at bruge semantiske segmenteringsmasker.

Populær Brug

Ud over deres (i virkeligheden ret begrænsede) involvering i populære deepfake-videoer, har billed/video-centreret GANs prolifereeret over de sidste fire år, og har betaget forskere og offentligheden. At holde trit med den svimlende hastighed og hyppighed af nye udgivelser er en udfordring, selv om GitHub-repositoriet Awesome GAN Applications søger at give en omfattende liste.

Generative Adversarial Networks kan i teorien udlede funktioner fra enhver veldefineret domæne, herunder tekst.

3: SVM

Oprindeligt i 1963, er Support Vector Machine (SVM) en kernealgoritme, der optræder hyppigt i nye forskningsartikler. Under SVM kortlægger vektorer den relative disposition af datapunkter i en dataset, mens support-vektorer afgrænser grænserne mellem forskellige grupper, funktioner eller træk.

Support-vektorer definerer grænserne mellem grupper. Kilde: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Support-vektorer definerer grænserne mellem grupper. Kilde: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Den afledte grænse kaldes en hyperplan.

Ved lav funktion-niveau er SVM to-dimensionel (billede ovenfor), men hvor der er et højere antal genkendte grupper eller typer, bliver det tre-dimensionel.

En dybere række af punkter og grupper kræver en tre-dimensionel SVM. Kilde: https://cml.rhul.ac.uk/svm.html

En dybere række af punkter og grupper kræver en tre-dimensionel SVM. Kilde: https://cml.rhul.ac.uk/svm.html

Populær Brug

Da Support Vector Machines kan effektivt og agnostisk tackle høj-dimensionel data af mange slags, optræder de bredt i en række af maskinlæringssektorer, herunder deepfake-detektion, billedklassifikation, hadefuldt tale-klassifikation, DNA-analyse og populationsstruktur-forudsigelse, blandt mange andre.

4: K-Means Clustering

Clustering i almindelighed er en uovervåget læring-tilgang, der søger at kategorisere data gennem tæthedsestimation, og skaber et kort over distributionen af data, der undersøges.

K-Means-clustering afslører segmenter, grupper og fællesskaber i data. Kilde: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Means-clustering afslører segmenter, grupper og fællesskaber i data. Kilde: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Means Clustering er blevet den mest populære implementering af denne tilgang, og fører data til distinctive ‘K-Grupper’, der kan indikere demografiske sektorer, online-fællesskaber eller enhver anden mulig hemmelig aggregation, der venter på at blive opdaget i rå statistisk data.

Kluster danner sig i K-Means-analyse. Kilde: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Kluster danner sig i K-Means-analyse. Kilde: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

K-værdien selv er den bestemmende faktor i processens nyttighed, og i fastlæggelsen af en optimal værdi for en klaster. Initialt tildeles K-værdien tilfældigt, og dens funktioner og vektor-karakteristika sammenlignes med dens naboer. De naboer, der mindst ligner datapunktet med den tilfældigt tildelte værdi, tildeles til dens klaster iterativt, indtil data har afgivet alle grupperinger, som processen tillader.

Plotten for den kvadrerede fejl, eller ‘omkostning’ af forskellige værdier mellem klasterne, vil afsløre en albue-punkt for data:

Albue-punktet i en klaster-graf. Kilde: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Albue-punktet i en klaster-graf. Kilde: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Albue-punktet ligner konceptuelt måden, som tab falder ud til formindskende retur ved afslutningen af en træningssession for en dataset. Det repræsenterer punktet, hvor ingen yderligere forskelle mellem grupper vil blive tydelige, og indikerer øjeblikket at gå videre til efterfølgende faser i datapipelinen, eller at rapportere resultater.

Populær Brug

K-Means Clustering er, af åbenlyse grunde, en primær teknologi i kundeanalyse, da det tilbyder en klar og forklarlig metode til at omdanne store mængder af kommercielle optegnelser til demografiske indsigt og ‘leads’.

Uden for denne anvendelse bruges K-Means Clustering også til landskred-forudsigelse, medicinsk billed-segmentering, billed-syntese med GANs, dokument-klassifikation og byplanlægning, blandt mange andre mulige og faktiske anvendelser.

5: Random Forest

Random Forest er en ensemble-læringsmetode, der gennemsnitter resultatet fra en række beslutningstræer for at fastlægge en samlet forudsigelse for udfaldet.

Kilde: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Kilde: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Hvis du har forsket i det, selv blot ved at se Back to the Future-trilogien, er en beslutningstræ selv ret let at konceptualisere: en række veje ligger foran dig, og hver vej forgrener sig til en ny udfald, der igen indeholder yderligere mulige veje.

I forstærket læring kan du måske trække dig tilbage fra en vej og starte igen fra en tidligere position, mens beslutningstræer binder sig til deres rejser.

Derfor er Random Forest-algoritmen essentielt en spredningsbetaling for beslutninger. Algoritmen kaldes ’tilfældig’, fordi den foretager ad hoc-valg og observationer for at forstå median-summen af resultaterne fra beslutningstræ-arrayet.

Da det tager en række faktorer i betragtning, kan en Random Forest-tilgang være sværere at omdanne til meningsfulde grafer end en beslutningstræ, men er sandsynligvis mere produktiv.

Beslutningstræer er underlagt overfitning, hvor resultaterne opnås er dataspecifikke og ikke sandsynligvis generaliserbare. Random Forests tilfældige udvælgelse af datapunkter bekæmper denne tendens, og borer sig igennem til meningsfulde og nyttige repræsentative tendenser i data.

Beslutningstræ-regression. Kilde: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Beslutningstræ-regression. Kilde: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Populær Brug

Som med mange af algoritmerne på denne liste, fungerer Random Forest typisk som en ‘tidlig’ sorter og filter af data, og optræder derfor konsekvent i nye forskningsartikler. Nogle eksempler på Random Forest-brug omfatter Magnetisk Resonans-billed-syntese, Bitcoin-pris-forudsigelse, kunde-segmentering, tekst-klassifikation og kreditkort-svindel-detektion.

Da Random Forest er en lav-niveau-algoritme i maskinlærings-arkitekturer, kan det også bidrage til ydelsen af andre lav-niveau-metoder, samt visualiserings-algoritmer, herunder induktiv klustering, funktionstransformationer, klassifikation af tekst-dokumenter ved hjælp af sparse funktioner og visning af Pipelines.

6: Naive Bayes

Koblet med tæthedsestimation (se 4 ovenfor), er en naive Bayes-klassifikator en kraftfuld, men relativt letvægts-algoritme, der kan estimerer sandsynligheder baseret på de beregnede funktioner af data.

Funktionsrelationer i en naive Bayes-klassifikator. Kilde: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Funktionsrelationer i en naive Bayes-klassifikator. Kilde: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Begrebet ‘naiv’ refererer til antagelsen i Bayes’ teorem, at funktioner er uafhængige, kendt som betingselsesuafhængighed. Hvis du antager denne holdning, er gående og tale som en and ikke nok til at fastslå, at vi har med en and at gøre, og ingen ‘åbenlyse’ antagelser adopteres forhastet.

Denne niveau af akademisk og undersøgelsesmæssig rigor er overkill, hvor ‘fælles fornuft’ er tilgængelig, men er en værdifuld standard, når man bevæger sig gennem de mange tvetydigheder og potentielt uafhængige korrelationer, der kan eksistere i en maskinlærings-dataset.

I en oprindelig Bayesian-netværk er funktioner underlagt scoringsfunktioner, herunder minimal beskrivelseslængde og Bayesian scoringsfunktion, der kan påføre begrænsninger på data i form af de estimerede forbindelser fundet mellem datapunkterne og retningen, hvori disse forbindelser flyder.

En naive Bayes-klassifikator, på den anden side, fungerer ved at antage, at funktionerne af et givet objekt er uafhængige, og bruger derefter Bayes’ teorem til at beregne sandsynligheden for et givet objekt, baseret på dets funktioner.

Populær Brug

Naive Bayes-filtre er godt repræsenteret i sygdomsforudsigelse og dokument-kategorisering, spam-filtrering, sentiment-klassifikation, anbefalings-systemer og svindel-detektion, blandt andre anvendelser.

7: K- Nærmeste Naboer (KNN)

Først foreslået af det amerikanske luftvåbens skole for luftfartmedicin i 1951, og med nødvendighed af tilpasse sig til standen af midt-20. århundredes computervæsen, er K- Nærmeste Naboer (KNN) en slank algoritme, der stadig optræder prominently i akademiske artikler og private sektors maskinlæringsforskning.

KNN er blevet kaldt ‘den dovne lærer’, da det udførligt gennemløber en dataset for at evaluere forholdet mellem datapunkter, snarere end at kræve træningen af en fuldstændig maskinlæringsmodel.

En KNN-gruppering. Kilde: https://scikit-learn.org/stable/modules/neighbors.html

En KNN-gruppering. Kilde: https://scikit-learn.org/stable/modules/neighbors.html

Selv om KNN er arkitektonisk slank, stiller dens systematiske tilgang en bemærkelsesværdig krav til læse/skrive-operationer, og dens brug i meget store datasets kan være problematisk uden hjælpe-teknologier som Principal Component Analysis (PCA), der kan omdanne komplekse og store datasets til repræsentative grupperinger, som KNN kan gennemløbe med mindre anstrengelse.

En seneste studie evaluerede effektiviteten og økonomien af en række algoritmer, der blev bedt om at forudsige, om en medarbejder ville forlade et selskab, og fandt, at den 70-årige KNN forblev overlegen i forhold til mere moderne konkurrenter i forhold til nøjagtighed og forudsigelseseffektivitet.

Populær Brug

For alle dens populære enkelhed af koncept og udførelse er KNN ikke fastlåst i 1950’erne – det er blevet tilpasset til en mere DNN-fokuseret tilgang i en forslag i 2018 af Pennsylvania State University, og forbliver en central tidlig fase (eller post-processing analytisk værktøj) i mange langt mere komplekse maskinlærings-rammer.

I forskellige konfigurationer er KNN blevet brugt eller til online-signatur-verificering, billed-klassifikation, tekst-mining, afgrøde-forudsigelse og ansigts-genkendelse, blandt andre anvendelser og inkorporeringer.

En KNN-baseret ansigts-genkendelsessystem i træning. Kilde: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

En KNN-baseret ansigts-genkendelsessystem i træning. Kilde: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Markov Decision Process (MDP)

En matematisk ramme introduceret af den amerikanske matematiker Richard Bellman i 1957, er Markov Decision Process (MDP) en af de mest grundlæggende byggesten i forstærket læring-arkitekturer. En konceptuel algoritme i sin egen ret, er det blevet tilpasset til en stor mængde af andre algoritmer, og optræder hyppigt i den nuværende mængde af AI/ML-forskning.

MDP udforsker en data-miljø ved at bruge sin vurdering af sin nuværende tilstand (dvs. ‘hvor’ det er i data) til at beslutte, hvilken node af data det skal udforske næste.

Kilde: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Kilde: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

En grundlæggende Markov Decision Process vil prioritere nærtidsfordele over mere ønskværdige langsigtede mål. Af denne grund er det ofte indlejret i konteksten af en mere omfattende politik-arkitektur i forstærket læring, og er ofte underlagt begrænsninger såsom diskonteret belønning og andre modificerende miljøvariable, der kan forhindre det i at skynde sig til et øjeblikkeligt mål uden at tage hensyn til det bredere ønskede udfald.

Populær Brug

MDP’s lav-niveau-koncept er bredt i både forskning og aktive udrulninger af maskinlærning. Det er blevet foreslået til IoT-sikkerhedsforsvarssystemer, fiskeri og marked-forudsigelse.

Ud over dets åbenlyse anvendelighed til skak og andre strengt sekventielle spil, er MDP en naturlig kandidat til den procedurale træning af robot-systemer, som vi kan se i videoen nedenfor.

 

9: Term Frequency-Inverse Document Frequency

Term Frequency (TF) dividerer antallet af gange, et ord optræder i en dokument, med det samlede antal ord i den dokument. Således har ordet seal, der optræder en gang i en artikel på 1000 ord, en term-frekvens på 0,001. Alene er TF stort set værdiløs som en indikator for term-vigtighed, på grund af det faktum, at meningsløse artikler (såsom a, and, the og it) dominerer.

For at opnå en meningsfuld værdi for en term, beregner Inverse Document Frequency (IDF) TF for et ord på tværs af multiple dokumenter i en dataset, og tildeler lav rating til meget højfrekventerede stop-ord, såsom artikler. De resulterende funktion-vektorer er normaliseret til hele værdier, med hvert ord tildelt en passende vægt.

TF-IDF vægter relevansen af termer baseret på frekvens på tværs af et antal dokumenter, med sjældnere forekomst som en indikator for relevans. Kilde: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

TF-IDF vægter relevansen af termer baseret på frekvens på tværs af et antal dokumenter, med sjældnere forekomst som en indikator for relevans. Kilde: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Selv om denne tilgang forhindrer, at semantisk vigtige ord forsvinder som outliers, betyder invertering af frekvens-vægten ikke automatisk, at et lavfrekvent term ikke er en outlier, fordi nogle ting er sjældne og værdiløse. Derfor vil et lavfrekvent term behøve at bevise sin værdi i den bredere arkitektoniske kontekst ved at optræde (selv ved en lav frekvens per dokument) i en række dokumenter i datasettet.

Trods sin alder er TF-IDF en kraftfuld og populær metode til initialt filter-pas i Natural Language Processing-rammer.

Populær Brug

Fordi TF-IDF har spillet en vis rolle i udviklingen af Googles stort set okkulte PageRank-algoritme over de sidste 20 år, er det blevet meget bredt antaget som en manipulerende SEO-taktik, på trods af John Muellers afvisning af dets betydning for søgeresultater.

På grund af hemmeligholdelsen omkring PageRank er der ingen klar bevis for, at TF-IDF ikke er en effektiv taktik for at stige i Googles rangliste. Kontroversiel diskussion blandt IT-fagfolk for nylig antyder en populær forståelse, korrekt eller ej, at term-misbrug kan føre til forbedret SEO-placering (selv om yderligere beskyldninger for monopol-misbrug og eksessiv reklame uddyber grænserne for denne teori).

10: Stochastic Gradient Descent

Stochastic Gradient Descent (SGD) er en stadig mere populær metode til at optimere træningen af maskinlærings-modeller.

Gradient Descent i sig selv er en metode til at optimere og herefter kvantificere forbedringen, som en model gør under træning.

I denne forstand indikerer ‘gradient’ en skråning nedad (snarere end en farve-baseret gradation, se billedet nedenfor), hvor det højeste punkt på ‘bjerget’, til venstre, repræsenterer begyndelsen af træningsprocessen. På dette stadium har modellen endnu ikke set hele datasettet, og har ikke lært nok om forhold mellem data til at producere effektive transformationer.

En gradient-descent på en FaceSwap-træningssession. Vi kan se, at træningen har plateauet i en periode i anden halvdel, men har til sidst genfundet sin vej ned ad gradienten mod en acceptabel konvergens.

En gradient-descent på en FaceSwap-træningssession. Vi kan se, at træningen har plateauet i en periode i anden halvdel, men har til sidst genfundet sin vej ned ad gradienten mod en acceptabel konvergens.

Det laveste punkt, til højre, repræsenterer konvergens (punktet, hvor modellen er så effektiv, som den nogensinde vil blive under de pålagte begrænsninger og indstillinger).

Gradienten fungerer som en optegnelse og forudsigelse for forskellen mellem fejl-raten (hvor nøjagtigt modellen har kortlagt data-forholdene) og vægtene (indstillingerne, der påvirker, hvordan modellen vil lære).

Denne optegnelse over fremgang kan bruges til at underrette en lærings-rateskema, en automatisk proces, der fortæller arkitekturen at blive mere granuleret og præcis, da de tidlige vagt detaljer forvandler sig til klare forhold og kortlægninger. I virkeligheden giver gradient-tab en just-in-time-kort over, hvor træningen skal gå herefter, og hvordan den skal fortsætte.

Innovationen i Stochastic Gradient Descent er, at det opdaterer modellens parametre på hver trænings-eksempel per iteration, hvilket generelt accelererer rejsen til konvergens. På grund af opkomsten af hyperskala-datasets i de seneste år er SGD vokset i popularitet for nylig som en mulig metode til at tackle de efterfølgende logistiske problemer.

På den anden side har SGD negative implikationer for funktionsskala, og kan kræve flere iterationer for at opnå det samme resultat, og kræver yderligere planlægning og yderligere parametre i forhold til almindelig Gradient Descent.

Populær Brug

På grund af dets konfigurerbarhed, og på trods af dets mangler, er SGD blevet den mest populære optimerings-algoritme til at tilpasse neurale netværk. En konfiguration af SGD, der bliver mere dominerende i nye AI/ML-forskningsartikler, er valget af Adaptive Moment Estimation (ADAM, introduceret i 2015) optimizer.

ADAM tilpasser lærings-raten for hver parameter dynamisk (‘adaptiv læringsrate’), samt inkorporerer resultater fra tidligere opdateringer i den efterfølgende konfiguration (‘momentum’). Desuden kan det konfigureres til at bruge senere innovationer, såsom Nesterov Momentum.

Men nogle mener, at brugen af momentum også kan accelerere ADAM (og lignende algoritmer) til en underoptimal konklusion. Som med det meste af den blødende kant af maskinlærings-forskningssektoren er SGD et arbejde i gang.

 

Først udgivet 10. februar 2022. Ændret 10. februar 20.05 EET – formatering.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.