BĂ€st Av
10 bÀsta maskininlÀrningsalgoritmer
Ăven om vi lever i en tid av extraordinĂ€r innovation inom GPU-accelererad maskininlĂ€rning, innehĂ„ller de senaste forskningsrapporterna ofta (och framtrĂ€dande) algoritmer som Ă€r Ă„rtionden, i vissa fall 70 Ă„r gamla.
Vissa kanske menar att mÄnga av dessa Àldre metoder snarare faller inom kategorin "statistisk analys" Àn maskininlÀrning, och föredrar att datera sektorns tillkomst tillbaka till endast 1957, med uppfinning av Perceptron.
Med tanke pÄ i vilken utstrÀckning dessa Àldre algoritmer stöder och Àr integrerade i de senaste trenderna och uppmÀrksammade utvecklingarna inom maskininlÀrning, Àr det en omtvistad stÄndpunkt. SÄ lÄt oss ta en titt pÄ nÄgra av de "klassiska" byggstenarna som ligger till grund för de senaste innovationerna, sÄvÀl som nÄgra nyare aktörer som gör ett tidigt försök att bli en del av AI:s Hall of Fame.
1: Transformatorer
2017 ledde Google Research ett forskningssamarbete som kulminerade i papper UppmÀrksamhet Àr allt du behöver. Verket skisserade en ny arkitektur som frÀmjade uppmÀrksamhetsmekanismer frÄn "piping" i kodare/avkodare och Äterkommande nÀtverksmodeller till en central transformerande teknologi i sig sjÀlv.
TillvÀgagÄngssÀttet dubbades Transformator, och har sedan dess blivit en revolutionerande metod inom Natural Language Processing (NLP), som driver, bland mÄnga andra exempel, den autoregressiva sprÄkmodellen och AI-poster-barn GPT-3.

Transformatorer löste elegant problemet med sekvenstransduktion, Àven kallad 'transformation', som sysslar med bearbetning av ingÄngssekvenser till utgÄngssekvenser. En transformator tar ocksÄ emot och hanterar data kontinuerligt, snarare Àn i sekventiella batcher, vilket möjliggör en 'persistens av minne' som RNN-arkitekturer inte Àr utformade för att uppnÄ. För en mer detaljerad översikt över transformatorer, ta en titt pÄ vÄr referensartikel.
I motsats till de Äterkommande neurala nÀtverken (RNN) som hade börjat dominera ML-forskningen under CUDA-eran, kunde transformatorarkitektur ocksÄ vara lÀtt parallelliserad, vilket öppnar vÀgen för att produktivt adressera en mycket större mÀngd data Àn RNN.
PopulÀr anvÀndning
Transformers fÄngade allmÀnhetens fantasi 2020 med lanseringen av OpenAI:s GPT-3, som dÄ skröt om en rekordbrytande ... 175 miljarder parametrar. Denna uppenbarligen hÀpnadsvÀckande prestation överskuggades sÄ smÄningom av senare projekt, sÄsom 2021 frigöra av Microsofts Megatron-Turing NLG 530B, som (som namnet antyder) har över 530 miljarder parametrar.

En tidslinje av hyperscale Transformer NLP-projekt. KĂ€lla: Microsoft
Transformatorarkitektur har ocksĂ„ gĂ„tt över frĂ„n NLP till datorseende, vilket driver en ny generation av bildsyntesramverk som OpenAI:s KLĂMMA och DALL-E, som anvĂ€nder text>image domĂ€nmappning för att avsluta ofullstĂ€ndiga bilder och syntetisera nya bilder frĂ„n utbildade domĂ€ner, bland ett vĂ€xande antal relaterade applikationer.

DALL-E försöker fÀrdigstÀlla en delbild av en byst av Platon. KÀlla: https://openai.com/blog/dall-e/
2: Generative Adversarial Networks (GAN)
Ăven om transformatorer har fĂ„tt extraordinĂ€r mediebevakning genom lanseringen och adoptionen av GPT-3 Generativt Adversarial Network (GAN) har blivit ett igenkĂ€nnligt varumĂ€rke i sin egen rĂ€tt och kan sĂ„ smĂ„ningom gĂ„ med deepfake som ett verb.
Föreslog först i 2014 och anvÀnds frÀmst för bildsyntes, ett Generative Adversarial Network arkitektur bestÄr av en Generator och en DiskriminatorGeneratorn gÄr igenom tusentals bilder i en datauppsÀttning och försöker iterativt rekonstruera dem. För varje försök betygsÀtter diskriminatorn generatorns arbete och skickar tillbaka generatorn för att göra bÀttre ifrÄn sig, men utan nÄgon insikt i hur den tidigare rekonstruktionen gjorde fel.

KĂ€lla: https://developers.google.com/machine-learning/gan/gan_structure
Detta tvingar Generatorn att utforska en mÄngfald av vÀgar, istÀllet för att följa de potentiella ÄtervÀndsgrÀnderna som skulle ha uppstÄtt om Diskriminatorn hade berÀttat var det gick fel (se #8 nedan). NÀr trÀningen Àr över har Generatorn en detaljerad och heltÀckande karta över relationer mellan punkter i datamÀngden.

FrÄn tidningen FörbÀttra GAN-jÀmvikten genom att höja rumslig medvetenhet: ett nytt ramverk cirkulerar genom det ibland mystiska latenta utrymmet i ett GAN, vilket ger responsiv instrumentalitet för en bildsyntesarkitektur. KÀlla: https://genforce.github.io/eqgan/
I analogi Àr detta skillnaden mellan att lÀra sig en enkel pendling till centrala London, eller att noggrant skaffa Kunskapen.
Resultatet Àr en samling av egenskaper pÄ hög nivÄ i den trÀnade modellens latenta utrymme. Den semantiska indikatorn för en egenskap pÄ hög nivÄ kan vara "person", medan en nedgÄng genom specificitet relaterad till egenskapen kan avslöja andra inlÀrda egenskaper, sÄsom "man" och "kvinna". PÄ lÀgre nivÄer kan underegenskaperna delas upp i "blond", "kaukasisk" etc.
Förveckling Àr en anmÀrkningsvÀrd frÄga i det latenta rummet av GAN och kodar-/avkodarramverk: Àr leendet pÄ ett GAN-genererat kvinnligt ansikte ett intrasslat drag av hennes "identitet" i det latenta rummet, eller Àr det en parallell gren?

GAN-genererade ansikten frÄn denna person existerar inte. KÀlla: https://this-person-does-not-exist.com/en
De senaste Ären har ett vÀxande antal nya forskningsinitiativ i detta avseende lett till, vilket kanske banar vÀg för redigering pÄ funktionsnivÄ i Photoshop-stil för det latenta utrymmet i ett GAN, men för nÀrvarande Àr mÄnga transformationer i praktiken "allt eller inget"-paket. NVIDIAs EditGAN-utgÄva i slutet av 2021 uppnÄr en hög grad av tolkningsbarhet i det latenta utrymmet genom att anvÀnda semantiska segmenteringsmasker.
PopulÀr anvÀndning
Förutom deras (faktiskt ganska begrÀnsade) engagemang i populÀra deepfake-videor, har bild-/videocentrerade GAN:er ökat under de senaste fyra Ären, och fÀngslat bÄde forskare och allmÀnheten. Att hÄlla jÀmna steg med den svindlande takten och frekvensen av nya utgÄvor Àr en utmaning, Àven om GitHub-förvaret Fantastiska GAN-applikationer syftar till att ge en heltÀckande lista.
Generativa kontradiktoriska nÀtverk kan i teorin hÀrleda egenskaper frÄn vilken vÀl inramad domÀn som helst, inklusive text.
3: SVM
ursprung i 1963, Stöd Vector Machine (SVM) Àr en kÀrnalgoritm som dyker upp ofta i ny forskning. Under SVM kartlÀgger vektorer den relativa dispositionen av datapunkter i en datamÀngd, medan stödja vektorer avgrÀnsar grÀnserna mellan olika grupper, egenskaper eller egenskaper.

Stödvektorer definierar grÀnserna mellan grupper. KÀlla: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html
Den hÀrledda grÀnsen kallas a hyperplan.
PÄ lÄga funktionsnivÄer Àr SVM tvÄdimensionell (bilden ovan), men dÀr det finns ett högre erkÀnt antal grupper eller typer blir det tredimensionella.

En djupare samling av punkter och grupper krÀver en tredimensionell SVM. KÀlla: https://cml.rhul.ac.uk/svm.html
PopulÀr anvÀndning
Eftersom support Vector Machines effektivt och agnostiskt kan adressera högdimensionell data av mÄnga slag, dyker de upp brett inom en mÀngd olika maskininlÀrningssektorer, inklusive deepfake-detektering, bildklassificering, klassificering av hatretorik, DNA-analys och förutsÀgelse av befolkningsstruktur, bland mÄnga andra.
4: K-Means Clustering
Clustering i allmÀnhet Àr en oövervakat lÀrande tillvÀgagÄngssÀtt som försöker kategorisera datapunkter genom densitetsuppskattning, skapa en karta över fördelningen av data som studeras.

K-Betyder att gruppera gudomliga segment, grupper och gemenskaper i data. KĂ€lla: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/
K-Means Clustering har blivit den mest populÀra implementeringen av denna metod, genom att leda datapunkter till distinkta "K-grupper", vilket kan indikera demografiska sektorer, onlinecommunities eller nÄgon annan möjlig hemlig aggregering som vÀntar pÄ att upptÀckas i rÄdata.

Kluster bildas i K-Means-analys. KĂ€lla: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/
K-vÀrdet i sig Àr den avgörande faktorn för processens anvÀndbarhet och för att faststÀlla ett optimalt vÀrde för ett kluster. Inledningsvis tilldelas K-vÀrdet slumpmÀssigt och dess egenskaper och vektoregenskaper jÀmfört med dess grannar. De grannar som mest liknar datapunkten med det slumpmÀssigt tilldelade vÀrdet tilldelas dess kluster iterativt tills data har gett alla grupperingar som processen tillÄter.
Diagrammet för det kvadrerade felet, eller 'kostnaden', för olika vÀrden mellan klustren kommer att avslöja en armbÄgsspets för data:

"ArmbÄgspunkten" i ett klusterdiagram. KÀlla: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html
ArmbÄgspunkten liknar konceptet hur förlusten planar ut till minskande avkastning i slutet av ett trÀningspass för en datauppsÀttning. Det representerar den punkt dÄ inga ytterligare skillnader mellan grupper kommer att bli uppenbara, vilket indikerar tidpunkten för att gÄ vidare till efterföljande faser i datapipelinen, eller annars för att rapportera fynd.
PopulÀr anvÀndning
K-Means Clustering Àr, av uppenbara skÀl, en primÀr teknik inom kundanalys, eftersom den erbjuder en tydlig och förklarlig metod för att översÀtta stora mÀngder kommersiella register till demografiska insikter och "leads".
Utanför denna applikation anvÀnds Àven K-Means Clustering för jordskred förutsÀgelse, medicinsk bildsegmentering, bildsyntes med GAN, dokumentklassificeringoch stadsplanering, bland mÄnga andra potentiella och faktiska anvÀndningsomrÄden.
5: Random Forest
Random Forest Àr en ensembleinlÀrning metod som ger ett genomsnitt av resultatet frÄn en array av beslutstrÀd att upprÀtta en övergripande förutsÀgelse för resultatet.

KĂ€lla: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png
Om du har undersökt det sÄ lite som att titta pÄ Tillbaka till framtiden trilogin Àr ett beslutstrÀd i sig ganska lÀtt att konceptualisera: ett antal vÀgar ligger framför dig, och varje vÀg förgrenar sig till ett nytt resultat som i sin tur innehÄller ytterligare möjliga vÀgar.
In förstÀrkning lÀrande, kan du dra dig tillbaka frÄn en stig och börja om frÄn en tidigare hÄllning, medan beslutstrÀd förbinder sig till sina resor.
SÄledes Àr Random Forest-algoritmen i huvudsak spread-betting för beslut. Algoritmen kallas "slumpmÀssig" eftersom den gör ad hoc urval och observationer för att förstÄ median summan av resultaten frÄn beslutstrÀdsmatrisen.
Eftersom det tar hÀnsyn till en mÄngfald faktorer kan en Random Forest-metod vara svÄrare att omvandla till meningsfulla grafer Àn ett beslutstrÀd, men kommer sannolikt att vara betydligt mer produktivt.
BeslutstrÀd Àr benÀgna att överanpassa, vilket innebÀr att resultaten Àr dataspecifika och sannolikt inte generaliseras. Random Forests godtyckliga urval av datapunkter motverkar denna tendens och borrar sig fram till meningsfulla och anvÀndbara representativa trender i data.

Regression av beslutstrÀd. KÀlla: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html
PopulÀr anvÀndning
Precis som mÄnga av algoritmerna i den hÀr listan fungerar Random Forest vanligtvis som en "tidig" sorterare och filterare av data, och dyker dÀrför konsekvent upp i nya forskningsartiklar. NÄgra exempel pÄ anvÀndning av Random Forest inkluderar Magnetisk resonansbildsyntes, Bitcoin prisprognos, folkrÀkningssegmentering, textklassificering och upptÀckt av kreditkortsbedrÀgerier.
Eftersom Random Forest Àr en lÄgnivÄalgoritm i maskininlÀrningsarkitekturer kan den Àven bidra till prestanda för andra lÄgnivÄmetoder, samt visualiseringsalgoritmer, bl.a. Induktiv klustring, Funktionstransformationer, klassificering av textdokument anvÀnder glesa funktioneroch visar pipelines.
6: Naiv Bayes
Tillsammans med densitetsuppskattning (se 4, ovan), a naiva Bayes klassificerare Àr en kraftfull men relativt lÀtt algoritm som kan uppskatta sannolikheter baserat pÄ de berÀknade egenskaperna hos data.

Visa relationer i en naiv Bayes-klassificerare. KĂ€lla: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model
Termen "naiv" hÀnvisar till antagandet i Bayes sats att funktioner inte Àr relaterade, kÀnd som villkorligt oberoendeOm man intar denna stÄndpunkt rÀcker det inte att gÄ och prata som en anka för att faststÀlla att vi har att göra med en anka, och inga "uppenbara" antaganden antas i förtid.
Denna nivÄ av akademisk och undersökande stringens skulle vara överdriven dÀr "sunt förnuft" finns tillgÀngligt, men Àr en vÀrdefull standard nÀr man gÄr igenom de mÄnga oklarheter och potentiellt orelaterade korrelationer som kan finnas i en maskininlÀrningsdatauppsÀttning.
I ett original bayesiskt nÀtverk Àr funktioner föremÄl för poÀngfunktioner, inklusive minimal beskrivningslÀngd och Bayesiansk poÀng, vilket kan införa begrÀnsningar för data nÀr det gÀller de uppskattade kopplingarna som hittas mellan datapunkterna och i vilken riktning dessa förbindelser flyter.
En naiv Bayes-klassificerare, omvÀnt, fungerar genom att anta att egenskaperna hos ett givet objekt Àr oberoende, och sedan anvÀnda Bayes sats för att berÀkna sannolikheten för ett givet objekt, baserat pÄ dess egenskaper.
PopulÀr anvÀndning
Naiva Bayes-filter Àr vÀl representerade i sjukdomsförutsÀgelse och dokumentkategorisering, skrÀppostfiltrering, sentimentklassificering, rekommendatorsystemoch spÄrning av bedrÀgerierbland andra applikationer.
7: K- Nearest Neighbors (KNN)
Först föreslogs av US Air Force School of Aviation Medicine i 1951, och mÄste anpassa sig till det senaste inom datorhÄrdvara frÄn mitten av 20-talet, K-nÀrmaste grannar (KNN) Àr en slank algoritm som fortfarande har en framtrÀdande plats i akademiska artiklar och forskningsinitiativ för maskininlÀrning inom den privata sektorn.
KNN har kallats "den lata eleven", eftersom den uttömmande skannar en datamÀngd för att utvÀrdera sambanden mellan datapunkter, snarare Àn att krÀva trÀning av en fullfjÀdrad maskininlÀrningsmodell.

En KNN-gruppering. KĂ€lla: https://scikit-learn.org/stable/modules/neighbors.html
Ăven om KNN Ă€r arkitektoniskt smal, stĂ€ller dess systematiska tillvĂ€gagĂ„ngssĂ€tt ett anmĂ€rkningsvĂ€rt krav pĂ„ lĂ€s-/skrivoperationer, och dess anvĂ€ndning i mycket stora datamĂ€ngder kan vara problematisk utan tillĂ€ggsteknologier som Principal Component Analysis (PCA), som kan transformera komplexa och stora datamĂ€ngder. in i representativa grupperingar att KNN kan korsa med mindre anstrĂ€ngning.
A fÀrsk studie utvÀrderade effektiviteten och ekonomin hos ett antal algoritmer med uppgift att förutsÀga om en anstÀlld kommer att lÀmna ett företag, och fann att den sjuÄriga KNN förblev överlÀgsen mer moderna utmanare nÀr det gÀller noggrannhet och prediktiv effektivitet.
PopulÀr anvÀndning
Trots all sin populĂ€ra enkelhet i koncept och utförande Ă€r KNN inte fast i 1950-talet â det har anpassats till ett mer DNN-fokuserat tillvĂ€gagĂ„ngssĂ€tt i ett förslag frĂ„n 2018 frĂ„n Pennsylvania State University, och förblir en central process i tidigt skede (eller analytiskt verktyg efter bearbetning) i mĂ„nga mycket mer komplexa ramverk för maskininlĂ€rning.
I olika konfigurationer har KNN anvÀnts eller för signaturverifiering online, bildklassificering, textbrytning, förutsÀgelse av skördoch ansiktsigenkÀnning, förutom andra tillÀmpningar och införlivningar.

Ett KNN-baserat ansiktsigenkÀnningssystem under trÀning. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf
8: Markov Decision Process (MDP)
Ett matematiskt ramverk introducerat av den amerikanske matematikern Richard Bellman i 1957, Markov Decision Process (MDP) Àr en av de mest grundlÀggande blocken av förstÀrkning lÀrande arkitekturer. En konceptuell algoritm i sin egen rÀtt, den har anpassats till ett stort antal andra algoritmer och Äterkommer ofta i den nuvarande skörden av AI/ML-forskning.
MDP utforskar en datamiljö genom att anvÀnda sin utvÀrdering av dess nuvarande tillstÄnd (dvs. "var" den befinner sig i data) för att bestÀmma vilken nod i datan som ska utforskas hÀrnÀst.

KĂ€lla: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420
En grundlÀggande Markov-beslutsprocess kommer att prioritera kortsiktiga fördelar framför mer önskvÀrda lÄngsiktiga mÄl. Av denna anledning Àr det vanligtvis inbÀddat i en mer omfattande policyarkitektur inom förstÀrkt lÀrande, och Àr ofta föremÄl för begrÀnsande faktorer som rabatterad belöning och andra modifierande miljövariabler som kommer att hindra den frÄn att skynda till ett omedelbart mÄl utan hÀnsyn. av det bredare önskade resultatet.
PopulÀr anvÀndning
MDP:s lÄgnivÄkoncept Àr utbrett inom bÄde forskning och aktiva implementeringar av maskininlÀrning. Det har föreslagits för IoT sÀkerhetsförsvarssystem, skörd av fiskoch marknadsprognoser.
Förutom dess uppenbar tillÀmplighet till schack och andra strikt sekventiella spel Àr MDP ocksÄ en naturlig utmanare för procedurutbildning av robotsystem, som vi kan se i videon nedan.
9: Term Frequency-Invers Document Frequency
Term Frequency (TF) dividerar antalet gÄnger ett ord förekommer i ett dokument med det totala antalet ord i det dokumentet. AlltsÄ ordet försegla som förekommer en gÄng i en tusenordsartikel har en termfrekvens pÄ 0.001. I och för sig Àr TF i stort sett vÀrdelös som en indikator pÄ termens betydelse, pÄ grund av att meningslösa artiklar (t.ex. a, och, doch it) dominerar.
För att fÄ ett meningsfullt vÀrde för en term, berÀknar Inverse Document Frequency (IDF) TF för ett ord över flera dokument i en datamÀngd, vilket ger lÄgt betyg till mycket hög frekvens stoppord, sÄsom artiklar. De resulterande egenskapsvektorerna normaliseras till hela vÀrden, med varje ord tilldelad en lÀmplig vikt.

TF-IDF vÀger relevansen av termer baserat pÄ frekvens i ett antal dokument, med sÀllsynta förekomst en indikator pÄ framtrÀdande. KÀlla: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness
Ăven om detta tillvĂ€gagĂ„ngssĂ€tt förhindrar semantiskt viktiga ord frĂ„n att gĂ„ förlorade outliers, invertering av frekvensvikten betyder inte automatiskt att en lĂ„gfrekvent term Ă€r det inte en outlier, eftersom vissa saker Ă€r sĂ€llsynta och vĂ€rdelös. DĂ€rför kommer en lĂ„gfrekvent term att behöva bevisa sitt vĂ€rde i det bredare arkitektoniska sammanhanget genom att presentera (Ă€ven med en lĂ„g frekvens per dokument) i ett antal dokument i datamĂ€ngden.
Trots det Älder, TF-IDF Àr en kraftfull och populÀr metod för initiala filtreringspass i Natural Language Processing-ramverk.
PopulÀr anvÀndning
Eftersom TF-IDF har spelat Ätminstone en viss roll i utvecklingen av Googles till stor del hemliga PageRank-algoritm under de senaste tjugo Ären, har den blivit mycket allmÀnt antagen som en manipulativ SEO-taktik, trots John Muellers 2019 förnekande om dess betydelse för sökresultaten.
PÄ grund av sekretessen kring PageRank finns det inga tydliga bevis för att TF-IDF Àr det inte för nÀrvarande en effektiv taktik för att stiga i Googles ranking. Brandfarlig diskussion bland IT-proffs pÄ senare tid indikerar en populÀr förstÄelse, korrekt eller inte, att termmissbruk fortfarande kan resultera i förbÀttrad SEO-placering (Àven om ytterligare anklagelser om monopolmissbruk och överdriven reklam sudda ut grÀnserna för denna teori).
10: Stokastisk Gradient Descent
Stokastisk Gradient Descent (SGD) Àr en alltmer populÀr metod för att optimera utbildningen av maskininlÀrningsmodeller.
Gradient Descent i sig Àr en metod för att optimera och dÀrefter kvantifiera den förbÀttring som en modell gör under trÀning.
I den hÀr bemÀrkelsen indikerar "gradient" en nedÄtgÄende lutning (snarare Àn en fÀrgbaserad gradering, se bilden nedan), dÀr den högsta punkten pÄ "kullen", till vÀnster, representerar början pÄ trÀningsprocessen. I detta skede har modellen Ànnu inte sett hela datan ens en gÄng, och har inte lÀrt sig tillrÀckligt om relationerna mellan datan för att producera effektiva transformationer.

En lutning nedstigning pÄ ett FaceSwap-trÀningspass. Vi kan se att trÀningen har platÄerat ett tag i andra halvlek, men har sÄ smÄningom ÄterhÀmtat sig nerför lutning mot en acceptabel konvergens.
Den lÀgsta punkten, till höger, representerar konvergens (den punkt dÀr modellen Àr lika effektiv som den nÄgonsin kommer att hamna under de pÄlagda begrÀnsningarna och instÀllningarna).
Gradienten fungerar som en post och prediktor för skillnaden mellan felfrekvensen (hur exakt modellen för nÀrvarande har kartlagt datarelationerna) och vikterna (instÀllningarna som pÄverkar hur modellen kommer att lÀra sig).
Denna registrering av framsteg kan anvÀndas för att informera en schema för inlÀrningstakt, en automatisk process som sÀger Ät arkitekturen att bli mer detaljerad och exakt nÀr de tidiga vaga detaljerna förvandlas till tydliga relationer och kartlÀggningar. I sjÀlva verket ger gradientförlust en just-in-time-karta över vart trÀningen ska gÄ hÀrnÀst och hur den ska fortsÀtta.
Innovationen med Stochastic Gradient Descent Àr att den uppdaterar modellens parametrar för varje trÀningsexempel per iteration, vilket generellt sett pÄskyndar resan mot konvergens. PÄ grund av tillkomsten av hyperskaliga datamÀngder under senare Är har SGD ökat i popularitet pÄ senare tid som en möjlig metod för att hantera de efterföljande logistiska problemen.
à andra sidan har SGD negativa konsekvenser för funktionsskalning, och kan krÀva fler iterationer för att uppnÄ samma resultat, vilket krÀver ytterligare planering och ytterligare parametrar, jÀmfört med vanlig Gradient Descent.
PopulÀr anvÀndning
PÄ grund av dess konfigurerbarhet, och trots dess brister, har SGD blivit den mest populÀra optimeringsalgoritmen för att passa neurala nÀtverk. En konfiguration av SGD som blir dominerande i nya AI/ML-forskningsartiklar Àr valet av Adaptive Moment Estimation (ADAM, introducerad i 2015) optimerare.
ADAM anpassar inlÀrningshastigheten för varje parameter dynamiskt ("adaptiv inlÀrningshastighet") och införlivar resultat frÄn tidigare uppdateringar i den efterföljande konfigurationen ("momentum"). Dessutom kan den konfigureras för att anvÀnda senare innovationer, sÄsom Nesterov Momentum.
Vissa hÀvdar dock att anvÀndningen av momentum ocksÄ kan pÄskynda ADAM (och liknande algoritmer) till en suboptimal slutsats. Som med det mesta av spetsen inom maskininlÀrningsforskningssektorn Àr SGD ett pÄgÄende arbete.
Första gĂ„ngen publicerad 10 februari 2022. Ăndrad 10 februari 20.05 EET â formatering.










