Conectează-te cu noi

Best Of

10 cei mai buni algoritmi de învățare automată

mm

Deși trăim printr-o perioadă de inovație extraordinară în învățarea automată accelerată de GPU, cele mai recente lucrări de cercetare prezintă frecvent (și proeminent) algoritmi care au zeci de ani, în anumite cazuri 70 de ani.

Unii ar putea susține că multe dintre aceste metode mai vechi se încadrează în tabăra „analizei statistice” mai degrabă decât a învățării automate și preferă să datați apariția sectorului abia în 1957, cu invenția Perceptronului.

Având în vedere măsura în care acești algoritmi mai vechi susțin și sunt implicați în cele mai recente tendințe și evoluții captivante în domeniul învățării automate, este o poziție contestabilă. Așa că haideți să aruncăm o privire la unele dintre elementele „clasice” care stau la baza celor mai recente inovații, precum și la unele intrări mai noi care fac o ofertă timpurie pentru sala faimei AI.

1: Transformatoare

În 2017, Google Research a condus o colaborare de cercetare care a culminat cu hârtie Atenția este tot ce aveți nevoie. Lucrarea a conturat o arhitectură nouă care a promovat mecanisme de atenție de la „conducte” în codificator/decodor și modele de rețea recurente la o tehnologie centrală de transformare în sine.

Abordarea a fost dublată Transformator, și de atunci a devenit o metodologie revoluționară în procesarea limbajului natural (NLP), alimentând, printre multe alte exemple, modelul de limbaj autoregresiv și AI poster-copil GPT-3.

Transformatoarele au rezolvat elegant problema transducția secvenței, numită și „transformare”, care este ocupată cu procesarea secvențelor de intrare în secvențe de ieșire. De asemenea, un transformator primește și gestionează datele într-o manieră continuă, mai degrabă decât în ​​loturi secvențiale, permițând o „persistență a memoriei” pe care arhitecturile RNN nu sunt proiectate să o obțină. Pentru o prezentare mai detaliată a transformatoarelor, aruncați o privire la articolul nostru de referință.

Spre deosebire de rețelele neuronale recurente (RNNs) care începuseră să domine cercetarea ML în era CUDA, arhitectura Transformer ar putea fi, de asemenea, ușor. paralelizate, deschizând calea pentru a aborda în mod productiv un corp de date mult mai mare decât RNN-urile.

Utilizare populară

Transformers au captat imaginația publicului în 2020 odată cu lansarea GPT-3 de la OpenAI, care se lăuda cu un record de atunci. 175 miliarde de parametri. Această realizare aparent uluitoare a fost în cele din urmă umbrită de proiecte ulterioare, cum ar fi 2021 eliberaţi Megatron-Turing NLG 530B de la Microsoft, care (după cum sugerează și numele) are peste 530 de miliarde de parametri.

O cronologie a proiectelor hiperscale Transformer NLP. Sursa: Microsoft

O cronologie a proiectelor hiperscale Transformer NLP. Sursa: Microsoft

Arhitectura transformatoare a trecut, de asemenea, de la NLP la viziunea computerizată, alimentând a generație nouă a cadrelor de sinteză a imaginilor, cum ar fi OpenAI CLIP și DALĂ, care utilizează maparea domeniului text>imagine pentru a termina imaginile incomplete și a sintetiza imagini noi din domenii antrenate, printre un număr tot mai mare de aplicații conexe.

DALL-E încearcă să completeze o imagine parțială a unui bust al lui Platon. Sursa: https://openai.com/blog/dall-e/

DALL-E încearcă să completeze o imagine parțială a unui bust al lui Platon. Sursa: https://openai.com/blog/dall-e/

2: Rețele generative adversare (GAN)

Deși transformatoarele au câștigat o acoperire mediatică extraordinară prin lansarea și adoptarea GPT-3, Rețea Adversarială Generativă (GAN) a devenit o marcă recunoscută în sine și s-ar putea să se alăture în cele din urmă deepfake ca verb.

Primul propus în 2014 și folosit în principal pentru sinteza imaginilor, o rețea generativă adversară arhitectură este compus dintr-un Generator și Discriminator. Generatorul parcurge mii de imagini dintr-un set de date, încercând iterativ să le reconstruiască. Pentru fiecare încercare, Discriminatorul evaluează munca Generatorului și îl trimite înapoi pentru a face mai bine, dar fără nicio perspectivă asupra modului în care a greșit reconstrucția anterioară.

Sursa: https://developers.google.com/machine-learning/gan/gan_structure

Sursa: https://developers.google.com/machine-learning/gan/gan_structure

Acest lucru forțează Generatorul să exploreze o multitudine de căi, în loc să urmeze potențialele alei oarbe care ar fi rezultat dacă Discriminatorul i-ar fi spus unde merge greșit (vezi #8 de mai jos). Până la terminarea antrenamentului, Generatorul are o hartă detaliată și cuprinzătoare a relațiilor dintre punctele din setul de date.

Un extras din videoclipul însoțitor al cercetătorilor (vezi încorporarea la sfârșitul articolului). Rețineți că utilizatorul manipulează transformările cu un cursor de „prindere” (stânga sus). Sursa: https://www.youtube.com/watch?v=k7sG4XY5rIc

Din hârtie Îmbunătățirea echilibrului GAN prin creșterea conștientizării spațiale: un nou cadru circulă prin spațiul latent uneori misterios al unui GAN, oferind instrumente receptive pentru o arhitectură de sinteză a imaginii. Sursa: https://genforce.github.io/eqgan/

Prin analogie, aceasta este diferența dintre a învăța o singură navetă banală până în centrul Londrei sau a dobândi minuțios Cunostinta.

Rezultatul este o colecție la nivel înalt de caracteristici în spațiul latent al modelului antrenat. Indicatorul semantic pentru o trăsătură de nivel înalt ar putea fi „persoană”, în timp ce o descendență prin specificitate legată de caracteristică poate dezvălui alte caracteristici învățate, cum ar fi „mascul” și „feminin”. La niveluri inferioare, sub-caracteristicile se pot descompune în „blond”, „caucazian”, etc.

Încurcarea este o problemă notabilă în spațiul latent al GAN-urilor și al cadrelor codificatoare/decodificatoare: este zâmbetul de pe fața feminină generată de GAN o trăsătură încurcată a „identității” ei în spațiul latent sau este o ramură paralelă?

Fețele generate de GAN de la această persoană nu există. Sursa: https://this-person-does-not-exist.com/en

Fețele generate de GAN de la această persoană nu există. Sursa: https://this-person-does-not-exist.com/en

Ultimii câțiva ani au adus la iveală un număr tot mai mare de noi inițiative de cercetare în acest sens, deschizând probabil calea pentru editarea la nivel de caracteristică, în stil Photoshop pentru spațiul latent al unui GAN, dar în prezent, multe transformări sunt efective. toate sau nimic' pachete. În special, lansarea EditGAN de la NVIDIA de la sfârșitul anului 2021 atinge un nivel ridicat de interpretabilitate în spaţiul latent prin folosirea măştilor de segmentare semantică.

Utilizare populară

Pe lângă implicarea lor (de fapt destul de limitată) în videoclipurile deepfake populare, GAN-urile centrate pe imagini/video au proliferat în ultimii patru ani, captivând cercetătorii și publicul deopotrivă. A ține pasul cu rata și frecvența amețitoare a noilor versiuni este o provocare, deși depozitul GitHub Aplicații GAN minunate își propune să ofere o listă cuprinzătoare.

Rețelele adversare generative pot, în teorie, să obțină caracteristici din orice domeniu bine încadrat, inclusiv text.

3: SVM

provenit în 1963, Suport Vector Machine (SVM) este un algoritm de bază care apare frecvent în noile cercetări. Sub SVM, vectorii mapează dispoziția relativă a punctelor de date dintr-un set de date, în timp ce a sustine vectorii delimitează granițele dintre diferite grupuri, caracteristici sau trăsături.

Vectorii suport definesc granițele dintre grupuri. Sursa: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Vectorii suport definesc granițele dintre grupuri. Sursa: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Limita derivată se numește a hiperplan.

La niveluri scăzute de caracteristici, SVM-ul este bidimensională (imaginea de mai sus), dar acolo unde există un număr recunoscut mai mare de grupuri sau tipuri, devine tri-dimensională.

O gamă mai profundă de puncte și grupuri necesită un SVM tridimensional. Sursa: https://cml.rhul.ac.uk/svm.html

O gamă mai profundă de puncte și grupuri necesită un SVM tridimensional. Sursa: https://cml.rhul.ac.uk/svm.html

Utilizare populară

Deoarece suportul Vector Machines poate aborda în mod eficient și agnostic date cu dimensiuni mari de multe tipuri, acestea apar pe scară largă într-o varietate de sectoare de învățare automată, inclusiv detectarea deepfake, clasificarea imaginii, clasificarea discursului instigator la ură, Analiză ADN și predicția structurii populației, Printre multe altele.

4: K-Means Clustering

Clustering-ul în general este o învățare nesupravegheată abordare care urmărește să clasifice punctele de date prin estimarea densității, creând o hartă a distribuției datelor studiate.

K-Inseamnă gruparea segmentelor, grupurilor și comunităților divine în date. Sursa: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Inseamnă gruparea segmentelor, grupurilor și comunităților divine în date. Sursa: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-înseamnă grupare a devenit cea mai populară implementare a acestei abordări, găzduind punctele de date în „grupuri K” distinctive, care pot indica sectoare demografice, comunități online sau orice altă posibilă agregare secretă care așteaptă să fie descoperită în datele statistice brute.

Clusterele se formează în analiza K-Means. Sursa: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Clusterele se formează în analiza K-Means. Sursa: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Valoarea K în sine este factorul determinant în utilitatea procesului și în stabilirea unei valori optime pentru un cluster. Inițial, valoarea K este atribuită aleatoriu, iar caracteristicile sale și caracteristicile vectoriale sunt comparate cu vecinii săi. Acei vecini care seamănă cel mai mult cu punctul de date cu valoarea atribuită aleatoriu sunt alocați clusterului său în mod iterativ până când datele au dat toate grupările pe care procesul le permite.

Graficul pentru eroarea pătrată sau „costul” valorilor diferite între grupuri va dezvălui o vârful cotului pentru date:

„Punctul cot” într-un grafic de grup. Sursa: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

„Punctul cot” într-un grafic de grup. Sursa: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Punctul cot este similar în concept cu modul în care pierderea se aplatizează la randamente descrescătoare la sfârșitul unei sesiuni de antrenament pentru un set de date. Reprezintă punctul în care nu va deveni evidentă nicio altă distincție între grupuri, indicând momentul de a trece la fazele ulterioare ale canalului de date sau de a raporta constatările.

Utilizare populară

K-Means Clustering, din motive evidente, este o tehnologie principală în analiza clienților, deoarece oferă o metodologie clară și explicabilă pentru a traduce cantități mari de înregistrări comerciale în perspective demografice și „clienți potențiali”.

În afara acestei aplicații, K-Means Clustering este, de asemenea, folosit pentru previziunea alunecării de teren, segmentarea imaginii medicale, sinteza de imagini cu GAN-uri, clasificarea documentelor și Urbanism, printre multe alte utilizări potențiale și reale.

5: Pădurea aleatorie

Random Forest este un învățarea ansamblului metodă care face media rezultatului dintr-o matrice de copaci de decizie pentru a stabili o predicție generală a rezultatului.

Sursa: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Sursa: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Dacă l-ai cercetat chiar și la fel de puțin ca să urmărești Înapoi în viitor trilogie, un arbore de decizie în sine este destul de ușor de conceptualizat: o serie de căi se află în fața ta și fiecare cale se ramifică către un nou rezultat care, la rândul său, conține alte căi posibile.

In Consolidarea învățării, s-ar putea să vă retrageți dintr-o cale și să începeți din nou dintr-o poziție anterioară, în timp ce arborii de decizie se angajează în călătoriile lor.

Astfel, algoritmul Random Forest este în esență spread-betting pentru decizii. Algoritmul se numește „aleatoriu” pentru că face ad-hoc selecţii şi observaţii pentru a înţelege mediană suma rezultatelor din tabloul arborelui de decizie.

Deoarece ia în considerare o multitudine de factori, o abordare Random Forest poate fi mai dificil de convertit în grafice semnificative decât un arbore de decizie, dar este probabil să fie mult mai productivă.

Arborii de decizie sunt supuși supraajustării, în cazul în care rezultatele obținute sunt specifice datelor și nu sunt susceptibile de a se generaliza. Selectarea arbitrară a punctelor de date de către Random Forest combate această tendință, analizând tendințele reprezentative semnificative și utile în date.

Regresia arborelui de decizie. Sursa: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Regresia arborelui de decizie. Sursa: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Utilizare populară

Ca și în cazul multor algoritmi din această listă, Random Forest funcționează de obicei ca un sortator și un filtru de date „precoce” și, ca atare, apare constant în noile lucrări de cercetare. Câteva exemple de utilizare aleatorie a pădurii includ Sinteza imaginii prin rezonanță magnetică, Predicția prețurilor Bitcoin, segmentarea recensământului, clasificarea textului și detectarea fraudei cu cardul de credit.

Deoarece Random Forest este un algoritm de nivel scăzut în arhitecturile de învățare automată, poate contribui, de asemenea, la performanța altor metode de nivel scăzut, precum și la algoritmi de vizualizare, inclusiv Clustering inductiv, Transformări caracteristice, clasificarea documentelor text folosind caracteristici rare și afișarea Conductelor.

6: Bayes naiv

Cuplat cu estimarea densității (vezi 4, mai sus), a Bayes naiv clasificatorul este un algoritm puternic, dar relativ ușor, capabil să estimeze probabilitățile pe baza caracteristicilor calculate ale datelor.

Relații de caracteristici într-un clasificator Bayes naiv. Sursa: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Relații de caracteristici într-un clasificator Bayes naiv. Sursa: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Termenul „naiv” se referă la presupunerea în teorema lui Bayes că caracteristicile nu au legătură, cunoscute ca independență condiționată. Dacă adoptați acest punct de vedere, mersul și vorbitul ca o rață nu sunt suficiente pentru a stabili că avem de-a face cu o rață și nicio presupunere „evidentă” nu este adoptată prematur.

Acest nivel de rigoare academică și investigativă ar fi exagerat acolo unde „bunul simț” este disponibil, dar este un standard valoros atunci când traversăm numeroasele ambiguități și corelațiile potențial fără legătură care pot exista într-un set de date de învățare automată.

Într-o rețea bayesiană originală, caracteristicile sunt supuse funcții de punctare, inclusiv lungimea minimă a descrierii și Scorul bayesian, care poate impune restricții asupra datelor în ceea ce privește conexiunile estimate găsite între punctele de date și direcția în care curg aceste conexiuni.

Un clasificator Bayes naiv, invers, operează presupunând că caracteristicile unui obiect dat sunt independente, folosind ulterior teorema lui Bayes pentru a calcula probabilitatea unui obiect dat, pe baza caracteristicilor sale.

Utilizare populară

Filtrele naive Bayes sunt bine reprezentate în predicția bolii și clasificarea documentelor, filtrare spam, clasificarea sentimentelor, sisteme de recomandare și detectarea fraudei, printre alte aplicații.

7: K- Cei mai apropiați vecini (KNN)

Propus pentru prima dată de Școala de Medicină Aeriană a Forțelor Aeriene din SUA în 1951și trebuind să se acomodeze cu hardware-ul de calcul de ultimă generație, de la mijlocul secolului al XX-lea, K-Cei mai apropiati vecini (KNN) este un algoritm lean care continuă să fie proeminent în lucrările academice și în inițiativele de cercetare în domeniul învățării automate din sectorul privat.

KNN a fost numit „leneșul care învață”, deoarece scanează exhaustiv un set de date pentru a evalua relațiile dintre punctele de date, mai degrabă decât să necesite formarea unui model de învățare automată cu drepturi depline.

O grupare KNN. Sursa: https://scikit-learn.org/stable/modules/neighbors.html

O grupare KNN. Sursă: https://scikit-learn.org/stable/modules/neighbors.html

Deși KNN este subțire din punct de vedere arhitectural, abordarea sa sistematică impune o cerere notabilă pentru operațiunile de citire/scriere, iar utilizarea sa în seturi de date foarte mari poate fi problematică fără tehnologii adjuvante, cum ar fi Analiza componentelor principale (PCA), care poate transforma seturi de date complexe și de volum mare. în grupări reprezentative pe care KNN îl poate traversa cu mai puțin efort.

A studiu recent a evaluat eficacitatea și economia unui număr de algoritmi însărcinați să prezică dacă un angajat va părăsi o companie, constatând că septuagenarul KNN a rămas superior concurenților mai moderni în ceea ce privește acuratețea și eficiența predictivă.

Utilizare populară

Cu toată simplitatea sa populară de concept și execuție, KNN nu este blocat în anii 1950 – a fost adaptat în o abordare mai concentrată pe DNN într-o propunere din 2018 a Universității de Stat din Pennsylvania și rămâne un proces central în stadiu incipient (sau instrument analitic de post-procesare) în multe cadre de învățare automată mult mai complexe.

În diverse configurații, KNN a fost folosit sau pentru verificarea online a semnăturii, clasificarea imaginii, extragerea textului, predicția culturilor și recunoastere faciala, pe langa alte aplicatii si incorporari.

Un sistem de recunoaștere facială bazat pe KNN la antrenament. Sursa: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Un sistem de recunoaștere facială bazat pe KNN la antrenament. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Procesul de decizie Markov (MDP)

Un cadru matematic introdus de matematicianul american Richard Bellman în 1957, Procesul de decizie Markov (MDP) este unul dintre cele mai de bază blocuri ale Consolidarea învățării arhitecturi. Un algoritm conceptual în sine, a fost adaptat într-un număr mare de alți algoritmi și apare frecvent în cultura actuală a cercetării AI/ML.

MDP explorează un mediu de date utilizând evaluarea stării sale curente (adică „unde” se află în date) pentru a decide ce nod al datelor să exploreze în continuare.

Sursa: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Sursa: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Un proces de decizie Markov de bază va acorda prioritate avantajului pe termen scurt față de obiectivele pe termen lung mai dorite. Din acest motiv, este de obicei încorporat în contextul unei arhitecturi de politici mai cuprinzătoare în învățarea prin consolidare și este adesea supus unor factori limitatori, cum ar fi recompensa redusă și alte variabile de mediu modificatoare care îl vor împiedica să se grăbească către un obiectiv imediat fără luare în considerare. a rezultatului mai larg dorit.

Utilizare populară

Conceptul de nivel scăzut al MDP este larg răspândit atât în ​​cercetare, cât și în implementările active ale învățării automate. A fost propus pentru Sisteme de apărare a securității IoT, recoltarea peștelui și prognoza pietei.

Pe lângă ea aplicabilitate evidentă la șah și alte jocuri strict secvenţiale, MDP este, de asemenea, un candidat natural pentru instruirea procedurală a sistemelor robotice, așa cum putem vedea în videoclipul de mai jos.

Planificator global folosind un proces de decizie Markov - Robotică industrială mobilă

 

9: Frecvența termenului-Frecvența inversă a documentului

Frecvența termenului (TF) împarte de câte ori apare un cuvânt într-un document la numărul total de cuvinte din acel document. Astfel cuvântul sigila care apare o dată într-un articol de o mie de cuvinte are o frecvență de termen de 0.001. În sine, TF este în mare măsură inutil ca indicator al importanței termenului, datorită faptului că articolele fără sens (cum ar fi a, și, il și it) predomină.

Pentru a obține o valoare semnificativă pentru un termen, Inverse Document Frequency (IDF) calculează TF-ul unui cuvânt în mai multe documente dintr-un set de date, atribuind o evaluare scăzută frecvenței foarte înalte. cuvinte de oprire, cum ar fi articolele. Vectorii de caracteristici rezultați sunt normalizați la valori întregi, fiecărui cuvânt fiindu-i atribuită o pondere adecvată.

TF-IDF ponderează relevanța termenilor pe baza frecvenței într-un număr de documente, apariția mai rară fiind un indicator al importanței. Sursa: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

TF-IDF ponderează relevanța termenilor pe baza frecvenței într-un număr de documente, apariția mai rară fiind un indicator al importanței. Sursa: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Deși această abordare împiedică pierderea cuvintelor importante din punct de vedere semantic ca valorile extreme, inversarea greutății de frecvență nu înseamnă automat că un termen de frecvență joasă este nu un outlier, pentru că unele lucruri sunt rare și fără valoare. Prin urmare, un termen cu frecvență joasă va trebui să-și demonstreze valoarea în contextul arhitectural mai larg prin prezentarea (chiar și la o frecvență scăzută per document) într-un număr de documente din setul de date.

În ciuda ei vârstă, TF-IDF este o metodă puternică și populară pentru trecerile inițiale de filtrare în cadrele de procesare a limbajului natural.

Utilizare populară

Deoarece TF-IDF a jucat cel puțin un rol în dezvoltarea algoritmului PageRank al Google, în mare parte ocult, în ultimii douăzeci de ani, a devenit foarte larg adoptat ca o tactică SEO manipulativă, în ciuda 2019 a lui John Mueller respingere de importanța sa pentru rezultatele căutării.

Din cauza secretului din jurul PageRank, nu există dovezi clare că TF-IDF este nu în prezent, o tactică eficientă pentru creșterea în clasamentul Google. Incendiar discuţie în rândul profesioniștilor IT în ultima vreme indică o înțelegere populară, corectă sau nu, că abuzul de termeni poate avea ca rezultat o plasare SEO îmbunătățită (deși suplimentar acuzații de abuz de monopol și publicitate excesivă estompează limitele acestei teorii).

10: Coborâre Stochastic Gradient

Coborâre cu gradient stocastic (SGD) este o metodă din ce în ce mai populară pentru optimizarea antrenării modelelor de învățare automată.

Însuși Gradient Descent este o metodă de optimizare și, ulterior, de cuantificare a îmbunătățirii pe care o face un model în timpul antrenamentului.

În acest sens, „gradient” indică o pantă în jos (mai degrabă decât o gradație bazată pe culoare, vezi imaginea de mai jos), unde punctul cel mai înalt al „dealului”, din stânga, reprezintă începutul procesului de antrenament. În această etapă, modelul nu a văzut încă totalitatea datelor nici măcar o dată și nu a învățat suficient despre relațiile dintre date pentru a produce transformări eficiente.

O coborâre în gradient pe o sesiune de antrenament FaceSwap. Putem vedea că antrenamentul s-a stabilit de ceva timp în a doua jumătate, dar în cele din urmă și-a recuperat drumul în jos pe gradient către o convergență acceptabilă.

O coborâre în gradient pe o sesiune de antrenament FaceSwap. Putem vedea că antrenamentul s-a stabilit de ceva timp în a doua jumătate, dar în cele din urmă și-a recuperat drumul în jos pe gradient către o convergență acceptabilă.

Cel mai de jos punct, din dreapta, reprezintă convergența (punctul în care modelul este la fel de eficient pe cât va ajunge vreodată sub constrângerile și setările impuse).

Gradientul acționează ca o înregistrare și un predictor pentru disparitatea dintre rata de eroare (cât de precis modelul a mapat în prezent relațiile de date) și ponderi (setările care influențează modul în care modelul va învăța).

Această înregistrare a progresului poate fi folosită pentru a informa a programul ratei de învățare, un proces automat care spune arhitecturii să devină mai granulară și mai precisă pe măsură ce primele detalii vagi se transformă în relații și mapări clare. De fapt, pierderea gradientului oferă o hartă just-in-time a unde ar trebui să meargă următorul antrenament și cum ar trebui să continue.

Inovația Stochastic Gradient Descent este că actualizează parametrii modelului pentru fiecare exemplu de antrenament per iterație, ceea ce, în general, accelerează călătoria către convergență. Datorită apariției seturilor de date hiperscale în ultimii ani, SGD a crescut în popularitate în ultima vreme ca o metodă posibilă de a aborda problemele logistice care au urmat.

Pe de altă parte, SGD are implicații negative pentru scalarea caracteristicilor și poate necesita mai multe iterații pentru a obține același rezultat, necesitând planificare suplimentară și parametri suplimentari, în comparație cu Gradient Descent obișnuit.

Utilizare populară

Datorită configurabilității sale și în ciuda deficiențelor sale, SGD a devenit cel mai popular algoritm de optimizare pentru adaptarea rețelelor neuronale. O configurație a SGD care devine dominantă în noile lucrări de cercetare AI/ML este alegerea Adaptive Moment Estimation (ADAM, introdusă). în 2015) optimizator.

ADAM adaptează dinamic rata de învățare pentru fiecare parametru („rata de învățare adaptivă”), precum și încorporează rezultatele din actualizările anterioare în configurația ulterioară („momentum”). În plus, poate fi configurat pentru a utiliza inovații ulterioare, cum ar fi Nesterov Momentum.

Cu toate acestea, unii susțin că utilizarea impulsului poate accelera, de asemenea, ADAM (și algoritmi similari) la a concluzie sub-optima. Ca și în cazul celor mai multe dintre cele mai recente margini ale sectorului de cercetare a învățării automate, SGD este o activitate în curs.

 

Publicat pentru prima dată la 10 februarie 2022. Modificat la 10 februarie 20.05 EET – formatare.

Scriitor pe machine learning, specialist în domeniul sintezei imaginilor umane. Fost șef de conținut de cercetare la Metaphysic.ai.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai