Seguici sui social

Best Of

I 10 migliori algoritmi di apprendimento automatico

mm

Sebbene stiamo vivendo un'epoca di straordinaria innovazione nell'apprendimento automatico accelerato dalla GPU, gli ultimi articoli di ricerca presentano spesso (e in modo prominente) algoritmi che hanno decenni, in alcuni casi 70 anni.

Alcuni potrebbero sostenere che molti di questi metodi più vecchi rientrano nel campo dell'analisi statistica piuttosto che dell'apprendimento automatico, e preferiscono datare l'avvento del settore solo al 1957, con invenzione del Perceptron.

Considerata la misura in cui questi vecchi algoritmi supportano e sono integrati nelle ultime tendenze e negli sviluppi più recenti nell'apprendimento automatico, si tratta di una posizione discutibile. Diamo quindi un'occhiata ad alcuni degli elementi costitutivi "classici" alla base delle ultime innovazioni, nonché ad alcune novità che si stanno candidando per prime alla Hall of Fame dell'IA.

1: trasformatori

Nel 2017 Google Research ha condotto una collaborazione di ricerca culminata nella carta L'attenzione è tutto ciò che serve. Il lavoro ha delineato una nuova architettura che ha promosso meccanismi di attenzione dal "piping" nei modelli di codifica/decodifica e di rete ricorrente a una tecnologia di trasformazione centrale a sé stante.

L'approccio è stato soprannominato trasformatore, e da allora è diventata una metodologia rivoluzionaria nell'elaborazione del linguaggio naturale (NLP), alimentando, tra molti altri esempi, il modello linguistico autoregressivo e l'IA poster-child GPT-3.

I trasformatori hanno risolto elegantemente il problema di trasduzione di sequenza, detta anche "trasformazione", che si occupa dell'elaborazione delle sequenze di input in sequenze di output. Un trasformatore riceve e gestisce i dati in modo continuo, anziché in batch sequenziali, consentendo una "persistenza della memoria" che le architetture RNN non sono progettate per ottenere. Per una panoramica più dettagliata sui trasformatori, consultare il nostro articolo di riferimento.

In contrasto con le Reti Neurali Ricorrenti (RNN) che avevano iniziato a dominare la ricerca ML nell’era CUDA, l’architettura Transformer poteva anche essere facilmente parallelizzato, aprendo la strada per affrontare in modo produttivo un corpus di dati molto più ampio rispetto agli RNN.

Uso popolare

Transformers ha catturato l'immaginazione del pubblico nel 2020 con il rilascio di GPT-3 di OpenAI, che vantava un record di velocità 175 miliardi di parametri. Questo risultato apparentemente sbalorditivo è stato infine messo in ombra da progetti successivi, come il 2021 rilasciare del Megatron-Turing NLG 530B di Microsoft, che (come suggerisce il nome) presenta oltre 530 miliardi di parametri.

Una sequenza temporale di progetti Hyperscale Transformer NLP. Fonte: Microsoft

Una sequenza temporale di progetti Hyperscale Transformer NLP. Fonte: Microsoft

L'architettura Transformer è anche passata dalla PNL alla visione artificiale, alimentando a nuova generazione di framework di sintesi delle immagini come quello di OpenAI CLIP e DALL-E, che utilizzano la mappatura del dominio testo>immagine per completare immagini incomplete e sintetizzare nuove immagini da domini addestrati, tra un numero crescente di applicazioni correlate.

DALL-E tenta di completare un'immagine parziale di un busto di Platone. Fonte: https://openai.com/blog/dall-e/

DALL-E tenta di completare un'immagine parziale di un busto di Platone. Fonte: https://openai.com/blog/dall-e/

2: Generative Adversarial Network (GAN)

Sebbene i trasformatori abbiano ottenuto una straordinaria copertura mediatica attraverso il rilascio e l'adozione di GPT-3, il Rete avversaria generativa (GAN) è diventato un marchio riconoscibile a sé stante e potrebbe eventualmente unirsi deepfake come verbo.

Primo proposto in 2014 e utilizzato principalmente per la sintesi di immagini, un Generative Adversarial Network architettura è composto da a Generatore e DiscriminatoreIl Generatore analizza ciclicamente migliaia di immagini in un set di dati, tentando iterativamente di ricostruirle. A ogni tentativo, il Discriminatore valuta il lavoro del Generatore e lo rimanda indietro per migliorarlo, ma senza alcuna informazione sugli errori commessi nella ricostruzione precedente.

Fonte: https://developers.google.com/machine-learning/gan/gan_structure

Fonte: https://developers.google.com/machine-learning/gan/gan_structure

Ciò costringe il Generatore a esplorare una molteplicità di strade, invece di seguire i potenziali vicoli ciechi che sarebbero risultati se il Discriminatore gli avesse detto dove stava andando storto (vedi n. 8 sotto). Al termine dell'addestramento, il generatore dispone di una mappa dettagliata e completa delle relazioni tra i punti nel set di dati.

Un estratto dal video di accompagnamento dei ricercatori (vedi incorporamento alla fine dell'articolo). Si noti che l'utente sta manipolando le trasformazioni con un cursore "afferra" (in alto a sinistra). Fonte: https://www.youtube.com/watch?v=k7sG4XY5rIc

Dalla carta Migliorare l'equilibrio GAN aumentando la consapevolezza spaziale: un nuovo framework scorre attraverso lo spazio latente a volte misterioso di un GAN, fornendo uno strumento reattivo per un'architettura di sintesi delle immagini. Fonte: https://genforce.github.io/eqgan/

Per analogia, questa è la differenza tra l'apprendimento di un singolo tragitto banale verso il centro di Londra o l'acquisizione faticosa La conoscenza.

Il risultato è una raccolta di caratteristiche di alto livello nello spazio latente del modello addestrato. L'indicatore semantico per una caratteristica di alto livello potrebbe essere "persona", mentre una discesa attraverso la specificità correlata alla caratteristica potrebbe portare alla luce altre caratteristiche apprese, come "maschio" e "femmina". A livelli inferiori, le sottocaratteristiche possono essere scomposte in "biondo", "caucasico", ecc.

L'intreccio è una questione notevole nello spazio latente delle reti neurali giganti (GAN) e dei framework di codifica/decodifica: il sorriso sul volto di una donna generato da una rete neurale gigante (GAN) è una caratteristica intricata della sua "identità" nello spazio latente o è un ramo parallelo?

I volti generati da GAN di questa persona non esistono. Fonte: https://this-person-does-not-exist.com/en

I volti generati da GAN di questa persona non esistono. Fonte: https://this-person-does-not-exist.com/en

Negli ultimi due anni si è assistito a un numero crescente di nuove iniziative di ricerca in questo senso, aprendo forse la strada a un editing a livello di funzionalità, in stile Photoshop, per lo spazio latente di una GAN. Tuttavia, al momento, molte trasformazioni sono di fatto pacchetti "tutto o niente". In particolare, la versione EditGAN di NVIDIA di fine 2021 raggiunge un alto livello di interpretabilità nello spazio latente utilizzando maschere di segmentazione semantica.

Uso popolare

Oltre al loro coinvolgimento (in realtà piuttosto limitato) nei famosi video deepfake, negli ultimi quattro anni si sono moltiplicati i GAN incentrati su immagini/video, affascinando sia i ricercatori che il pubblico. Tenere il passo con la vertiginosa velocità e frequenza delle nuove versioni è una sfida, anche se il repository GitHub Fantastiche applicazioni GAN si propone di fornire un elenco completo.

Le reti generative avversarie possono in teoria derivare caratteristiche da qualsiasi dominio ben strutturato, compreso il testo.

3: SVM

Originato in 1963, Supporta la macchina vettoriale (SVM) è un algoritmo di base che compare frequentemente nelle nuove ricerche. Sotto SVM, i vettori mappano la disposizione relativa dei punti dati in un set di dati, mentre supporto i vettori delineano i confini tra diversi gruppi, caratteristiche o tratti.

I vettori di supporto definiscono i confini tra i gruppi. Fonte: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

I vettori di supporto definiscono i confini tra i gruppi. Fonte: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Il confine derivato è chiamato a iperpiano.

A bassi livelli di funzionalità, l'SVM lo è bidimensionale (immagine sopra), ma dove c'è un numero più elevato riconosciuto di gruppi o tipi, diventa tridimensionale.

Una gamma più profonda di punti e gruppi richiede un SVM tridimensionale. Fonte: https://cml.rhul.ac.uk/svm.html

Una gamma più profonda di punti e gruppi richiede un SVM tridimensionale. Fonte: https://cml.rhul.ac.uk/svm.html

Uso popolare

Poiché le macchine vettoriali di supporto possono gestire in modo efficace e agnostico dati ad alta dimensione di molti tipi, emergono ampiamente in una varietà di settori di apprendimento automatico, tra cui rilevamento deepfake, classificazione dell'immagine, classificazione dell'incitamento all'odio, Analisi del DNA e previsione della struttura della popolazione, Tra molti altri.

4: Clustering K-medie

Il clustering in generale è un apprendimento senza supervisione approccio che cerca di classificare i punti dati attraverso stima della densità, creando una mappa della distribuzione dei dati oggetto di studio.

K-Means che raggruppa segmenti, gruppi e comunità divina nei dati. Fonte: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Means che raggruppa segmenti, gruppi e comunità divina nei dati. Fonte: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Means Clustering è diventata l'implementazione più popolare di questo approccio, raggruppando i punti dati in distinti "Gruppi K", che possono indicare settori demografici, comunità online o qualsiasi altra possibile aggregazione segreta in attesa di essere scoperta nei dati statistici grezzi.

I cluster si formano nell'analisi K-Means. Fonte: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

I cluster si formano nell'analisi K-Means. Fonte: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Il valore K stesso è il fattore determinante nell'utilità del processo e nello stabilire un valore ottimale per un cluster. Inizialmente, il valore K viene assegnato in modo casuale e le sue caratteristiche e caratteristiche vettoriali vengono confrontate con i suoi vicini. Quei vicini che assomigliano più da vicino al punto dati con il valore assegnato in modo casuale vengono assegnati al relativo cluster in modo iterativo fino a quando i dati non hanno prodotto tutti i raggruppamenti consentiti dal processo.

Il grafico per l'errore quadratico, o "costo" dei diversi valori tra i cluster rivelerà un punta del gomito per i dati:

Il "punto di gomito" in un grafico a grappolo. Fonte: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Il "punto del gomito" in un grafico a cluster. Fonte: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Il punto di gomito è simile nel concetto al modo in cui la perdita si appiattisce in rendimenti decrescenti alla fine di una sessione di allenamento per un set di dati. Rappresenta il punto in cui non diverranno evidenti ulteriori distinzioni tra gruppi, indicando il momento di passare alle fasi successive nella pipeline dei dati, oppure di riportare i risultati.

Uso popolare

Per ovvi motivi, il clustering K-Means è una tecnologia fondamentale nell'analisi dei clienti, poiché offre una metodologia chiara e spiegabile per tradurre grandi quantità di dati commerciali in informazioni demografiche e "lead".

Al di fuori di questa applicazione, viene utilizzato anche K-Means Clustering previsione frana, segmentazione dell'immagine medica, sintesi di immagini con GAN, classificazione dei documentie pianificazione della citta, tra molti altri usi potenziali ed effettivi.

5: Foresta casuale

Random Forest è un apprendimento dell'ensemble metodo che calcola la media del risultato da un array di alberi decisionali per stabilire una previsione generale per il risultato.

Fonte: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Fonte: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Se hai fatto anche solo una piccola ricerca guardando il Ritorno al futuro trilogia, un albero decisionale stesso è abbastanza facile da concettualizzare: una serie di percorsi si trovano davanti a te, e ogni percorso si dirama verso un nuovo risultato che a sua volta contiene ulteriori percorsi possibili.

In insegnamento rafforzativo, potresti ritirarti da un percorso e ricominciare da una posizione precedente, mentre gli alberi decisionali si impegnano nei loro viaggi.

Pertanto l'algoritmo Random Forest è essenzialmente uno spread-betting per le decisioni. L'algoritmo è chiamato "casuale" perché rende ad hoc selezioni e osservazioni per comprendere il mediano somma dei risultati dell'array dell'albero decisionale.

Poiché tiene conto di una molteplicità di fattori, un approccio Random Forest può essere più difficile da convertire in grafici significativi rispetto a un albero decisionale, ma è probabile che sia notevolmente più produttivo.

Gli alberi decisionali sono soggetti a overfitting, ovvero i risultati ottenuti sono specifici dei dati e difficilmente generalizzabili. La selezione arbitraria dei punti dati di Random Forest contrasta questa tendenza, individuando trend rappresentativi significativi e utili nei dati.

Regressione dell'albero decisionale. Fonte: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Regressione dell'albero decisionale. Fonte: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Uso popolare

Come molti degli algoritmi in questo elenco, Random Forest opera tipicamente come un ordinamento e filtro "precoce" dei dati, e come tale emerge costantemente nei nuovi articoli di ricerca. Alcuni esempi di utilizzo di Random Forest includono: Sintesi di immagini di risonanza magnetica, Previsione dei prezzi di Bitcoin, segmentazione del censimento, classificazione del testo e rilevamento frodi con carta di credito.

Poiché Random Forest è un algoritmo di basso livello nelle architetture di apprendimento automatico, può anche contribuire alle prestazioni di altri metodi di basso livello, nonché algoritmi di visualizzazione, tra cui Clustering induttivo, Trasformazioni di funzionalità, classificazione dei documenti di testo utilizzando caratteristiche sparsee visualizzazione delle pipeline.

6: Ingenuo Bayes

Accoppiato con la stima della densità (vedi 4, sopra), A ingenuo Bayes il classificatore è un algoritmo potente ma relativamente leggero in grado di stimare le probabilità in base alle caratteristiche calcolate dei dati.

Relazioni di caratteristiche in un classificatore di Bayes ingenuo. Fonte: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Relazioni di caratteristiche in un classificatore di Bayes ingenuo. Fonte: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Il termine "ingenuo" si riferisce all'assunzione in Teorema di Bayes che le caratteristiche non sono correlate, noto come indipendenza condizionaleSe si adotta questo punto di vista, camminare e parlare come un'anatra non basta a stabilire che abbiamo a che fare con un'anatra, e non si adottano prematuramente supposizioni "ovvie".

Questo livello di rigore accademico e investigativo sarebbe eccessivo laddove fosse disponibile il "buon senso", ma è uno standard prezioso quando si affrontano le numerose ambiguità e le correlazioni potenzialmente non correlate che possono esistere in un set di dati di apprendimento automatico.

In una rete bayesiana originale, le caratteristiche sono soggette a funzioni di punteggio, compresa la lunghezza minima della descrizione e Punteggio bayesiano, che può imporre restrizioni sui dati in termini di connessioni stimate trovate tra i punti dati e la direzione in cui fluiscono queste connessioni.

Al contrario, un classificatore Bayesiano ingenuo funziona presupponendo che le caratteristiche di un dato oggetto siano indipendenti, utilizzando successivamente il teorema di Bayes per calcolare la probabilità di un dato oggetto, in base alle sue caratteristiche.

Uso popolare

I filtri Naive Bayes sono ben rappresentati in previsione delle malattie e categorizzazione dei documenti, filtraggio dello spam, classificazione dei sentimenti, sistemi di raccomandazionee rilevazione di frodi, tra le altre applicazioni.

7: K- Vicini più vicini (KNN)

Proposto per la prima volta dalla US Air Force School of Aviation Medicine in 1951, e dovendo adattarsi allo stato dell'arte dell'hardware informatico della metà del XX secolo, K-vicini più vicini (KNN) è un algoritmo snello che ha ancora un posto di rilievo nei documenti accademici e nelle iniziative di ricerca sull'apprendimento automatico del settore privato.

KNN è stato definito "l'apprendista pigro", poiché analizza in modo esaustivo un set di dati per valutare le relazioni tra i punti dati, anziché richiedere l'addestramento di un modello di apprendimento automatico completo.

Un raggruppamento KNN. Fonte: https://scikit-learn.org/stable/modules/neighbors.html

Un raggruppamento KNN. Fonte: https://scikit-learn.org/stable/modules/neighbors.html

Sebbene KNN sia architettonicamente snello, il suo approccio sistematico pone una notevole richiesta di operazioni di lettura/scrittura e il suo utilizzo in set di dati molto grandi può essere problematico senza tecnologie aggiuntive come l'analisi dei componenti principali (PCA), che può trasformare set di dati complessi e ad alto volume in raggruppamenti rappresentativi che KNN può attraversare con meno sforzo.

A recente studio ha valutato l'efficacia e l'economia di una serie di algoritmi incaricati di prevedere se un dipendente lascerà un'azienda, scoprendo che il settantenne KNN è rimasto superiore ai contendenti più moderni in termini di accuratezza ed efficacia predittiva.

Uso popolare

Nonostante la sua popolare semplicità di concetto ed esecuzione, KNN non è rimasto bloccato negli anni '1950: è stato adattato in un approccio più incentrato sulla DNN in una proposta del 2018 della Pennsylvania State University, e rimane un processo centrale nella fase iniziale (o strumento analitico di post-elaborazione) in molti framework di machine learning molto più complessi.

In varie configurazioni, KNN è stato utilizzato o per verifica della firma online, classificazione dell'immagine, estrazione di testo, previsione del raccoltoe riconoscimento facciale, oltre ad altre applicazioni e incorporazioni.

Un sistema di riconoscimento facciale basato su KNN in formazione. Fonte: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Un sistema di riconoscimento facciale basato su KNN in formazione. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Processo decisionale di Markov (MDP)

Un quadro matematico introdotto dal matematico americano Richard Bellman in 1957, Il Markov Decision Process (MDP) è uno dei blocchi più basilari di insegnamento rafforzativo architetture. Un algoritmo concettuale a sé stante, è stato adattato in un gran numero di altri algoritmi e ricorre frequentemente nell'attuale raccolto di ricerca AI/ML.

MDP esplora un ambiente di dati utilizzando la valutazione del suo stato attuale (ovvero "dove" si trova nei dati) per decidere quale nodo dei dati esplorare successivamente.

Fonte: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Fonte: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Un processo decisionale di Markov di base darà priorità al vantaggio a breve termine rispetto agli obiettivi a lungo termine più desiderabili. Per questo motivo, di solito è inserito nel contesto di un’architettura politica più completa nell’apprendimento per rinforzo, ed è spesso soggetto a fattori limitanti come la ricompensa scontata e altre variabili ambientali modificanti che gli impediranno di correre verso un obiettivo immediato senza considerazione. del risultato desiderato più ampio.

Uso popolare

Il concetto di basso livello di MDP è diffuso sia nella ricerca che nelle implementazioni attive dell'apprendimento automatico. È stato proposto per Sistemi di difesa della sicurezza IoT, raccolta del pescee previsioni di mercato.

Oltre al suo ovvia applicabilità agli scacchi e ad altri giochi strettamente sequenziali, MDP è anche un contendente naturale per il formazione procedurale dei sistemi robotici, come possiamo vedere nel video qui sotto.

 

9: Frequenza del termine-frequenza inversa del documento

Termine Frequenza (TF) divide il numero di volte in cui una parola appare in un documento per il numero totale di parole in quel documento. Così la parola sigillare che appare una volta in un articolo di mille parole ha una frequenza di termine di 0.001. Di per sé, TF è in gran parte inutile come indicatore dell'importanza del termine, a causa del fatto che articoli privi di significato (come a, e, , ile it) prevalgono.

Per ottenere un valore significativo per un termine, Inverse Document Frequency (IDF) calcola il TF di una parola su più documenti in un set di dati, assegnando un punteggio basso a una frequenza molto alta parole d'ordine, come gli articoli. I vettori di caratteristiche risultanti sono normalizzati a valori interi, con ogni parola assegnata a un peso appropriato.

TF-IDF pondera la rilevanza dei termini in base alla frequenza in un certo numero di documenti, con l'occorrenza più rara un indicatore di salienza. Fonte: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

TF-IDF pondera la rilevanza dei termini in base alla frequenza in un certo numero di documenti, con l'occorrenza più rara un indicatore di salienza. Fonte: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Sebbene questo approccio impedisca la perdita di parole semanticamente importanti come valori anomali, l'inversione del peso della frequenza non significa automaticamente che un termine a bassa frequenza lo sia non è un un valore anomalo, perché alcune cose sono rare e senza valore. Pertanto un termine a bassa frequenza dovrà dimostrare il suo valore nel contesto architettonico più ampio presentandosi (anche a bassa frequenza per documento) in un numero di documenti nel set di dati.

Nonostante ciò , TF-IDF è un metodo potente e diffuso per i passaggi di filtraggio iniziali nei framework di elaborazione del linguaggio naturale.

Uso popolare

Poiché TF-IDF ha svolto almeno una parte nello sviluppo dell'algoritmo PageRank di Google, in gran parte occulto, negli ultimi vent'anni, è diventato ampiamente adottato come tattica SEO manipolativa, nonostante il 2019 di John Mueller disconoscimento della sua importanza per i risultati di ricerca.

A causa della segretezza sul PageRank, non ci sono prove evidenti che TF-IDF lo sia non è un attualmente una tattica efficace per salire nella classifica di Google. Incendiario discussione tra i professionisti IT ultimamente indica una comprensione popolare, corretta o meno, che l'abuso di termini può comunque comportare un posizionamento SEO migliore (sebbene ulteriori accuse di abuso di monopolio e pubblicità eccessiva sfumare i confini di questa teoria).

10: Discesa del gradiente stocastico

Discesa gradiente stocastico (SGD) è un metodo sempre più diffuso per ottimizzare l'addestramento dei modelli di machine learning.

Gradient Descent stesso è un metodo per ottimizzare e successivamente quantificare il miglioramento apportato da un modello durante l'addestramento.

In questo senso, "gradiente" indica una pendenza verso il basso (piuttosto che una gradazione basata sul colore, vedi immagine sotto), dove il punto più alto della "collina", a sinistra, rappresenta l'inizio del processo di addestramento. In questa fase, il modello non ha ancora esaminato l'insieme dei dati nemmeno una volta e non ha ancora appreso abbastanza sulle relazioni tra i dati per produrre trasformazioni efficaci.

Una discesa in pendenza durante una sessione di allenamento FaceSwap. Possiamo vedere che l'allenamento si è stabilizzato per qualche tempo nella seconda metà, ma alla fine ha recuperato la sua strada verso una convergenza accettabile.

Una discesa in pendenza durante una sessione di allenamento FaceSwap. Possiamo vedere che l'allenamento si è stabilizzato per qualche tempo nella seconda metà, ma alla fine ha recuperato la sua strada verso una convergenza accettabile.

Il punto più basso, a destra, rappresenta la convergenza (il punto in cui il modello è tanto efficace quanto riuscirà mai a superare i vincoli e le impostazioni imposti).

Il gradiente funge da record e predittore della disparità tra il tasso di errore (quanto accuratamente il modello ha attualmente mappato le relazioni dei dati) e i pesi (le impostazioni che influenzano il modo in cui il modello apprenderà).

Questo registro dei progressi può essere utilizzato per informare a programma del tasso di apprendimento, un processo automatico che dice all'architettura di diventare più granulare e precisa man mano che i primi vaghi dettagli si trasformano in chiare relazioni e mappature. In effetti, la perdita di gradiente fornisce una mappa just-in-time di dove dovrebbe andare l'addestramento successivo e di come dovrebbe procedere.

L'innovazione della discesa del gradiente stocastico è che aggiorna i parametri del modello per ogni esempio di training per iterazione, il che generalmente accelera il percorso verso la convergenza. Grazie all'avvento dei dataset iperscalari negli ultimi anni, la discesa del gradiente stocastico ha acquisito popolarità ultimamente come possibile metodo per affrontare i conseguenti problemi logistici.

D'altra parte, SGD ha risvolti negativi per il ridimensionamento delle funzionalità e potrebbe richiedere più iterazioni per ottenere lo stesso risultato, richiedendo una pianificazione aggiuntiva e parametri aggiuntivi rispetto alla normale discesa del gradiente.

Uso popolare

Grazie alla sua configurabilità e nonostante i suoi difetti, SGD è diventato l'algoritmo di ottimizzazione più popolare per l'adattamento delle reti neurali. Una configurazione di SGD che sta diventando dominante nei nuovi documenti di ricerca AI/ML è la scelta dell'Adaptive Moment Estimation (ADAM, introdotto in 2015) ottimizzatore.

ADAM adatta dinamicamente il tasso di apprendimento per ciascun parametro ("tasso di apprendimento adattivo"), oltre a incorporare i risultati degli aggiornamenti precedenti nella configurazione successiva ("momentum"). Inoltre, può essere configurato per utilizzare innovazioni successive, come Slancio di Nesterov.

Tuttavia, alcuni sostengono che l'uso del momento può anche accelerare ADAM (e algoritmi simili) a a conclusione subottimale. Come con la maggior parte del settore della ricerca sull'apprendimento automatico, SGD è un work in progress.

 

Pubblicato per la prima volta il 10 febbraio 2022. Modificato il 10 febbraio 20.05 EET – formattazione.

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai