Best Of

I 10 migliori algoritmi di apprendimento automatico

aggiornato on 10 Febbraio 2022

Sebbene stiamo vivendo un periodo di straordinaria innovazione nell'apprendimento automatico accelerato dalle GPU, gli ultimi documenti di ricerca spesso (e in modo prominente) presentano algoritmi che hanno decenni, in alcuni casi 70 anni.

Alcuni potrebbero obiettare che molti di questi vecchi metodi ricadono nel campo dell'"analisi statistica" piuttosto che dell'apprendimento automatico, e preferiscono datare l'avvento del settore solo fino al 1957, con il invenzione del Perceptron.

Data la misura in cui questi vecchi algoritmi supportano e sono invischiati nelle ultime tendenze e negli sviluppi accattivanti nell'apprendimento automatico, è una posizione contestabile. Diamo quindi un'occhiata ad alcuni degli elementi costitutivi "classici" alla base delle ultime innovazioni, così come ad alcune voci più recenti che stanno facendo un'offerta anticipata per la hall of fame dell'IA.

1: trasformatori

Nel 2017 Google Research ha condotto una collaborazione di ricerca culminata nella carta L'attenzione è tutto ciò che serve. Il lavoro ha delineato una nuova architettura che ha promosso meccanismi di attenzione dal "piping" in codificatore/decodificatore e modelli di rete ricorrenti a una tecnologia di trasformazione centrale a sé stante.

L'approccio è stato soprannominato trasformatore, e da allora è diventata una metodologia rivoluzionaria nell'elaborazione del linguaggio naturale (NLP), alimentando, tra molti altri esempi, il modello linguistico autoregressivo e l'IA poster-child GPT-3.

I trasformatori hanno risolto elegantemente il problema di trasduzione di sequenza, chiamata anche "trasformazione", che si occupa dell'elaborazione di sequenze di input in sequenze di output. Un trasformatore inoltre riceve e gestisce i dati in modo continuo, anziché in batch sequenziali, consentendo una "persistenza della memoria" che le architetture RNN non sono progettate per ottenere. Per una panoramica più dettagliata dei trasformatori, dai un'occhiata a il nostro articolo di riferimento.

In contrasto con le Reti Neurali Ricorrenti (RNN) che avevano iniziato a dominare la ricerca ML nell’era CUDA, l’architettura Transformer poteva anche essere facilmente parallelizzato, aprendo la strada per affrontare in modo produttivo un corpus di dati molto più ampio rispetto agli RNN.

Uso popolare

Transformers ha catturato l'immaginazione del pubblico nel 2020 con il rilascio di GPT-3 di OpenAI, che vantava un record di allora 175 miliardi di parametri. Questo risultato apparentemente sbalorditivo è stato infine messo in ombra da progetti successivi, come il 2021 rilasciare del Megatron-Turing NLG 530B di Microsoft, che (come suggerisce il nome) presenta oltre 530 miliardi di parametri.

Una sequenza temporale di progetti Hyperscale Transformer NLP. Fonte: Microsoft

L'architettura Transformer è anche passata dalla PNL alla visione artificiale, alimentando a nuova generazione di framework di sintesi di immagini come OpenAI CLIP ed DALL-E, che utilizzano la mappatura del dominio testo>immagine per completare immagini incomplete e sintetizzare nuove immagini da domini addestrati, tra un numero crescente di applicazioni correlate.

DALL-E tenta di completare un'immagine parziale di un busto di Platone. Fonte: https://openai.com/blog/dall-e/

2: Generative Adversarial Network (GAN)

Sebbene i trasformatori abbiano ottenuto una straordinaria copertura mediatica attraverso il rilascio e l'adozione di GPT-3, il Rete avversaria generativa (GAN) è diventato un marchio riconoscibile a sé stante e potrebbe eventualmente unirsi deepfake come verbo.

Primo proposto in 2014 e utilizzato principalmente per la sintesi di immagini, un Generative Adversarial Network architettura è composto da a Generatore e Discriminatore. Il generatore scorre migliaia di immagini in un set di dati, tentando iterativamente di ricostruirle. Per ogni tentativo, il Discriminatore valuta il lavoro del Generatore e rimanda il Generatore a fare meglio, ma senza alcuna comprensione del modo in cui la precedente ricostruzione ha sbagliato.

Fonte: https://developers.google.com/machine-learning/gan/gan_structure

Ciò costringe il Generatore a esplorare una molteplicità di strade, invece di seguire i potenziali vicoli ciechi che sarebbero risultati se il Discriminatore gli avesse detto dove stava andando storto (vedi n. 8 sotto). Al termine dell'addestramento, il generatore dispone di una mappa dettagliata e completa delle relazioni tra i punti nel set di dati.

Un estratto dal video di accompagnamento dei ricercatori (vedi incorporamento alla fine dell'articolo). Si noti che l'utente sta manipolando le trasformazioni con un cursore "afferra" (in alto a sinistra). Fonte: https://www.youtube.com/watch?v=k7sG4XY5rIc

Dalla carta Migliorare l'equilibrio GAN aumentando la consapevolezza spaziale: un nuovo framework scorre attraverso lo spazio latente a volte misterioso di un GAN, fornendo uno strumento reattivo per un'architettura di sintesi delle immagini. Fonte: https://genforce.github.io/eqgan/

Per analogia, questa è la differenza tra l'apprendimento di un singolo tragitto banale verso il centro di Londra o l'acquisizione faticosa La conoscenza.

Il risultato è una raccolta di funzionalità di alto livello nello spazio latente del modello sottoposto a training. L'indicatore semantico per una caratteristica di alto livello potrebbe essere "persona", mentre una discesa attraverso la specificità correlata alla caratteristica può portare alla luce altre caratteristiche apprese, come "maschio" e "femmina". A livelli inferiori le sottocaratteristiche possono suddividersi in "biondo", "caucasico" et al.

L'intreccio è una questione notevole nello spazio latente dei GAN e delle strutture codificatore/decodificatore: il sorriso su un volto femminile generato da GAN è una caratteristica intricata della sua "identità" nello spazio latente o è un ramo parallelo?

I volti generati da GAN di questa persona non esistono. Fonte: https://this-person-does-not-exist.com/en

Gli ultimi due anni hanno portato alla luce un numero crescente di nuove iniziative di ricerca in questo senso, forse aprendo la strada all'editing a livello di funzionalità, in stile Photoshop per lo spazio latente di un GAN, ma al momento molte trasformazioni sono effettivamente " pacchetti tutto o niente. In particolare, la versione EditGAN di NVIDIA della fine del 2021 raggiunge a alto livello di interpretabilità nello spazio latente utilizzando maschere di segmentazione semantica.

Uso popolare

Oltre al loro coinvolgimento (in realtà piuttosto limitato) nei famosi video deepfake, negli ultimi quattro anni si sono moltiplicati i GAN incentrati su immagini/video, affascinando sia i ricercatori che il pubblico. Tenere il passo con la vertiginosa velocità e frequenza delle nuove versioni è una sfida, anche se il repository GitHub Fantastiche applicazioni GAN si propone di fornire un elenco completo.

Le reti generative avversarie possono in teoria derivare caratteristiche da qualsiasi dominio ben strutturato, compreso il testo.

3: SVM

Originato in 1963, Supporta la macchina vettoriale (SVM) è un algoritmo di base che compare frequentemente nelle nuove ricerche. Sotto SVM, i vettori mappano la disposizione relativa dei punti dati in un set di dati, mentre supporto i vettori delineano i confini tra diversi gruppi, caratteristiche o tratti.

I vettori di supporto definiscono i confini tra i gruppi. Fonte: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Il confine derivato è chiamato a iperpiano.

A bassi livelli di funzionalità, l'SVM lo è bidimensionale (immagine sopra), ma dove c'è un numero più alto riconosciuto di gruppi o tipi, diventa tridimensionale.

Una gamma più profonda di punti e gruppi richiede un SVM tridimensionale. Fonte: https://cml.rhul.ac.uk/svm.html

Uso popolare

Poiché le macchine vettoriali di supporto possono gestire in modo efficace e agnostico dati ad alta dimensione di molti tipi, emergono ampiamente in una varietà di settori di apprendimento automatico, tra cui rilevamento deepfake, classificazione dell'immagine, classificazione dell'incitamento all'odio, Analisi del DNA ed previsione della struttura della popolazione, Tra molti altri.

4: Clustering K-medie

Il clustering in generale è un apprendimento senza supervisione approccio che cerca di classificare i punti dati attraverso stima della densità, creando una mappa della distribuzione dei dati oggetto di studio.

K-Means che raggruppa segmenti, gruppi e comunità divina nei dati. Fonte: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Means Clustering è diventata l'implementazione più popolare di questo approccio, raggruppando i punti dati in "Gruppi K" distintivi, che possono indicare settori demografici, comunità online o qualsiasi altra possibile aggregazione segreta in attesa di essere scoperta in dati statistici grezzi.

I cluster si formano nell'analisi K-Means. Fonte: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Il valore K stesso è il fattore determinante nell'utilità del processo e nello stabilire un valore ottimale per un cluster. Inizialmente, il valore K viene assegnato in modo casuale e le sue caratteristiche e caratteristiche vettoriali vengono confrontate con i suoi vicini. Quei vicini che assomigliano più da vicino al punto dati con il valore assegnato in modo casuale vengono assegnati al relativo cluster in modo iterativo fino a quando i dati non hanno prodotto tutti i raggruppamenti consentiti dal processo.

Il grafico dell'errore al quadrato, o 'costo' di valori differenti tra i cluster rivelerà un punta del gomito per i dati:

Il "punto di gomito" in un grafico a grappolo. Fonte: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Il punto di gomito è simile nel concetto al modo in cui la perdita si appiattisce in rendimenti decrescenti alla fine di una sessione di allenamento per un set di dati. Rappresenta il punto in cui non diverranno evidenti ulteriori distinzioni tra gruppi, indicando il momento di passare alle fasi successive nella pipeline dei dati, oppure di riportare i risultati.

Uso popolare

K-Means Clustering, per ovvi motivi, è una tecnologia primaria nell'analisi dei clienti, poiché offre una metodologia chiara e spiegabile per tradurre grandi quantità di record commerciali in approfondimenti demografici e "lead".

Al di fuori di questa applicazione, viene utilizzato anche K-Means Clustering previsione frana, segmentazione dell'immagine medica, sintesi di immagini con GAN, classificazione dei documentie pianificazione della citta, tra molti altri usi potenziali ed effettivi.

5: Foresta casuale

Random Forest è un apprendimento dell'ensemble metodo che calcola la media del risultato da un array di alberi decisionali per stabilire una previsione generale per il risultato.

Fonte: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Se l'hai studiato anche solo guardando il Ritorno al futuro trilogia, un albero decisionale stesso è abbastanza facile da concettualizzare: una serie di percorsi si trovano davanti a te, e ogni percorso si dirama verso un nuovo risultato che a sua volta contiene ulteriori percorsi possibili.

In insegnamento rafforzativo, potresti ritirarti da un percorso e ricominciare da una posizione precedente, mentre gli alberi decisionali si impegnano nei loro viaggi.

Pertanto, l'algoritmo Random Forest è essenzialmente una scommessa diffusa per le decisioni. L'algoritmo è chiamato 'casuale' perché rende ad hoc selezioni e osservazioni per comprendere il mediano somma dei risultati dell'array dell'albero decisionale.

Poiché tiene conto di una molteplicità di fattori, un approccio Random Forest può essere più difficile da convertire in grafici significativi rispetto a un albero decisionale, ma è probabile che sia notevolmente più produttivo.

Gli alberi decisionali sono soggetti a overfitting, in cui i risultati ottenuti sono specifici dei dati e non sono suscettibili di generalizzazione. La selezione arbitraria di punti dati da parte di Random Forest contrasta questa tendenza, analizzando tendenze rappresentative significative e utili nei dati.

Regressione dell'albero decisionale. Fonte: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Uso popolare

Come con molti degli algoritmi in questo elenco, Random Forest funziona tipicamente come un "precoce" selezionatore e filtro di dati, e come tale affiora costantemente in nuovi documenti di ricerca. Alcuni esempi di utilizzo della foresta casuale includono Sintesi di immagini di risonanza magnetica, Previsione dei prezzi di Bitcoin, segmentazione del censimento, classificazione del testo ed rilevamento frodi con carta di credito.

Poiché Random Forest è un algoritmo di basso livello nelle architetture di apprendimento automatico, può anche contribuire alle prestazioni di altri metodi di basso livello, nonché algoritmi di visualizzazione, tra cui Clustering induttivo, Trasformazioni di funzionalità, classificazione dei documenti di testo utilizzando caratteristiche sparsee visualizzazione delle pipeline.

6: Ingenuo Bayes

Accoppiato con la stima della densità (vedi 4, sopra), A ingenuo Bayes il classificatore è un algoritmo potente ma relativamente leggero in grado di stimare le probabilità in base alle caratteristiche calcolate dei dati.

Relazioni di caratteristiche in un classificatore di Bayes ingenuo. Fonte: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Il termine "ingenuo" si riferisce all'assunzione in Teorema di Bayes che le caratteristiche non sono correlate, noto come indipendenza condizionale. Se adotti questo punto di vista, camminare e parlare come un'anatra non è sufficiente per stabilire che abbiamo a che fare con un'anatra, e nessuna ipotesi "ovvia" viene adottata prematuramente.

Questo livello di rigore accademico e investigativo sarebbe eccessivo dove è disponibile il "buon senso", ma è uno standard prezioso quando si attraversano le molte ambiguità e correlazioni potenzialmente non correlate che possono esistere in un set di dati di apprendimento automatico.

In una rete bayesiana originale, le caratteristiche sono soggette a funzioni di punteggio, compresa la lunghezza minima della descrizione e Punteggio bayesiano, che può imporre restrizioni sui dati in termini di connessioni stimate trovate tra i punti dati e la direzione in cui fluiscono queste connessioni.

Un ingenuo classificatore di Bayes, al contrario, opera assumendo che le caratteristiche di un dato oggetto siano indipendenti, utilizzando successivamente il teorema di Bayes per calcolare la probabilità di un dato oggetto, in base alle sue caratteristiche.

Uso popolare

I filtri Naive Bayes sono ben rappresentati in previsione delle malattie e categorizzazione dei documenti, filtraggio dello spam, classificazione dei sentimenti, sistemi di raccomandazionee rilevazione di frodi, tra le altre applicazioni.

7: K- Vicini più vicini (KNN)

Proposto per la prima volta dalla US Air Force School of Aviation Medicine in 1951, e dovendo adattarsi allo stato dell'arte dell'hardware informatico della metà del XX secolo, K-vicini più vicini (KNN) è un algoritmo snello che ha ancora un posto di rilievo nei documenti accademici e nelle iniziative di ricerca sull'apprendimento automatico del settore privato.

KNN è stato definito "lo studente pigro", poiché analizza in modo esaustivo un set di dati per valutare le relazioni tra i punti dati, piuttosto che richiedere l'addestramento di un modello di apprendimento automatico completo.

Un raggruppamento KNN. Fonte: https://scikit-learn.org/stable/modules/neighbors.html

Sebbene KNN sia architettonicamente snello, il suo approccio sistematico pone una notevole richiesta di operazioni di lettura/scrittura e il suo utilizzo in set di dati molto grandi può essere problematico senza tecnologie aggiuntive come l'analisi dei componenti principali (PCA), che può trasformare set di dati complessi e ad alto volume in raggruppamenti rappresentativi che KNN può attraversare con meno sforzo.

A recente studio ha valutato l'efficacia e l'economia di una serie di algoritmi incaricati di prevedere se un dipendente lascerà un'azienda, scoprendo che il settantenne KNN è rimasto superiore ai contendenti più moderni in termini di accuratezza ed efficacia predittiva.

Uso popolare

Nonostante tutta la sua popolare semplicità di concetto ed esecuzione, KNN non è bloccato negli anni '1950: è stato adattato in un approccio più incentrato sulla DNN in una proposta del 2018 della Pennsylvania State University, e rimane un processo centrale nella fase iniziale (o strumento analitico di post-elaborazione) in molti framework di machine learning molto più complessi.

In varie configurazioni, KNN è stato utilizzato o per verifica della firma online, classificazione dell'immagine, estrazione di testo, previsione del raccoltoe riconoscimento facciale, oltre ad altre applicazioni e incorporazioni.

Un sistema di riconoscimento facciale basato su KNN in formazione. Fonte: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Un sistema di riconoscimento facciale basato su KNN in formazione. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Processo decisionale di Markov (MDP)

Un quadro matematico introdotto dal matematico americano Richard Bellman in 1957, Il Markov Decision Process (MDP) è uno dei blocchi più basilari di insegnamento rafforzativo architetture. Un algoritmo concettuale a sé stante, è stato adattato in un gran numero di altri algoritmi e ricorre frequentemente nell'attuale raccolto di ricerca AI/ML.

MDP esplora un ambiente di dati utilizzando la sua valutazione del suo stato corrente (ovvero "dove" si trova nei dati) per decidere quale nodo dei dati esplorare successivamente.

Fonte: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Un processo decisionale Markov di base darà la priorità al vantaggio a breve termine rispetto a obiettivi a lungo termine più desiderabili. Per questo motivo, di solito è integrato nel contesto di un'architettura politica più completa nell'apprendimento per rinforzo ed è spesso soggetto a fattori limitanti come premio scontatoe altre variabili ambientali modificanti che gli impediranno di correre verso un obiettivo immediato senza considerare il risultato desiderato più ampio.

Uso popolare

Il concetto di basso livello di MDP è diffuso sia nella ricerca che nelle implementazioni attive dell'apprendimento automatico. È stato proposto per Sistemi di difesa della sicurezza IoT, raccolta del pescee previsioni di mercato.

Oltre al suo ovvia applicabilità agli scacchi e ad altri giochi strettamente sequenziali, MDP è anche un contendente naturale per il formazione procedurale dei sistemi robotici, come possiamo vedere nel video qui sotto.

Pianificatore globale che utilizza un processo decisionale Markov - Robotica industriale mobile

Global Planner using a Markov Decision Process - Mobile Industrial Robotics

Watch this video on YouTube

9: Frequenza del termine-frequenza inversa del documento

Termine Frequenza (TF) divide il numero di volte in cui una parola appare in un documento per il numero totale di parole in quel documento. Così la parola sigillare che appare una volta in un articolo di mille parole ha una frequenza di termine di 0.001. Di per sé, TF è in gran parte inutile come indicatore dell'importanza del termine, a causa del fatto che articoli privi di significato (come a, ed, , ile it) prevalgono.

Per ottenere un valore significativo per un termine, Inverse Document Frequency (IDF) calcola il TF di una parola su più documenti in un set di dati, assegnando un punteggio basso a una frequenza molto alta parole d'ordine, come gli articoli. I vettori di caratteristiche risultanti sono normalizzati a valori interi, con ogni parola assegnata a un peso appropriato.

TF-IDF pondera la rilevanza dei termini in base alla frequenza in un certo numero di documenti, con l'occorrenza più rara un indicatore di salienza. Fonte: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Sebbene questo approccio impedisca la perdita di parole semanticamente importanti come valori anomali, l'inversione del peso della frequenza non significa automaticamente che un termine a bassa frequenza lo sia non un valore anomalo, perché alcune cose sono rare ed senza valore. Pertanto un termine a bassa frequenza dovrà dimostrare il suo valore nel contesto architettonico più ampio presentandosi (anche a bassa frequenza per documento) in un numero di documenti nel set di dati.

Nonostante ciò , TF-IDF è un metodo potente e diffuso per i passaggi di filtraggio iniziali nei framework di elaborazione del linguaggio naturale.

Uso popolare

Poiché TF-IDF ha avuto almeno un ruolo nello sviluppo dell'algoritmo PageRank di Google, in gran parte occulto, negli ultimi vent'anni, è diventato ampiamente adottato come tattica SEO manipolativa, nonostante il 2019 di John Mueller disconoscimento della sua importanza per i risultati di ricerca.

A causa della segretezza sul PageRank, non ci sono prove evidenti che TF-IDF lo sia non attualmente una tattica efficace per salire nelle classifiche di Google. Incendiario discussione tra i professionisti IT ultimamente indica una comprensione popolare, corretta o meno, che l'abuso di termini può comunque comportare un posizionamento SEO migliore (sebbene ulteriori accuse di abuso di monopolio ed pubblicità eccessiva sfumare i confini di questa teoria).

10: Discesa del gradiente stocastico

Discesa gradiente stocastico (SGD) è un metodo sempre più diffuso per ottimizzare l'addestramento dei modelli di machine learning.

Gradient Descent stesso è un metodo per ottimizzare e successivamente quantificare il miglioramento apportato da un modello durante l'addestramento.

In questo senso, 'gradiente' indica una pendenza verso il basso (piuttosto che una gradazione basata sul colore, vedi immagine sotto), dove il punto più alto della 'collina', a sinistra, rappresenta l'inizio del processo di formazione. In questa fase il modello non ha ancora visto la totalità dei dati nemmeno una volta e non ha appreso abbastanza sulle relazioni tra i dati per produrre trasformazioni efficaci.

Una discesa in pendenza durante una sessione di allenamento FaceSwap. Possiamo vedere che l'allenamento si è stabilizzato per qualche tempo nella seconda metà, ma alla fine ha recuperato la sua strada verso una convergenza accettabile.

Il punto più basso, a destra, rappresenta la convergenza (il punto in cui il modello è tanto efficace quanto riuscirà mai a superare i vincoli e le impostazioni imposti).

Il gradiente funge da record e predittore della disparità tra il tasso di errore (quanto accuratamente il modello ha attualmente mappato le relazioni dei dati) e i pesi (le impostazioni che influenzano il modo in cui il modello apprenderà).

Questo registro dei progressi può essere utilizzato per informare a programma del tasso di apprendimento, un processo automatico che dice all'architettura di diventare più granulare e precisa man mano che i primi vaghi dettagli si trasformano in chiare relazioni e mappature. In effetti, la perdita di gradiente fornisce una mappa just-in-time di dove dovrebbe andare l'addestramento successivo e di come dovrebbe procedere.

L'innovazione di Stochastic Gradient Descent è che aggiorna i parametri del modello su ogni esempio di training per iterazione, il che generalmente accelera il viaggio verso la convergenza. A causa dell'avvento dei set di dati su larga scala negli ultimi anni, SGD è diventato popolare ultimamente come un possibile metodo per affrontare i conseguenti problemi logistici.

D'altra parte, SGD ha risvolti negativi per il ridimensionamento delle funzionalità e potrebbe richiedere più iterazioni per ottenere lo stesso risultato, richiedendo una pianificazione aggiuntiva e parametri aggiuntivi rispetto alla normale discesa del gradiente.

Uso popolare

Grazie alla sua configurabilità e nonostante i suoi difetti, SGD è diventato l'algoritmo di ottimizzazione più popolare per l'adattamento delle reti neurali. Una configurazione di SGD che sta diventando dominante nei nuovi documenti di ricerca AI/ML è la scelta dell'Adaptive Moment Estimation (ADAM, introdotto in 2015) ottimizzatore.

ADAM adatta dinamicamente il tasso di apprendimento per ciascun parametro ("tasso di apprendimento adattivo"), oltre a incorporare i risultati degli aggiornamenti precedenti nella configurazione successiva ("momentum"). Inoltre, può essere configurato per utilizzare innovazioni successive, come ad esempio Slancio di Nesterov.

Tuttavia, alcuni sostengono che l'uso del momento può anche accelerare ADAM (e algoritmi simili) a a conclusione subottimale. Come con la maggior parte del settore della ricerca sull'apprendimento automatico, SGD è un work in progress.

Pubblicato per la prima volta il 10 febbraio 2022. Modificato il 10 febbraio 20.05 EET – formattazione.