Seguici sui social

Intelligenza Artificiale

data2vec: una pietra miliare nell'apprendimento auto-supervisionato

mm

I modelli di machine learning fanno molto affidamento sui dati etichettati per l’addestramento e, tradizionalmente, i modelli di addestramento sui dati etichettati producono risultati accurati. Tuttavia, lo svantaggio principale dell'utilizzo di dati etichettati sono gli elevati costi di annotazione che aumentano con l'aumento delle dimensioni dei dati di addestramento. I costi elevati delle annotazioni rappresentano un grosso ostacolo per gli sviluppatori, soprattutto quando si lavora su un progetto di grandi dimensioni con notevoli quantità di dati di addestramento.

Per affrontare il problema delle annotazioni, gli sviluppatori hanno ideato il concetto di SSL o Apprendimento auto supervisionato. L'apprendimento autosupervisionato è un processo di apprendimento automatico in cui il il modello si allena per apprendere una parte dell'input da un'altra parte dell'input. Un modello di Self Supervised Learning mira a sfruttare la relazione tra i dati invece di utilizzare i segnali supervisionati dei dati etichettati. 

Oltre all'apprendimento automatico, esistono molti altri metodi e modelli per addestrare modelli di apprendimento automatico senza l'uso di dati etichettati. Tuttavia, la maggior parte di questi metodi presenta due problemi principali

  1. Sono spesso specializzati per una singola modalità come un'immagine o un testo. 
  2. Richiedono un'elevata quantità di potenza di calcolo. 

Queste limitazioni sono un grosso problema per cui una mente umana media è in grado di apprendere da un singolo tipo di dati in modo molto più efficace rispetto a un modello di intelligenza artificiale che si basa su modelli separati e dati di addestramento per distinguere tra un'immagine, un testo e un discorso. 

Per affrontare il problema della modalità singola, Meta AI ha rilasciato il data2vec, il primo algoritmo auto-supervisionato ad alte prestazioni per apprendere informazioni sui modelli da tre diverse modalità: immagine, testo e parlato. Con l'implementazione dell'algoritmo data2vec, la comprensione del testo potrebbe essere applicata a un problema di segmentazione dell'immagine o può anche essere implementata in un'attività di riconoscimento vocale. 

In questo articolo parleremo approfonditamente del modello data2vec. Discuteremo la panoramica del metodo, il lavoro correlato, l'architettura e i risultati del modello in modo più approfondito in modo da avere una chiara comprensione dell'algoritmo data2vec. 

Data2vec Introduzione: l'idea di base

Sebbene il concetto fondamentale di Self Supervised Learning sia applicato a tutte le modalità, gli obiettivi e gli algoritmi effettivi differiscono l'uno dall'altro perché sono stati progettati rispetto a una singola modalità. Progettare un modello per una singola modalità è il motivo per cui lo stesso algoritmo di apprendimento auto-supervisionato non può funzionare efficacemente su diversi tipi di dati di addestramento. 

Per superare la sfida presentata dai modelli e dagli algoritmi a modalità singola, Meta AI ha rilasciato data2vec, un algoritmo che utilizza la stessa metodologia di apprendimento per la visione artificiale, NLP o discorso.  

L'idea alla base dell'algoritmo data2vec è utilizzare la vista mascherata dell'input to prevedere rappresentazioni latenti dei dati di input completi in una configurazione di auto-distillazione con l'aiuto di architettura standard del trasformatore. Quindi, invece di oggetti specifici della modalità come immagini, testo o voce che sono di natura locale, l'algoritmo data2vec prevede rappresentazioni latenti con informazioni dall'addestramento completo o dati di input. 

Perché l'industria dell'IA ha bisogno dell'algoritmo Data2Vec?

I modelli di apprendimento autosupervisionato creano rappresentazioni dei dati di addestramento utilizzando etichette annotate da persone, ed è uno dei motivi principali alla base del progresso della PNL o elaborazione del linguaggio naturale e della tecnologia di visione artificiale. Queste rappresentazioni dell’apprendimento autosupervisionato sono la ragione per cui attività come il riconoscimento vocale e l’apprendimento automatico implementano l’apprendimento non supervisionato nei loro modelli. 

Fino ad ora, questi algoritmi di apprendimento auto-supervisionato si concentrano su modalità individuali che si traducono in bias di apprendimento e progetti specifici nei modelli. La modalità individuale degli algoritmi di apprendimento auto-supervisionato crea sfide in diverse applicazioni di intelligenza artificiale, tra cui la visione artificiale e la PNL. 

Ad esempio, ci sono vocaboli di unità vocali nell'elaborazione del parlato che possono definire un compito di apprendimento auto-supervisionato in PNL. Allo stesso modo, dentro visione computerizzata, gli sviluppatori possono regredire l'input, apprendere token visivi discreti o apprendere rappresentazioni invarianti per l'aumento dei dati. Sebbene questi pregiudizi di apprendimento siano utili, è difficile confermare se questi pregiudizi si generalizzeranno ad altre modalità. 

L'algoritmo data2vec è una pietra miliare nel settore dell'apprendimento auto-supervisionato in quanto mira a migliorare più modalità piuttosto che una sola. Inoltre, l'algoritmo data2vec non si basa sulla ricostruzione dell'input o sull'apprendimento contrastivo. 

Quindi il motivo per cui il mondo ha bisogno di data2vec è perché l'algoritmo data2vec ha il potenziale per accelerare i progressi nell'intelligenza artificiale e contribuisce allo sviluppo di modelli di intelligenza artificiale in grado di apprendere senza problemi diversi aspetti dell'ambiente circostante. Gli scienziati sperano che l'algoritmo data2vec consentirà loro di sviluppare modelli di intelligenza artificiale e ML più adattabili in grado di eseguire attività altamente avanzate oltre a ciò che i modelli di intelligenza artificiale di oggi possono fare.

Cos'è l'algoritmo Data2Vec?

Il data2vec è un framework unificato che mira a implementare l'apprendimento automatico auto-supervisionato attraverso diverse modalità di dati tra cui immagini, voce e testo. 

L'algoritmo data2vec mira a sviluppare modelli ML in grado di apprendere molto meglio i modelli generali nell'ambiente mantenendo l'obiettivo di apprendimento uniforme tra diverse modalità. Il modello data2vec unifica l'algoritmo di apprendimento, ma apprende comunque individualmente le rappresentazioni per ciascuna modalità. 

Con l'introduzione dell'algoritmo data2vec, Meta AI spera che renderà l'apprendimento multimodale efficace e molto più semplice. 

Come funziona l'algoritmo Data2Vec?

L'algoritmo data2vec combina gli apprendimenti delle rappresentazioni di target latenti con la previsione mascherata, sebbene utilizzi più livelli di rete come target per generalizzare le rappresentazioni latenti. Il modello addestra specificamente un prodotto standard Rete di trasformatori che viene poi utilizzato sia in insegnante o studente modalità. 

Nella modalità insegnante, il modello costruisce prima le rappresentazioni del dati di input che servono come obiettivi nel compito di apprendimento. Nella modalità studente, il modello codifica una versione mascherata dei dati di input che viene quindi utilizzata per fare previsioni sulle rappresentazioni complete dei dati. 

L'immagine sopra rappresenta come il modello data2vec utilizza lo stesso processo di apprendimento per diverse modalità. Nella prima fase, il modello produce rappresentazioni dei dati di input (modalità insegnante). Il modello quindi regredisce queste rappresentazioni sulla base di una versione mascherata dell'input. 

Inoltre, poiché l'algoritmo data2vec utilizza rappresentazioni latenti dei dati di input, può essere visto come una versione semplificata dei progetti specifici della modalità come creando obiettivi adeguati normalizzando l'input or apprendimento di un set fisso di token visivi. Ma il punto di differenziazione cruciale tra data2vec e altri algoritmi è che l'algoritmo data2vec utilizza l'auto-attenzione per creare la sua rappresentazione target contestualizzato e continuo. D'altra parte, altri modelli di apprendimento auto-supervisionato utilizzano un insieme fisso di obiettivi basati su un contesto locale. 

Data2vec: metodo del modello

Il modello data2vec viene addestrato prevedendo le rappresentazioni del modello dei dati di input data una vista parziale dell'input. Come puoi vedere nella figura data, la faccia del cane è mascherata, una particolare sezione della nota vocale è mascherata e la parola "con” è mascherato nel testo. 

Il modello prima codifica una versione mascherata del campione di addestramento(modalità studente), quindi codifica la versione non mascherata dell'input per costruire obiettivi di addestramento con lo stesso modello ma solo quando è parametrizzata come media esponenziale dei pesi del modello (modalità insegnante). Inoltre, le rappresentazioni target codificano le informazioni presenti nel campione di addestramento e, nella modalità studente, il compito di apprendimento viene utilizzato per prevedere queste rappresentazioni quando viene fornita una visione parziale dell'input. 

Architettura di modello

Il modello data2vec utilizza uno standard Architettura del trasformatore con codifica specifica della modalità dei dati di input. Per le attività relative alla visione artificiale, il modello utilizza la strategia ViT per codificare un'immagine come una sequenza di patch in cui ciascuna immagine si estende su 16 × 16 pixel e alimentata come trasformazione lineare. 

Inoltre, il modello codifica i dati per il riconoscimento vocale utilizzando una rete neurale convoluzionale 1-D multistrato che mappa le forme d'onda a 16 kHz in rappresentazioni a 50 Hz. Per elaborare i dati di testo, il modello preelabora i dati per estrarre unità di sottoparole e quindi incorpora i dati nello spazio distribuzionale tramite vettori di incorporamento. 

Masking-tape

Una volta che il modello incorpora i dati di input come una sequenza di token, il modello maschera parti di queste unità sostituendole con un token di incorporamento, quindi invia la sequenza al trasformatore rete. Per la visione artificiale, il modello pratica una strategia di marcatura a blocchi. Le rappresentazioni vocali latenti vengono utilizzate per mascherare intervalli di dati vocali e, per le attività relative alla lingua, i token sono mascherati. 

Obiettivi formativi

Il modello data2vec mira a prevedere le rappresentazioni del modello del campione di addestramento non mascherato sulla base di una codifica del campione mascherato originariamente fornito al modello. Il modello prevede le rappresentazioni solo per passi temporali mascherati. 

Il modello prevede rappresentazioni contestualizzate che non solo codifica il particolare passo temporale, ma codifica anche altre informazioni dal campione perché utilizza l'auto-attenzione nella rete Transformer. Le rappresentazioni contestualizzate e l'uso della rete Transformer sono ciò che distingue il modello data2vec da quello già esistente BERT, wav2vec, BEiT, SimMIM, MAE e MaskFeat modelli che prevedono obiettivi senza informazioni contestuali. 

Ecco come il modello data2vec parametrizza la modalità insegnante per prevedere le rappresentazioni di rete che poi fungono da obiettivi. 

Parametrizzazione dell'insegnante

Il modello data2vec ha parametrizzato la codifica del campione di addestramento non mascherato con l'uso di EMA o media mobile esponenziale dei parametri del modello (θ) dove i pesi del modello nel modalità bersaglio(△) sono i seguenti:

                                           ∆ ← τ∆ + (1 − τ ) θ

 

Inoltre, il modello pianifica per τ che aumenta linearmente il parametro from  τ0 a τe (valore target) sui primi τn aggiornamenti. Dopo questi aggiornamenti, il modello mantiene il valore costante fino al termine dell'addestramento. L'uso della strategia EMA aggiorna l'insegnante molto più frequentemente all'inizio quando inizia la formazione quando il modello è casuale. Man mano che la formazione procede e sono stati appresi buoni parametri, l'insegnante viene aggiornato meno frequentemente. 

I risultati mostrano che il modello è più efficiente e preciso quando condivide i parametri del codificatore di funzioni e del codificatore posizionale tra la modalità studente e insegnante. 

Obiettivi

La costruzione degli obiettivi di allenamento dipende dall'output del top K blocchi della rete dell'insegnante per i passaggi temporali che sono mascherati nella modalità studente. L'uscita del blocco l in qualsiasi momento t è indicato come alt. Il modello quindi applica la normalizzazione a ciascun blocco per ottenere âlt prima che faccia la media dei primi K blocchi 

  

 

per ottenere l'obiettivo formativo yt per passo temporale t per una rete con L blocchi in totale. 

Crea target di addestramento che il modello regredisce quando è in modalità studente. Negli esperimenti iniziali, il modello data2vec ha funzionato bene nel predire ogni blocco separatamente con una proiezione dedicata, risultando allo stesso tempo molto più efficiente. 

Inoltre, la normalizzazione degli obiettivi consente anche al modello data2vec di collassare in rappresentazioni costanti per i passaggi temporali e impedisce ai livelli con un'elevata normalizzazione di dominare le caratteristiche nel set di dati di destinazione. Per il riconoscimento vocale, il modello utilizza la normalizzazione dell'istanza sul campione di input corrente senza parametri appresi. È principalmente perché poiché il passo sui dati di input è piccolo, le rappresentazioni vicine sono altamente correlate. 

Inoltre, i ricercatori hanno scoperto che quando si lavora con la visione artificiale e la PNL, la normalizzazione senza parametri fa il lavoro a sufficienza. Il problema può anche essere risolto con Varianza-Invarianza-Covarianza regolarizzazione, ma la strategia di cui sopra funziona sufficientemente bene e non richiede parametri aggiuntivi. 

Obiettivo

Per obiettivi formativi contestualizzati yt, il modello usa a Perdita liscia L1 per regredire gli obiettivi come indicato di seguito

Qui, β ha il controllo della transizione da una perdita al quadrato a una perdita L1, e dipende fortemente dalla dimensione del divario tra la previsione del modello ft(x) al passo temporale t. Il vantaggio di questa perdita è che lo è relativamente meno sensibile ai valori anomali, con la necessità di regolare l'impostazione di β

Setup sperimentale

Il modello data2vec viene sperimentato con due dimensioni del modello: data2vec Grande e Data2vec Base. Per stabilità numerica, gli aggiornamenti EMA vengono eseguiti in fp32 e i modelli contengono L= 12 o L= 24 blocchi Transformer con dimensioni nascoste (H) = 768 o H= 1024. Diamo uno sguardo dettagliato alla configurazione sperimentale per diverse modalità , e finalità. 

Visione computerizzata

Il modello data2vec incorpora immagini di 224×224 pixel come patch di 16×16 pixel. Ognuna di queste patch viene trasformata in modo lineare e una sequenza con 196 rappresentazioni viene inviata al Transformer standard. 

Segue il modello BEIT per mascherare blocchi con patch adiacenti con ogni blocco avente un minimo di 16 patch con proporzioni casuali. Tuttavia, invece di mascherare il 40% della patch come originariamente nel modello BEiT, il modello data2vec maschera il 60% della patch per una migliore precisione. 

Inoltre, il modello ridimensiona in modo casuale i ritagli dell'immagine, i capovolgimenti orizzontali e il tremolio del colore. Infine, il modello data2vec utilizza la stessa immagine modificata sia nella modalità insegnante che in quella studente. 

I modelli ViT-B sono preaddestrati per 800 epoche e il modello data2vec utilizza la dimensione batch di 8,192 per il modello ViT-L e 2,048 per il modello ViT-B. Il modello data2vec utilizza anche un coseno e un programma Adam con un singolo ciclo per riscaldare il tasso di apprendimento per 80 epoche a 0.001 per ViT-L e per 40 epoche a 0.001 per ViT-B. 

Sia per ViT-B che per ViT-L, il modello data2vec utilizza β = 2, K = 6 e τ = 0.9998 come costanti senza pianificazione. Il modello utilizza inoltre il tasso di profondità stocastico 0.2. 

Inoltre, per ViT-L, il modello esegue il training per 1,600 epoche in cui le prime 800 epoche hanno un tasso di apprendimento pari a 0.9998, quindi il modello reimposta il programma del tasso di apprendimento e continua per le ultime 800 epoche con un tasso di apprendimento pari a 0.9999. 

Per la classificazione delle immagini, il modello utilizza il pool medio dell'output dell'ultimo blocco Transformer e lo invia al classificatore normalizzato softmax. Il modello quindi ottimizza ViT-L per 50 epoche e ViT-B per 100 epoche utilizzando il coseno e Adam per riscaldare la velocità di apprendimento. 

Elaborazione vocale

Per l'elaborazione vocale, il modello data2vec utilizza il formato FairSeq, un kit di modellazione della sequenza utilizzato per addestrare i modelli dei clienti per il riepilogo, la traduzione e la generazione di testo. Il modello prende come input una forma d'onda a 16 kHz che viene elaborata utilizzando un codificatore di funzionalità e contiene convoluzioni temporali con 512 canali, larghezze del kernel (10,3,3,3,3,2,2) e passi (5,2,2,2,2,2,2 ,XNUMX). 

Quanto sopra fa sì che la frequenza di uscita dell'encoder sia di 50 Hz e che abbia un passo di 20 ms tra ciascun campione. Il campo ricettivo comprende 400 campioni di input o 25 ms di audio. La forma d'onda grezza inviata all'encoder viene normalizzata alla varianza unitaria e alla media zero

La strategia di mascheramento utilizzata da data2vec per il modello Base ricorda il framework Baevski per l'apprendimento auto-supervisionato nel riconoscimento vocale. I campioni del modello p = 0.065 affinché tutti i passaggi temporali siano indici iniziali e procede a contrassegnare i successivi dieci passaggi temporali. Per una tipica sequenza di allenamento, il processo consente di mascherare quasi il 49% delle fasi temporali totali. 

Durante l'addestramento, il modello data2vec esegue la ricottura lineare di τ utilizzando τo = 0.999, te = 0.9999 e τn = 30,000. Il modello data2vec utilizza l'ottimizzatore Adam con il tasso di apprendimento massimo pari a 5×10-4 per il modello Base. Inoltre, il modello di base utilizza uno scheduler a tre stadi che riscalda linearmente il tasso di apprendimento per il primo 3% degli aggiornamenti, lo mantiene per il successivo 90% e poi procede a decadimento lineare per il restante 7%. 

Elaborazione del linguaggio naturale

Il modello data2vec utilizza la codifica della coppia di byte di tipi da 50K per tokenizzare l'input, quindi il modello apprende un'incorporamento per ogni tipo. Dopo che i dati sono stati codificati, il modello applica la strategia di mascheramento BERT al 15% dei token selezionati in modo uniforme in cui l'80% viene sostituito da token maschera appresi, il 10% viene sostituito da token di vocabolario casuali e il restante 10% rimane invariato. 

Durante il pre-addestramento il modello utilizza τo = 0.999, te = 0.9999 e τn = 100,000, K= 10 e β = 4. Il modello utilizza l'ottimizzatore Adam con una pianificazione del tasso di apprendimento in tre fasi che riscalda linearmente il tasso di apprendimento per il primo 5% degli aggiornamenti, lo mantiene per il successivo 80% e quindi procede a decadimento lineare per il restante 15%, con il tasso di apprendimento massimo pari a 2×10-4

Inoltre, il modello si allena su 16 GPU con una dimensione batch di 256 sequenze e ciascuna sequenza contenente circa 512 token. Per il downstreaming, il modello è pre-addestrato in quattro diversi tassi di apprendimento: 1×10-4, 2 × 10-4, 3 × 10-4, 4 × 10-4, e quella con le prestazioni migliori viene selezionata per ulteriori attività di downstreaming della PNL. 

Risultati

Diamo un'occhiata a come si comporta il modello data2vec quando implementa le strategie discusse sopra per diverse modalità. 

Visione computerizzata

Per valutare i risultati per la visione artificiale, il modello data2vec viene preaddestrato sulle immagini ottenute dal ImageNet-1K insieme di dati. Il modello risultante viene messo a punto utilizzando i dati etichettati dello stesso benchmark. Come da prassi standard, il modello viene quindi valutato in termini di precisione top-1 sui dati di convalida. 

I risultati vengono quindi distinti sulla base di un singolo modello auto-supervisionato e addestrando un tokenizer visivo separato su dati aggiuntivi o altri modelli di apprendimento auto-supervisionati. 

La tabella seguente confronta le prestazioni del modello data2vec per la visione artificiale e altri modelli esistenti: ViT-L e ViT-B. 

I risultati della tabella precedente possono essere riassunti come segue. 

  • Il modello data2vec supera il lavoro precedente con entrambi i modelli ViT-L e ViT-B nell'impostazione del modello singolo. 
  • L'impostazione della previsione mascherata utilizzata nell'algoritmo data2vec per prevedere le rappresentazioni latenti contestualizzate offre prestazioni migliori rispetto ai metodi che prevedono obiettivi locali come caratteristiche dell'immagine ingegneristica, pixel di input o token visivi. 
  • Il modello data2vec supera anche i metodi di auto-distillazione che fanno regredire il livello finale della rete studentesca prendendo due diverse versioni aumentate di un'immagine come input. 

Elaborazione audio e vocale

Per l'elaborazione vocale e audio, il modello data2vec viene addestrato su circa 960 ore di dati audio ottenuti dal file Librispeech(LS-960) insieme di dati. Il set di dati contiene audio vocale pulito da audiolibri in inglese ed è considerato un punto di riferimento standard nel settore dell'elaborazione vocale e audio. 

Per analizzare le prestazioni del modello in diverse impostazioni delle risorse, i ricercatori hanno messo a punto il modello data2vec per utilizzare diverse quantità di dati etichettati (da pochi minuti a diverse ore) per il riconoscimento vocale automatico. Per analizzare le prestazioni del modello, data2vec viene confrontato con HuBERT & wav2vec 2.0, due degli algoritmi più popolari per l'apprendimento della rappresentazione vocale e audio che si basano su unità vocali discrete. 

La tabella sopra confronta le prestazioni di data2vec in termini di word rate per il riconoscimento vocale con altri modelli esistenti. LM rappresenta il modello linguistico utilizzato per la decodifica. I risultati possono essere riassunti come segue. 

  • Il modello data2vec mostra miglioramenti per la maggior parte delle configurazioni di dati etichettati con il massimo guadagno di 10 minuti di dati etichettati per i modelli Base. 
  • Quando si tratta di modelli di grandi dimensioni, il modello offre prestazioni significativamente migliori su piccoli set di dati etichettati e le prestazioni sono paragonabili a set di dati ricchi di risorse con oltre 100 e 960 ore di dati etichettati. È perché le prestazioni generalmente si saturano su set di dati etichettati ricchi di risorse per la maggior parte dei modelli. 
  • Dopo aver analizzato le prestazioni, si può dedurre che quando il modello utilizza target ricchi e contestualizzati, non è essenziale apprendere unità discrete. 
  • L'apprendimento di obiettivi contestualizzati durante l'allenamento aiuta a migliorare significativamente le prestazioni complessive. 

Inoltre, per convalidare l'approccio di data2vec per il riconoscimento vocale, il modello viene addestrato anche su Set Audio segno di riferimento. Sebbene la configurazione di pre-addestramento per AudioSet sia simile a Librispeech, il modello viene addestrato per K= 12 e per oltre 200 aggiornamenti, dove la dimensione di ciascun batch è di 94.5 minuti. 

Il modello applica quindi il DeepNorm quadro, e normalizzazione degli strati agli obiettivi per aiutare a stabilizzare l'allenamento. Inoltre, il modello è ottimizzato anche su sottoinsiemi bilanciati con dimensioni batch di 21.3 minuti su 13 aggiornamenti. Il modello utilizza anche Pooling Softmax lineare e confusione con un punteggio di probabilità di 0.7. Il modello aggiunge quindi a singola proiezione lineare in 527 classi uniche di audio e imposta il file tasso di apprendimento della proiezione a 2e-4. 

Inoltre, i parametri pre-addestrati hanno un tasso di apprendimento di 3e-5 e il modello utilizza tecniche di mascheramento per mettere a punto il set di dati. La tabella seguente riassume i risultati e si può vedere che il modello data2vec è in grado di superare una configurazione comparabile con gli stessi dati di fine tuning e pre-training. 

Elaborazione del linguaggio naturale

Per analizzare le prestazioni di data2vec sul testo, il modello segue la stessa configurazione di addestramento di BERTA e pre-addestrare il modello sul set di dati di Wikipedia in inglese con oltre 1 milione di aggiornamenti e la dimensione del batch è di 256 sequenze. Il modello viene valutato sul GLUE o valutazione generale della comprensione del linguaggio benchmark che include attività di interferenza del linguaggio naturale (MNLI o inferenza del linguaggio naturale multigenere), somiglianza di frase (QQP o Quora Question Pairs benchmark, MRPC o Microsoft Research Paragraph Corpus e STS-B o Semantic Textual Similarity Benchmark), analisi del sentimento(SST-2 o Stanford Sentiment Treebank), e grammaticalmente (Coca Cola). 

Inoltre, per mettere a punto il modello data2vec, i dati etichettati vengono forniti da ciascuna attività e l'accuratezza media viene riportata sui set di sviluppo con 5 esecuzioni di fine tuning. La tabella seguente riassume le prestazioni del modello data2vec per le attività di elaborazione del linguaggio naturale e le confronta con altri modelli. 

  • I dati precedenti mostrano che il modello data2vec supera il modello RoBERTa di base poiché la strategia nel modello data2vec non utilizza obiettivi casuali. 
  • Il modello data2vec è il primo modello di PNL pre-addestrato di successo che non utilizza unità discrete come caratteri, parole o sottoparole come obiettivi di addestramento. Invece, il framework data2vec prevede la rappresentazione latente contestualizzata sulla sequenza di testo completa non mascherata. 
  • Aiuta a creare un'attività di apprendimento in cui il modello è tenuto a prevedere obiettivi con proprietà specifiche dalla sequenza corrente piuttosto che prevedere rappresentazioni generiche per ogni unità di testo con particolare discrezione. 
  • Inoltre, l'obiettivo dell'allenamento non è fisso e il modello è libero di definire nuovi obiettivi ed è aperto alle impostazioni del vocabolario. 

Data2Vec: studio sulle ablazioni

Ablazione è un termine usato per definire la rimozione di un componente nei sistemi AI e ML. Uno studio di ablazione viene utilizzato per indagare o analizzare le prestazioni di un modello AI o ML rimuovendo alcuni componenti chiave dal modello che consente ai ricercatori di comprendere il contributo di tale componente nel sistema complessivo. 

Obiettivi con media dei livelli

Una delle principali differenze tra data2vec e altri modelli di apprendimento auto-supervisionato è che il modello data2vec utilizza obiettivi basati sulla media di più livelli dalla rete dell'insegnante. L'idea nasce dal fatto che i livelli superiori superiori del modello wav2vec 2.0 non si comportano bene per le attività a valle rispetto ai livelli intermedi del modello. 

Nel seguente esperimento, le prestazioni di tutte e tre le modalità vengono misurate calcolando la media di K= 1, 2, …, 12 strati dove K= 1 predice solo lo strato superiore. Tuttavia, per ottenere tempi di risposta più rapidi, data2vec esegue il training del modello di base con 12 livelli in totale. Per il riconoscimento vocale, il modello viene pre-addestrato su oltre duecentomila aggiornamenti su Librispeech, quindi messo a punto su una suddivisione etichettata di 10 ore di Libri-light. Per l'elaborazione del linguaggio naturale, il modello riporta il punteggio GLUE medio per il set di convalida e pre-addestra il modello per 300 epoche per la visione artificiale e quindi riporta l'accuratezza top-1 ottenuta sul set di dati ImageNet. 

La figura sopra mostra che gli obiettivi basati su più livelli generalmente migliorano quando viene utilizzato solo il livello superiore K=1 per tutte le modalità. L'utilizzo di tutti i livelli disponibili è una buona pratica in quanto le reti neurali creano funzionalità su diversi tipi di funzionalità e numerosi livelli che vengono quindi estratti come livelli di funzionalità. 

L'utilizzo di funzionalità di più livelli aiuta a migliorare la precisione e arricchisce il processo di apprendimento auto-supervisionato. 

Tipo di caratteristica di destinazione

I blocchi del trasformatore nel modello data2vec hanno diversi livelli che possono tutti fungere da obiettivi. Per analizzare in che modo i diversi livelli influiscono sulle prestazioni, il modello viene pre-addestrato sui modelli vocali di Librispeech che utilizzano diversi livelli come caratteristiche di destinazione. 

La figura seguente indica chiaramente che l'output della rete di feed forward o FFN funziona idealmente mentre l'output dei blocchi di auto-attenzione non si traduce in un modello utilizzabile. 

Contestualizzazione del target

Le rappresentazioni degli insegnanti nel modello data2vec utilizzano l'auto-attenzione sull'intero input per produrre obiettivi contestualizzati. È ciò che distingue data2vec da altri modelli di apprendimento auto-supervisionato che costruiscono un'attività di apprendimento ricostruendo o prevedendo parti locali dell'input. Evidentemente pone la domanda: il modello data2vec richiede obiettivi contestualizzati per funzionare bene? 

Per rispondere alla domanda, i ricercatori costruiscono rappresentazioni target che non hanno accesso all'intero set di dati di input ma solo a una frazione di esso predeterminata. Il modello quindi limita il meccanismo di auto-attenzione dell'insegnante che gli consente di accedere solo a una parte dell'input dell'ambiente circostante. Dopo che il modello è stato addestrato, viene messo a punto per accedere all'intera dimensione del contesto. 

La figura seguente indica che dimensioni di contesto maggiori spesso portano a prestazioni migliori e quando l'intero campione di input è visibile, produce la massima precisione. Lo dimostra ulteriormente rappresentazioni di destinazione più ricche possono produrre prestazioni migliori. 

Estrattori di funzionalità specifiche della modalità e mascheramento

L'obiettivo principale di data2vec è progettare un semplice meccanismo di apprendimento che possa funzionare con diverse modalità. È perché, sebbene i modelli e i framework attuali abbiano un regime di apprendimento unificato, usano ancora il mascheramento specifico della modalità e gli estrattori di funzionalità. 

Ha senso che i framework funzionino principalmente con un'unica modalità, dato che la natura dei dati di input varia notevolmente l'una dall'altra. Ad esempio, i modelli di riconoscimento vocale utilizzano un input ad alta risoluzione (come una forma d'onda a 10 kHz) che di solito ha migliaia di campioni. La forma d'onda viene quindi elaborata dal framework utilizzando una rete neurale convoluzionale multistrato per ottenere sequenze di caratteristiche di 50 Hz. 

Obiettivi strutturati e contestualizzati

Il principale punto di differenziazione tra data2vec e altri modelli di previsione mascherata è che nel modello data2vec le caratteristiche degli obiettivi di addestramento sono contestualizzate. Queste funzionalità sono costruite utilizzando l'auto-attenzione dell'intero input mascherato in modalità insegnante. 

Alcuni altri framework come BYOL (Bootstrap Your Own Latent) o DINO usano anche rappresentazioni latenti come data2vec, ma il loro obiettivo principale è apprendere rappresentazioni invarianti di trasformazione. 

Considerazioni finali

Recenti lavori nel settore dell'intelligenza artificiale e del machine learning hanno indicato che le architetture di modelli uniformi possono essere un approccio efficace per affrontare più modalità. Il modello data2vec utilizza un approccio di apprendimento auto-supervisionato per lavorare con tre modalità: parlato, immagini e linguaggio. 

Il concetto chiave alla base del modello data2vec consiste nell'utilizzare la vista di input parziale per regredire informazioni contestualizzate o dati di input. L'approccio utilizzato dai framework data2vec è efficace in quanto il modello offre prestazioni migliori rispetto ai precedenti modelli di apprendimento auto-supervisionato sul set di dati ImageNet-1K sia per i modelli singoli ViT-B che ViT-L. 

Data2vec è davvero una pietra miliare nel settore dell'apprendimento autosupervisionato in quanto dimostra che un singolo metodo di apprendimento per l'apprendimento di più modalità può effettivamente rendere più facile l'apprendimento dei modelli in tutte le modalità. 

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.