toco data2vec: Um marco na aprendizagem auto-supervisionada - Unite.AI
Entre em contato

Inteligência artificial

data2vec: um marco na aprendizagem auto-supervisionada

mm
Atualização do on

Os modelos de aprendizado de máquina dependem fortemente de dados rotulados para treinamento e, tradicionalmente, os modelos de treinamento em dados rotulados produzem resultados precisos. No entanto, a principal desvantagem do uso de dados rotulados são os altos custos de anotação que aumentam com o aumento do tamanho dos dados de treinamento. Os altos custos de anotação são um grande obstáculo para os desenvolvedores, especialmente quando se trabalha em um projeto grande com quantidades substanciais de dados de treinamento.

Para resolver o problema de anotação, os desenvolvedores criaram o conceito de SSL ou Aprendizagem Auto-Supervisionada. Aprendizado auto-supervisionado é um processo de aprendizado de máquina no qual o modelo treina a si mesmo para aprender uma parte da entrada de outra parte da entrada. Um modelo de Aprendizagem Auto-Supervisionada visa explorar a relação entre os dados em vez de usar sinais supervisionados de dados rotulados. 

Além do aprendizado auto-supervisionado, existem vários outros métodos e modelos para treinar modelos de aprendizado de máquina sem o uso de dados rotulados. No entanto, a maioria desses métodos tem dois problemas principais

  1. Muitas vezes, eles são especializados para uma única modalidade, como uma imagem ou um texto. 
  2. Eles exigem uma grande quantidade de poder computacional. 

Essas limitações são uma questão importante porque uma mente humana média é capaz de aprender com um único tipo de dados com muito mais eficiência quando comparado a um modelo de IA que depende de modelos separados e dados de treinamento para distinguir entre imagem, texto e fala. 

Para resolver a questão da modalidade única, a Meta AI lançou o data2vec, o primeiro algoritmo auto supervisionado de alto desempenho aprender informações de padrões de três modalidades diferentes: imagem, texto e fala. Com a implementação do algoritmo data2vec, os entendimentos de texto podem ser aplicados a um problema de segmentação de imagem ou também podem ser implantados em uma tarefa de reconhecimento de fala. 

Neste artigo, falaremos sobre o modelo data2vec em profundidade. Discutiremos a visão geral do método, trabalho relacionado, arquitetura e resultados do modelo em maior profundidade para que você tenha uma compreensão clara do algoritmo data2vec. 

Introdução ao Data2vec: a ideia principal

Embora o conceito fundamental de Aprendizagem Auto-Supervisionada seja aplicado em várias modalidades, os objetivos e algoritmos reais diferem uns dos outros porque foram projetados em relação a uma única modalidade. Projetar um modelo para uma única modalidade é a razão pela qual o mesmo algoritmo de aprendizado autossupervisionado não pode funcionar efetivamente em diferentes tipos de dados de treinamento. 

Para superar o desafio apresentado por modelos e algoritmos de modalidade única, a Meta AI lançou o data2vec, um algoritmo que usa a mesma metodologia de aprendizagem para visão computacional, PNL ou fala.  

A ideia central por trás do algoritmo data2vec é usar a visão mascarada da entrada para prever representações latentes dos dados de entrada completos em uma configuração de autodestilação com a ajuda de arquitetura padrão do Transformer. Portanto, em vez de objetos específicos da modalidade, como imagens, texto ou voz, que são de natureza local, o algoritmo data2vec prevê representações latentes com informações do treinamento completo ou dados de entrada. 

Por que a indústria de IA precisa do algoritmo Data2Vec?

Os modelos de aprendizagem auto-supervisionada constroem representações dos dados de treinamento usando rótulos anotados por humanos, e é uma das principais razões por trás do avanço da PNL ou Processamento de Linguagem Natural e da tecnologia de Visão Computacional. Essas representações de aprendizagem auto-supervisionada são a razão pela qual tarefas como reconhecimento de fala e aprendizado de máquina implementam aprendizagem não supervisionada em seus modelos. 

Até agora, esses algoritmos de aprendizado autossupervisionados se concentram em modalidades individuais que resultam em vieses de aprendizado e designs específicos nos modelos. A modalidade individual de algoritmos de aprendizado autossupervisionados cria desafios em diferentes aplicações de IA, incluindo visão computacional e PNL. 

Por exemplo, existem vocabulários de unidades de fala no processamento de fala que podem definir uma tarefa de aprendizagem autossupervisionada em PNL. Da mesma forma, em visão computacional, os desenvolvedores podem regredir a entrada, aprender tokens visuais discretos ou aprender representações invariantes ao aumento de dados. Embora esses vieses de aprendizado sejam úteis, é difícil confirmar se esses vieses se generalizarão para outras modalidades. 

O algoritmo data2vec é um marco importante no setor de aprendizado autossupervisionado, pois visa melhorar várias modalidades, em vez de apenas uma. Além disso, o algoritmo data2vec não depende da reconstrução da entrada ou do aprendizado contrastivo. 

Portanto, a razão pela qual o mundo precisa do data2vec é porque o algoritmo data2vec tem o potencial de acelerar o progresso na IA e contribui para o desenvolvimento de modelos de IA que podem aprender sobre diferentes aspectos de seus arredores sem problemas. Os cientistas esperam que o algoritmo data2vec lhes permita desenvolver modelos de IA e ML mais adaptáveis, capazes de executar tarefas altamente avançadas além do que os modelos de IA atuais podem fazer.

O que é o Algoritmo Data2Vec?

O data2vec é uma estrutura unificada que visa implementar o aprendizado de máquina autossupervisionado em diferentes modalidades de dados, incluindo imagens, fala e texto. 

O algoritmo data2vec visa desenvolver modelos de ML que podem aprender os padrões gerais no ambiente muito melhor, mantendo o objetivo de aprendizado uniforme em diferentes modalidades. O modelo data2vec unifica o algoritmo de aprendizado, mas ainda aprende as representações para cada modalidade individualmente. 

Com a introdução do algoritmo data2vec, a Meta AI espera tornar o aprendizado multimodal eficaz e muito mais simples. 

Como funciona o algoritmo Data2Vec?

O algoritmo data2vec combina os aprendizados de representações de alvos latentes com previsão mascarada, embora use várias camadas de rede como alvos para generalizar as representações latentes. O modelo treina especificamente um off-the-shelf Rede transformadora que é então usado tanto no professor ou aluno modo. 

No modo professor, o modelo primeiro constrói as representações do dados de entrada que servem como alvos na tarefa de aprendizagem. No modo de estudante, o modelo codifica uma versão mascarada dos dados de entrada que são usados ​​para fazer previsões em representações de dados completos. 

A figura acima representa como o modelo data2vec usa o mesmo processo de aprendizagem para diferentes modalidades. Na primeira etapa, o modelo produz representações dos dados de entrada (modo professor). O modelo então regride essas representações com base em uma versão mascarada da entrada. 

Além disso, como o algoritmo data2vec usa representações latentes dos dados de entrada, ele pode ser visto como uma versão simplificada dos projetos específicos da modalidade, como criando alvos adequados normalizando a entrada or aprendendo um conjunto fixo de tokens visuais. Mas o ponto de diferenciação crucial entre o data2vec e outros algoritmos é que o algoritmo data2vec usa a autoatenção para fazer sua representação de destino contextualizado e contínuo. Por outro lado, outros modelos de aprendizado autossupervisionado usam um conjunto fixo de alvos baseados em um contexto local. 

Data2vec: método do modelo

O modelo data2vec é treinado prevendo as representações do modelo dos dados de entrada com uma visão parcial da entrada. Como você pode ver na figura fornecida, o rosto do cachorro é mascarado, uma seção específica da nota de voz é mascarada e a palavra “de” é mascarado no texto. 

O modelo primeiro codifica uma versão mascarada da amostra de treinamento (modo estudante) e, em seguida, codifica a versão não mascarada da entrada para construir metas de treinamento com o mesmo modelo, mas somente quando é parametrizada como a média exponencial dos pesos do modelo (modo professor). Além disso, as representações de destino codificam as informações presentes na amostra de treinamento e, no modo aluno, a tarefa de aprendizado é usada para prever essas representações quando é dada uma visão parcial da entrada. 

Arquitetura Modelo

O modelo data2vec usa um padrão Arquitetura do transformador com codificação específica da modalidade dos dados de entrada. Para tarefas relacionadas à visão computacional, o modelo usa a estratégia ViT para codificar uma imagem como uma sequência de patches onde cada imagem se estende por 16 × 16 pixels e é alimentada como uma transformação linear. 

Além disso, os dados para reconhecimento de fala, o modelo codifica os dados usando uma rede neural convolucional 1-D multicamada que mapeia as formas de onda de 16 kHz em representações de 50 Hz. Para processar os dados de texto, o modelo pré-processa os dados para extrair unidades de subpalavras e, em seguida, incorpora os dados no espaço de distribuição por meio de vetores de incorporação. 

Mascaramento

Depois que o modelo incorpora os dados de entrada como uma sequência de tokens, o modelo mascara partes dessas unidades, substituindo-as por um token de incorporação e, em seguida, alimenta a sequência para o transformador rede. Para visão computacional, o modelo pratica a estratégia de marcação em bloco. As representações de fala latente são usadas para mascarar intervalos de dados de fala e, para tarefas relacionadas ao idioma, os tokens são mascarados. 

Metas de treinamento

O modelo data2vec visa prever as representações do modelo da amostra de treinamento não mascarada com base em uma codificação da amostra mascarada que foi originalmente alimentada ao modelo. O modelo prevê as representações apenas para intervalos de tempo mascarados. 

O modelo prevê representações contextualizadas que não apenas codificam o intervalo de tempo específico, mas também codificam outras informações da amostra porque usam a autoatenção na rede do Transformer. As representações contextualizadas e o uso da rede Transformer é o que distingue o modelo data2vec dos já existentes BERT, wav2vec, BEiT, SimMIM, MAE e MaskFeat modelos que prevêem alvos sem informações contextuais. 

Aqui está como o modelo data2vec parametriza o modo professor para prever as representações de rede que servem como alvos. 

Parametrização Docente

O modelo data2vec parametrizou a codificação da amostra de treinamento sem máscara com o uso de MME ou Média Móvel Exponencial dos parâmetros do modelo (θ) onde os pesos do modelo no modo de destino (△) são tal como se segue

                                           ∆ ← τ∆ + (1 − τ ) θ

 

Além disso, os esquemas de modelo para τ que aumentam linearmente o parâmetro de  τ0 a τe (valor alvo) nas primeiras τn atualizações. Após essas atualizações, o modelo mantém o valor constante até o término do treinamento. O uso da estratégia EMA atualiza o professor com muito mais frequência no início, quando o treinamento começa quando o modelo é aleatório. À medida que o treinamento avança e bons parâmetros são aprendidos, o professor é atualizado com menos frequência. 

Os resultados mostram que o modelo é mais eficiente e preciso quando compartilha os parâmetros do codificador de recurso e do codificador posicional entre o modo aluno e professor. 

Alvos

A construção dos alvos de treinamento são dependentes da saída do topo K blocos da rede do professor para intervalos de tempo que são mascarados no modo aluno. A saída do bloco l a qualquer passo de tempo t é denotado como umlt. O modelo então aplica a normalização a cada bloco para obter âlt antes de calcular a média dos K ​​blocos principais 

  

 

para obter a meta de treinamento yt para passo de tempo t para uma rede com L blocos no total. 

Ele cria metas de treinamento que o modelo regride quando está no modo de aluno. Nos experimentos iniciais, o modelo data2vec teve um bom desempenho na previsão de cada bloco separadamente com uma projeção dedicada, sendo muito mais eficiente ao mesmo tempo. 

Além disso, a normalização dos alvos também permite que o modelo data2vec entre em colapso em representações constantes para etapas de tempo e evita que camadas com alta normalização dominem os recursos no conjunto de dados de destino. Para reconhecimento de fala, o modelo usa normalização de instância sobre a amostra de entrada atual sem nenhum parâmetro aprendido. Principalmente porque, como o passo sobre os dados de entrada é pequeno, as representações vizinhas são altamente correlacionadas. 

Além disso, os pesquisadores descobriram que, ao trabalhar com visão computacional e NLP, a normalização sem parâmetros faz o trabalho suficientemente. O problema também pode ser resolvido com Variância-Invariância-Covariância regularização, mas a estratégia mencionada acima funciona suficientemente bem e não requer nenhum parâmetro adicional. 

Objetivo

Para metas de treinamento contextualizadas yt, o modelo usa um Perda suave de L1 para regredir as metas conforme mencionado abaixo

Aqui, β está no controle da transição de uma perda quadrada para uma perda L1 e depende muito do tamanho da lacuna entre a previsão do modelo ft(x) no passo de tempo t. A vantagem dessa perda é que é comparativamente menos sensível aos outliers, com a necessidade de ajustar a configuração de β

Setup Experimental

O modelo data2vec é experimentado com dois tamanhos de modelo: data2vec Grande e base de dados2vec. Para estabilidade numérica, as atualizações do EMA são feitas em fp32, e os modelos contêm L= 12 ou L= 24 Blocos transformadores com dimensões ocultas (H) = 768 ou H= 1024. Vamos dar uma olhada detalhada na configuração experimental para diferentes modalidades , e propósitos. 

Visão de Computador

O modelo data2vec incorpora imagens de 224×224 pixels como patches de 16×16 pixels. Cada um desses patches é transformado linearmente e uma sequência com 196 representações é alimentada ao Transformer padrão. 

O modelo segue BEiT para mascarar blocos com patches adjacentes com cada bloco tendo um mínimo de 16 patches com uma proporção aleatória. No entanto, em vez de mascarar 40% do patch como originalmente no modelo BEiT, o modelo data2vec mascara 60% do patch para melhor precisão. 

Além disso, o modelo redimensiona aleatoriamente os recortes de imagem, inversões horizontais e instabilidade de cores. Finalmente, o modelo data2vec usa a mesma imagem modificada tanto no modo professor quanto no modo aluno. 

Os modelos ViT-B são pré-treinados para 800 épocas, e o modelo data2vec usa o tamanho de lote de 8,192 para o modelo ViT-L e 2,048 para o modelo ViT-B. O modelo data2vec também usa um cosseno e um cronograma de Adam com um único ciclo para aquecer a taxa de aprendizado de 80 épocas para 0.001 para ViT-L e de 40 épocas para 0.001 para ViT-B. 

Tanto para ViT-B quanto para ViT-L, o modelo data2vec usa β = 2, K = 6 e τ = 0.9998 como constante sem programação. O modelo usa ainda a taxa de profundidade estocástica 0.2. 

Além disso, para ViT-L, o modelo treina por 1,600 épocas em que as primeiras 800 épocas têm uma taxa de aprendizado de 0.9998 e, em seguida, o modelo redefine a programação da taxa de aprendizado e continua nas 800 épocas finais com uma taxa de aprendizado de 0.9999. 

Para classificação de imagens, o modelo usa o pool médio da saída do último bloco Transformer e o alimenta no classificador normalizado softmax. O modelo então ajusta o ViT-L por 50 épocas e o ViT-B por 100 épocas usando o cosseno e Adam para aquecer a taxa de aprendizado. 

Processamento de fala

Para processamento de fala, o modelo data2vec usa o Fairseq, um kit de modelagem de sequência usado para treinar modelos de clientes para resumo, tradução e geração de texto. O modelo usa uma forma de onda de 16 kHz como entrada que é processada usando um codificador de recurso e contém convoluções temporais com 512 canais, larguras de kernel (10,3,3,3,3,2,2) e passos (5,2,2,2,2,2,2 ,XNUMX). 

O acima resulta na frequência de saída do codificador sendo 50 Hz e tem um intervalo de 20 ms entre cada amostra. O campo receptivo compreende 400 amostras de entrada ou 25 ms de áudio. A forma de onda bruta alimentada ao codificador é normalizada para variação de unidade e média zero

A estratégia de mascaramento usada pelo data2vec para o modelo Base se assemelha ao framework Baevski para aprendizado autossupervisionado em reconhecimento de fala. As amostras do modelo p = 0.065 para que todos os intervalos de tempo sejam índices iniciais e prossiga para marcar os dez intervalos de tempo seguintes. Para uma sequência de treinamento típica, o processo permite que quase 49% do total de passos de tempo sejam mascarados. 

Durante o treinamento, o modelo data2vec recoze linearmente τ usando τo = 0.999, τe = 0.9999, e τn = 30,000. O modelo data2vec usa o otimizador Adam com a taxa de aprendizado de pico sendo 5 × 10-4 para o modelo Base. Além disso, o modelo básico usa um escalonador de três estágios que aquece a taxa de aprendizado linearmente nos primeiros 3% das atualizações, mantém-na nos próximos 90% e, em seguida, decai-a linearmente nos 7% restantes. 

Processamento de linguagem natural

O modelo data2vec usa a codificação de pares de bytes de tipos de 50K para tokenizar a entrada e o modelo então aprende uma incorporação para cada tipo. Depois que os dados são codificados, o modelo aplica a estratégia de mascaramento BERT a 15% dos tokens uniformemente selecionados, nos quais 80% são substituídos por tokens de máscara aprendidos, 10% são substituídos por tokens de vocabulário aleatório e os 10% restantes permanecem inalterados. 

Durante o pré-treinamento, o modelo usa τo = 0.999, τe = 0.9999, e τn = 100,000, K= 10 e β = 4. O modelo usa o otimizador Adam com uma programação de taxa de aprendizado de três estágios que aquece a taxa de aprendizado linearmente nos primeiros 5% das atualizações, mantém-na nos próximos 80% e então prossegue para decaí-lo linearmente para os 15% restantes, com a taxa de aprendizado de pico sendo 2 × 10-4

Além disso, o modelo treina em 16 GPUs com um tamanho de lote de 256 sequências e cada sequência contendo cerca de 512 tokens. Para downstreaming, o modelo é pré-treinado em quatro diferentes taxas de aprendizado: 1×10-4, 2 × 10-4, 3 × 10-4, 4 × 10-4, e aquele que executa o melhor é selecionado para outras tarefas de downstreaming de NLP. 

Resultados

Vamos dar uma olhada no desempenho do modelo data2vec ao implementar as estratégias discutidas acima para diferentes modalidades. 

Visão de Computador

Para avaliar os resultados para visão computacional, o modelo data2vec é pré-treinado nas imagens obtidas do ImageNet-1K conjunto de dados. O modelo resultante é ajustado usando os dados rotulados do mesmo benchmark. De acordo com a prática padrão, o modelo é então avaliado em termos de precisão top 1 em dados de validação. 

Os resultados são então distinguidos com base em um único modelo autossupervisionado e treinando um tokenizador visual separado em dados adicionais ou outros modelos de aprendizado autossupervisionados. 

A tabela abaixo compara o desempenho do modelo data2vec para visão computacional e outros modelos existentes: ViT-L e ViT-B. 

Os resultados da tabela acima podem ser resumidos da seguinte forma. 

  • O modelo data2vec supera o trabalho anterior com os modelos ViT-L e ViT-B na configuração de modelo único. 
  • A configuração de previsão mascarada usada no algoritmo data2vec para prever representações latentes contextualizadas tem um desempenho melhor quando comparada a métodos que preveem alvos locais, como recursos de imagem de engenharia, pixels de entrada ou tokens visuais. 
  • O modelo data2vec também supera os métodos de autodestilação que regridem a camada final da rede do aluno enquanto usam duas versões aumentadas diferentes de uma imagem como entradas. 

Processamento de áudio e fala

Para processamento de fala e áudio, o modelo data2vec é treinado em cerca de 960 horas de dados de áudio obtidos do Librispeech (LS-960) conjunto de dados. O conjunto de dados contém áudio de fala limpo de audiolivros em inglês e é tratado como uma referência padrão na indústria de processamento de fala e áudio. 

Para analisar o desempenho do modelo em diferentes configurações de recursos, os pesquisadores ajustaram o modelo data2vec para usar diferentes quantidades de dados rotulados (de alguns minutos a várias horas) para reconhecimento automático de fala. Para analisar o desempenho do modelo, data2vec é comparado com HuBERT & wav2vec 2.0, dois dos algoritmos mais populares para aprendizados de representação de voz e áudio que dependem de unidades de fala discretas. 

A tabela acima compara o desempenho do data2vec em termos de taxa de palavras para reconhecimento de fala com outros modelos existentes. LM representa o modelo de linguagem usado para decodificação. Os resultados podem ser resumidos como se segue. 

  • O modelo data2vec mostra melhorias para a maioria das configurações de dados rotulados com o maior ganho de 10 minutos de dados rotulados para modelos Base. 
  • Quando se trata de modelos grandes, o desempenho do modelo é significativamente melhor em pequenos conjuntos de dados rotulados, e o desempenho é comparável em conjuntos de dados ricos em recursos com mais de 100 e 960 horas de dados rotulados. É porque o desempenho geralmente satura no conjunto de dados rotulado rico em recursos para a maioria dos modelos. 
  • Depois de analisar o desempenho, pode-se deduzir que, quando o modelo usa alvos contextualizados ricos, não é essencial aprender unidades discretas. 
  • Aprender metas contextualizadas durante o treinamento ajuda a melhorar significativamente o desempenho geral. 

Além disso, para validar a abordagem do data2vec para reconhecimento de fala, o modelo também é treinado no Conjunto de áudio referência. Embora a configuração de pré-treinamento do AudioSet seja semelhante à do Librispeech, o modelo é treinado para K= 12 e para mais de 200 mil atualizações, em que o tamanho de cada lote é de 94.5 minutos. 

O modelo então aplica o DeepNorm estrutura, e normalização de camada aos alvos para ajudar na estabilização do treino. Além disso, o modelo também é ajustado em subconjuntos balanceados com tamanho de lote de 21.3 minutos em 13 mil atualizações. O modelo também usa Agrupamento Linear Softmax e confusão com uma pontuação de probabilidade de 0.7. O modelo então adiciona um projeção linear única em 527 classes exclusivas de áudio e define o taxa de aprendizado de projeção para 2e-4. 

Além disso, os parâmetros pré-treinados têm uma taxa de aprendizado de 3e-5 e o modelo usa técnicas de mascaramento para ajuste fino do conjunto de dados. A tabela abaixo resume os resultados e pode ser visto que o modelo data2vec é capaz de superar uma configuração comparável com o mesmo ajuste fino e dados de pré-treinamento. 

Processamento de linguagem natural

Para analisar o desempenho do data2vec no texto, o modelo segue a mesma configuração de treinamento que BERT e pré-treinar o modelo no conjunto de dados da Wikipédia em inglês com mais de 1 milhão de atualizações e o tamanho do lote é de 256 sequências. O modelo é avaliado no GLUE ou Avaliação de Compreensão de Linguagem Geral benchmark que inclui tarefas de interferência de linguagem natural (MNLI ou inferência de linguagem natural de vários gêneros), semelhança de sentença (QQP ou Quora Question Pairs benchmark, MRPC ou Microsoft Research Paragraph Corpus, e STS-B ou Semantic Textual Similarity Benchmark), análise de sentimentos(SST-2 ou Stanford Sentiment Treebank) e gramaticalmente (Cola). 

Além disso, para ajustar o modelo data2vec, os dados rotulados são fornecidos por cada tarefa e a precisão média é relatada nos conjuntos de desenvolvimento com 5 execuções de ajuste fino. A tabela a seguir resume o desempenho do modelo data2vec para tarefas de processamento de linguagem natural e o compara com outros modelos. 

  • Os dados acima mostram que o modelo data2vec supera o modelo RoBERTa de linha de base, pois a estratégia no modelo data2vec não usa alvos aleatórios. 
  • O modelo data2vec é o primeiro modelo NLP pré-treinado bem-sucedido que não usa unidades discretas como caracteres, palavras ou subpalavras como alvos de treinamento. Em vez disso, a estrutura data2vec prevê a representação latente contextualizada sobre a sequência completa de texto sem máscara. 
  • Isso ajuda na criação de uma tarefa de aprendizado na qual o modelo é necessário para prever alvos com propriedades específicas da sequência atual, em vez de prever representações genéricas para cada unidade de texto com discrição particular. 
  • Além disso, o conjunto de metas de treinamento não é fixo e o modelo é livre para definir novas metas e está aberto a configurações de vocabulário. 

Data2Vec: Estudo de ablações

Ablação é um termo usado para definir a remoção de um componente nos sistemas AI e ML. Um estudo de ablação é usado para investigar ou analisar o desempenho de um modelo de IA ou ML removendo certos componentes-chave do modelo que permite aos pesquisadores entender a contribuição desse componente no sistema geral. 

Metas Médias de Camada

Uma grande diferença entre o data2vec e outros modelos de aprendizado autossupervisionado é que o modelo data2vec usa destinos baseados na média de várias camadas da rede do professor. A ideia vem do fato de que as camadas superiores do modelo wav2vec 2.0 não funcionam bem para tarefas posteriores quando comparadas às camadas intermediárias do modelo. 

No experimento a seguir, o desempenho de todas as três modalidades é medido pela média de K= 1, 2, …, 12 camadas onde K= 1 prevê apenas a camada superior. No entanto, para extrair um tempo de resposta mais rápido, o data2vec treina o modelo base com 12 camadas no total. Para reconhecimento de fala, o modelo é pré-treinado em mais de duzentas mil atualizações no Librispeech e, em seguida, ajustado em uma divisão rotulada de 10 horas do Libri-light. Para processamento de linguagem natural, o modelo relata a pontuação média do GLUE para o conjunto de validação e pré-treina o modelo para 300 épocas para visão computacional e, em seguida, relata a precisão máxima obtida no conjunto de dados ImageNet. 

A figura acima mostra que alvos baseados em múltiplas camadas geralmente melhoram quando apenas a camada superior K=1 é usada para todas as modalidades. Usar todas as camadas disponíveis é uma boa prática, pois as redes neurais constroem recursos sobre diferentes tipos de recursos e várias camadas que são extraídas como camadas de recursos. 

O uso de recursos de várias camadas ajuda a aumentar a precisão e enriquece o processo de aprendizado auto-supervisionado. 

Tipo de recurso de destino

Os blocos transformadores no modelo data2vec têm várias camadas que podem servir como alvos. Para analisar como diferentes camadas afetam o desempenho, o modelo é pré-treinado nos modelos de fala do Librispeech que usam diferentes camadas como recursos de destino. 

A figura abaixo indica claramente que a saída da rede feedforward ou FFN funciona idealmente, enquanto a saída dos blocos de auto-atenção não resulta em um modelo utilizável. 

Contextualização Alvo

As representações do professor no modelo data2vec usam a autoatenção em toda a entrada para produzir alvos contextualizados. É o que separa o data2vec de outros modelos de aprendizado autossupervisionado que constroem uma tarefa de aprendizado reconstruindo ou prevendo partes locais da entrada. Evidentemente coloca a questão: o modelo data2vec requer alvos contextualizados para funcionar bem? 

Para responder à pergunta, os pesquisadores constroem representações-alvo que não têm acesso a todo o conjunto de dados de entrada, mas apenas a uma fração predeterminada. O modelo então restringe o mecanismo de auto-atenção do professor que permite que ele acesse apenas uma parte da entrada do ambiente circundante. Após o modelo ter sido treinado, ele é ajustado para acessar o tamanho total do contexto. 

A figura abaixo indica que tamanhos de contexto maiores geralmente levam a um melhor desempenho e, quando toda a amostra de entrada está visível, produz a melhor precisão. Prova ainda que representações de destino mais ricas podem produzir melhor desempenho. 

Extratores e mascaramento de recursos específicos da modalidade

O objetivo principal do data2vec é projetar um mecanismo de aprendizado simples que possa funcionar com diferentes modalidades. É porque, embora os modelos e estruturas atuais tenham um regime de aprendizado unificado, eles ainda usam mascaramento específico da modalidade e extratores de recursos. 

Faz sentido que os frameworks trabalhem principalmente com uma única modalidade, dado que a natureza dos dados de entrada varia muito entre si. Por exemplo, os modelos de reconhecimento de fala usam uma entrada de alta resolução (como uma forma de onda de 10 kHz) que geralmente possui milhares de amostras. A forma de onda é então processada pela estrutura usando uma rede neural convolucional multicamada para obter sequências de recursos de 50 Hz. 

Alvos Estruturados e Contextualizados

O principal ponto de diferenciação entre o data2vec e outros modelos de previsão mascarados é que no modelo data2vec as características dos alvos de treinamento são contextualizadas. Esses recursos são construídos usando a autoatenção de toda a entrada mascarada no modo professor. 

Algumas outras estruturas como BYOL (Bootstrap Your Own Latent) ou DINO também usam representações latentes como o data2vec, mas seu foco principal é aprender representações invariantes de transformação. 

Considerações Finais

Trabalhos recentes na indústria de IA e ML indicaram que as arquiteturas de modelo uniforme podem ser uma abordagem eficaz para lidar com várias modalidades. O modelo data2vec usa uma abordagem de aprendizado autossupervisionado para trabalhar com três modalidades: fala, imagens e linguagem. 

O conceito-chave por trás do modelo data2vec é usar a visualização de entrada parcial para regredir informações contextualizadas ou dados de entrada. A abordagem usada pelas estruturas data2vec é eficaz, pois o modelo tem um desempenho melhor do que os modelos de aprendizado auto-supervisionado anteriores no conjunto de dados ImageNet-1K para os modelos individuais ViT-B e ViT-L. 

O Data2vec é realmente um marco na indústria de aprendizado autossupervisionado, pois demonstra que um único método de aprendizado para aprender várias modalidades pode, de fato, facilitar o aprendizado de modelos em várias modalidades. 

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.