toco LoReFT: Ajuste fino de representação para modelos de linguagem - Unite.AI
Entre em contato

Inteligência artificial

LoReFT: ajuste fino de representação para modelos de linguagem

mm

Publicado

 on

LoReFT: ajuste fino de representação para modelos de linguagem

Os métodos de ajuste fino com eficiência de parâmetros ou PeFT buscam adaptar grandes modelos de linguagem por meio de atualizações para um pequeno número de pesos. No entanto, a maioria dos trabalhos existentes sobre interpretabilidade demonstrou que as representações codificam informações semânticas ricas, sugerindo que pode ser uma alternativa melhor e mais poderosa para editar essas representações. Grandes modelos pré-treinados são frequentemente ajustados para serem usados ​​em novos domínios ou tarefas e, durante o processo de ajuste fino, um único modelo base pode ser adaptado a uma ampla variedade de tarefas, mesmo com apenas pequenas quantidades de dados no domínio disponíveis. para o modelo. No entanto, o processo de ajuste fino de um modelo inteiro consome recursos e é caro, especialmente para modelos de linguagem com um número significativamente maior de tamanhos e parâmetros. 

Os métodos de ajuste fino com eficiência de parâmetros ou PeFT propõem enfrentar os altos custos associados ao ajuste fino de todo o modelo, atualizando apenas uma pequena quantidade dos pesos totais disponíveis, um processo que ajuda a reduzir o tempo de treinamento junto com o uso de memória. O que é mais importante é que o ajuste fino com eficiência de parâmetros ou métodos PeFT demonstraram desempenho semelhante para ajuste fino em vários ambientes práticos. Adaptadores, uma família comum de métodos de ajuste fino ou PeFT com eficiência de parâmetro, aprendem uma edição que pode ser adicionada a um conjunto adicional de pesos que operam junto com o modelo de base congelado, com adaptadores recentes como LoRA reduzindo o número de parâmetros treináveis ​​​​em aprendidos atualizações de peso usando aproximações de baixa classificação em vez de matrizes de peso total ao treinar os adaptadores. 

Com trabalhos anteriores demonstrando que a edição de representações pode ser uma alternativa melhor ao ajuste fino com eficiência de parâmetro ou métodos PeFT, neste artigo, falaremos sobre ajuste fino de representação ou métodos ReFT que operam em um modelo congelado e aprenderemos tarefas específicas intervenções sobre representações ocultas. Este artigo tem como objetivo cobrir em profundidade a estrutura ReFt ou Representation Fine-tuning, e exploramos o mecanismo, a metodologia, a arquitetura da estrutura, juntamente com sua comparação com estruturas do estado da arte. Então vamos começar. 

ReFT: ajuste fino de representação para modelos de linguagem

Na tentativa de adotar modelos de linguagem pré-treinados para novos domínios e tarefas, as estruturas atuais ajustam esses modelos de linguagem pré-treinados frequentemente, pois com o processo de ajuste fino implementado, um único modelo base pode ser adaptado para uma variedade de tarefas, mesmo ao trabalhar com uma pequena quantidade de dados no domínio. Embora o processo de ajuste fino aumente o desempenho geral, é um processo caro, especialmente se o modelo de linguagem tiver um número significativamente alto de parâmetros. Para resolver este problema e reduzir os custos associados, PeFT ou Parameter-efficient estruturas de ajuste fino atualizar apenas uma pequena fração dos pesos totais, um processo que não apenas reduz o tempo de treinamento, mas também reduz o uso de memória, permitindo que os frameworks PeFT alcancem desempenho semelhante quando comparados com abordagens de ajuste fino completo em cenários práticos. Os adaptadores, uma família comum de PeFTs, funcionam aprendendo uma edição que pode ser adicionada a um conjunto adicional de pesos junto com um subconjunto de pesos que operam em uníssono com o modelo base com pesos congelados. Estruturas de adaptadores recentes como LoRA e QLoRA demonstraram que é possível treinar adaptadores de precisão total em modelos de precisão reduzida sem afetar o desempenho. Os adaptadores são geralmente mais eficientes e eficazes quando comparados com outros métodos que introduzem novos componentes do modelo. 

Um grande destaque do estado da arte atual das estruturas de ajuste fino com eficiência de parâmetros é que, em vez de modificar as representações, elas modificam os pesos. No entanto, as estruturas que tratam da interpretabilidade demonstraram que as representações codificam informações semânticas ricas, sugerindo que a edição de representações pode ser uma abordagem melhor e mais poderosa quando comparada às atualizações de peso. Essa suposição de que a edição de representações é a melhor abordagem é o que forma a base do ReFT ou estrutura de ajuste fino de representação que treina intervenções em vez de adaptar os pesos do modelo, permitindo que o modelo manipule uma pequena fração de todas as representações na tentativa de orientar os comportamentos do modelo. para resolver tarefas posteriores durante a inferência. Os métodos ReFT ou de ajuste fino de representação são substitutos imediatos para estruturas de ajuste fino PeFT baseadas em peso ou eficientes em parâmetros. A abordagem ReFT inspira-se em modelos recentes que trabalham com grande interpretabilidade de modelos que intervêm nas representações para encontrar mecanismos causais fiéis e orienta o comportamento do modelo durante a inferência e, portanto, pode ser vista como uma generalização dos modelos de edição de representações. Com base no mesmo, LoReFT ou Low-Rank Subspace ReFT é uma instância forte e eficaz de ReFT e é uma parametrização de ReFT que intervém em representações ocultas no espaço linear abrangido pela matriz de projeção de baixa classificação e se baseia diretamente no DAS ou estrutura de pesquisa de alinhamento distribuído. 

Seguindo em frente, ao contrário do ajuste fino completo, a estrutura de ajuste fino PeFT ou com eficiência de parâmetros treina apenas uma pequena fração dos parâmetros do modelo e consegue adaptar o modelo às tarefas posteriores. A estrutura de ajuste fino com eficiência de parâmetros pode ser classificada em três categorias principais:

  • Métodos baseados em adaptador: Os métodos baseados em adaptadores treinam módulos adicionais, como camadas totalmente conectadas, sobre o modelo pré-treinado com pesos congelados. Os adaptadores em série inserem componentes entre o perceptron multicamadas ou MLP e LM ou grandes camadas de atenção de modelo, enquanto os adaptadores paralelos adicionam módulos ao lado dos componentes existentes. Como os adaptadores adicionam novos componentes que não podem ser facilmente dobrados nos pesos dos modelos existentes, eles representam uma carga adicional durante a inferência. 
  • LoRA: LoRA, juntamente com suas variantes recentes, aproxima os pesos aditivos durante o treinamento usando matrizes de baixa classificação e não requer sobrecargas adicionais durante a inferência, uma vez que as atualizações de peso podem ser mescladas no modelo, e é a razão pela qual são consideradas as atuais estruturas PeFT mais fortes. 
  • Métodos baseados em prompt: Os métodos baseados em prompt adicionam tokens flexíveis que são inicializados aleatoriamente na entrada e treinam seus embeddings enquanto mantêm os pesos do modelo de linguagem congelados. O desempenho oferecido por esses métodos muitas vezes não é satisfatório quando comparado com outras abordagens PeFT e também acarreta um custo indireto de inferência significativo. 

Em vez de atualizar os pesos, a estrutura ReFT aprende intervenções para modificar uma pequena fração do total de representações. Além disso, trabalhos recentes sobre engenharia de representação e direção de ativação demonstraram que a adição de vetores de direção fixos ao fluxo residual pode facilitar um certo grau de controle sobre grandes gerações de modelos pré-treinados sem exigir uso intensivo de recursos. afinação. Outras estruturas demonstraram que a edição de representações com uma operação aprendida de escala e tradução pode tentar igualar, mas não superar, o desempenho oferecido pelos adaptadores LoRA em uma ampla gama de tarefas com menos parâmetros aprendidos. Além disso, o sucesso dessas estruturas em uma série de tarefas demonstrou que as representações introduzidas por modelos de linguagem pré-treinados carregam uma semântica rica, embora o desempenho desses modelos seja abaixo do ideal, fazendo com que os PeFTs continuem como a abordagem de última geração. sem carga adicional de inferência. 

ReFT: Metodologia e Arquitetura

Para manter o processo de preservação de estilo simples, a estrutura ReFT assume um grande modelo baseado em transformador como modelo alvo, capaz de produzir representação contextualizada de sequência de tokens. Para uma determinada sequência com n número de tokens de entrada, a estrutura ReFT primeiro incorpora esses tokens de entrada em uma lista de representações, após a qual as m camadas calculam a lista de representações ocultas sucessivamente como uma função da lista anterior de representações ocultas. Cada representação oculta é um vetor e o modelo de linguagem usa as representações ocultas finais para produzir as previsões. A estrutura ReFT considera modelos de linguagem mascarados e modelos de linguagem autorregressivos. Agora, de acordo com a hipótese da representação linear, nas redes neurais, os conceitos são codificados dentro dos subespaços lineares das representações. Modelos recentes descobriram que esta afirmação é verdadeira em modelos de redes neurais treinados em linguagem natural juntamente com outras distribuições de entrada. 

Além disso, em estudos de interpretabilidade, a estrutura de abstração casual utiliza intervenções de intercâmbio para estabelecer casualmente o papel dos componentes da rede neural ao implementar comportamentos específicos. A lógica por trás da intervenção de intercâmbio é que se alguém fixar uma representação ao que teria sido para um insumo contrafactual, e esta intervenção afetar o resultado do modelo de forma consistente da mesma forma que as afirmações feitas pela estrutura ReFT sobre o componente responsável pela produção essa representação, então o componente desempenha um papel causal no comportamento. Embora existam alguns métodos, a intervenção de intercâmbio distribuído é a abordagem ideal para testar se um conceito está codificado em um subespaço linear de uma representação, conforme afirma a hipótese da representação linear. Além disso, o método DAS foi usado anteriormente para encontrar representação linear em modelos de linguagem de atributos de entidade, sentimento, características linguísticas e raciocínio matemático. No entanto, vários experimentos indicaram que o método DAS é altamente expressivo e possui a capacidade de encontrar subespaços causais eficazes mesmo quando o modelo da linguagem do transformador foi inicializado aleatoriamente e, portanto, ainda não aprendeu quaisquer representações específicas da tarefa, resultando no debater se o DAS é eficaz e responsável o suficiente para tarefas de interpretabilidade. 

A expressividade oferecida pelo DAS sugere que a abordagem poderia ser uma ferramenta ideal para controlar o comportamento do modelo de linguagem juntamente com seu trabalho de geração controlável e edição responsável. Portanto, para adaptar modelos de linguagem para tarefas downstream, a estrutura ReFT usa a operação de intervenção de intercâmbio distribuído para criar um novo método eficiente de parâmetros. Além disso, o método ReFT é um conjunto de intervenções, e o quadro impõe que, para quaisquer duas intervenções que operem na mesma camada, as posições de intervenção devem ser disjuntas, permanecendo independentes os parâmetros de todas as funções de intervenção. Como resultado, o ReFT é uma estrutura genérica que abrange intervenções em representações ocultas durante o avanço do modelo. 

ReFT: Experimentos e Resultados

Para avaliar seu desempenho em relação às estruturas PEFT existentes, a estrutura ReFT conduz experimentos em quatro benchmarks diversos de processamento de linguagem natural e cobre mais de 20 conjuntos de dados, com o objetivo principal de fornecer uma imagem rica de como a estrutura LoReFT funciona em diferentes cenários. Além disso, quando a estrutura LoReFT é implementada na vida real, os desenvolvedores precisam decidir quantas intervenções aprender, juntamente com as posições de entrada e as camadas nas quais aplicar cada uma delas. Para completar a tarefa, a estrutura ReFT ajusta quatro hiperparâmetros. 

  1. O número de posições de prefixo nas quais intervir. 
  2. O número de posições de sufixo nas quais intervir. 
  3. Em que conjunto de camadas intervir. 
  4. Se deve ou não vincular parâmetros de intervenção em diferentes posições na mesma camada. 

Ao fazer isso, a estrutura ReFT simplifica o espaço de pesquisa de hiperparâmetros e garante apenas um custo de inferência adicional fixo que não aumenta com o comprimento do prompt. 

A tabela acima compara a precisão das estruturas LLaMA-7B e LLaMA-13B com os modelos PEFT existentes em 8 conjuntos de dados de raciocínio de bom senso. Como pode ser observado, o modelo LoReFT supera as abordagens PEFT existentes por uma margem decente, apesar de ter muito menos parâmetros, com o desempenho médio de três execuções sendo relatado com sementes de parâmetros distintos para o modelo LoReFT. O param(%) é calculado dividindo o número de parâmetros treináveis ​​pelo número de parâmetros totais do grande modelo base. 

A tabela acima resume a comparação de precisão das estruturas LLaMA-7B e LLaMA-13B com os modelos PEFT existentes em 4 conjuntos de dados de raciocínio aritmético diferentes, com a estrutura relatando o desempenho médio de três execuções com sementes aleatórias distintas. Como pode ser observado, apesar de ter muito menos parâmetros (%), a estrutura LoReFT supera as estruturas PEFT existentes por uma margem considerável. 

A tabela acima resume a comparação de precisão das estruturas RoBERTa-base e RoBERTa-large com os modelos PEFT existentes no benchmark GLUE, com a estrutura relatando o desempenho médio de cinco execuções com sementes aleatórias distintas. Como pode ser observado, apesar de ter muito menos parâmetros (%), a estrutura LoReFT supera as estruturas PEFT existentes por uma margem considerável. 

Considerações Finais

Neste artigo, falamos sobre LoReFT, uma alternativa poderosa às estruturas PEFT existentes que alcança forte desempenho em benchmarks de quatro domínios diferentes, ao mesmo tempo que oferece até 50 vezes a eficiência oferecida pelos modelos PEFT de última geração anteriores. Grandes modelos pré-treinados são frequentemente ajustados para serem usados ​​em novos domínios ou tarefas e, durante o processo de ajuste fino, um único modelo base pode ser adaptado a uma ampla variedade de tarefas, mesmo com apenas pequenas quantidades de dados no domínio disponíveis. para o modelo. No entanto, o processo de ajuste fino de um modelo inteiro consome recursos e é caro, especialmente para modelos de linguagem com um número significativamente maior de tamanhos e parâmetros. Os métodos de ajuste fino com eficiência de parâmetros ou PeFT propõem enfrentar os altos custos associados ao ajuste fino de todo o modelo, atualizando apenas uma pequena quantidade dos pesos totais disponíveis, um processo que ajuda a reduzir o tempo de treinamento junto com o uso de memória. Notavelmente, LoReFT estabelece um novo desempenho de última geração em raciocínio de bom senso, seguimento de instruções e compreensão de linguagem natural em relação aos PEFTs mais fortes.

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.