Inteligência artificial

Um guia para dominar grandes modelos de linguagem

Atualização do on 24 de janeiro de 2024

Aayush Mittal

A popularidade dos grandes modelos de linguagem (LLMs) explodiu nos últimos anos, revolucionando o processamento de linguagem natural e a IA. De chatbots a mecanismos de pesquisa e recursos de escrita criativa, os LLMs estão potencializando aplicações de ponta em todos os setores. No entanto, a construção de produtos úteis baseados em LLM requer habilidades e conhecimentos especializados. Este guia fornecerá uma visão geral abrangente, porém acessível, dos principais conceitos, padrões de arquitetura e habilidades práticas necessárias para aproveitar efetivamente o enorme potencial dos LLMs.

O que são modelos de linguagem grande e por que são importantes?

LLMs são uma classe de modelos de aprendizagem profunda pré-treinados em corpora de texto massivo, permitindo-lhes gerar texto semelhante ao humano e compreender a linguagem natural em um nível sem precedentes. Ao contrário dos modelos tradicionais de PNL que dependem de regras e anotações, LLMs como o GPT-3 aprendem habilidades linguísticas de maneira não supervisionada e auto-supervisionada, prevendo palavras mascaradas em frases. Sua natureza fundamental permite que eles sejam ajustados para uma ampla variedade de tarefas posteriores de PNL.

Os LLMs representam uma mudança de paradigma na IA e permitiram aplicações como chatbots, motores de busca e geradores de texto que antes estavam fora de alcance. Por exemplo, em vez de depender de regras frágeis codificadas manualmente, os chatbots agora podem ter conversas de formato livre usando LLMs como Claude da Anthropic. Os poderosos recursos dos LLMs resultam de três inovações principais:

Escala de dados: LLMs são treinados em corpora em escala de internet com bilhões de palavras, por exemplo, GPT-3 viu 45 TB de dados de texto. Isso fornece ampla cobertura linguística.
Tamanho do modelo: LLMs como o GPT-3 possuem 175 bilhões de parâmetros, permitindo-lhes absorver todos esses dados. A grande capacidade do modelo é fundamental para a generalização.
Auto-supervisão: Em vez de rotulagem humana dispendiosa, os LLMs são treinados por meio de objetivos auto-supervisionados que criam dados “pseudo-rotulados” a partir de texto bruto. Isso permite o pré-treinamento em escala.

Dominar o conhecimento e as habilidades para ajustar e implantar LLMs de maneira adequada permitirá que você inove em novas soluções e produtos de PNL.

Conceitos-chave para aplicação de LLMs

Embora os LLMs tenham recursos incríveis prontos para uso, utilizá-los de maneira eficaz para tarefas posteriores requer a compreensão de conceitos-chave como prompts, incorporações, atenção e recuperação semântica.

Solicitações Em vez de entradas e saídas, os LLMs são controlados por meio de solicitações – instruções contextuais que enquadram uma tarefa. Por exemplo, para resumir uma passagem de texto, forneceríamos exemplos como:

“Passagem: Resumo:”

O modelo então gera um resumo em sua saída. A engenharia imediata é crucial para conduzir os LLMs de forma eficaz.

embeddings

Os embeddings de palavras representam palavras como vetores densos que codificam o significado semântico, permitindo operações matemáticas. LLMs utilizam incorporações para entender o contexto das palavras.

Técnicas como Word2Vec e BERT criam modelos de incorporação que podem ser reutilizados. Word2Vec foi pioneiro no uso de redes neurais superficiais para aprender incorporações prevendo palavras vizinhas. O BERT produz incorporações contextuais profundas mascarando palavras e prevendo-as com base no contexto bidirecional.

Pesquisas recentes desenvolveram incorporações para capturar mais relações semânticas. O modelo MUM do Google usa o transformador VATT para produzir embeddings BERT com reconhecimento de entidade. A IA Constitucional da Antrópica aprende incorporações sensíveis aos contextos sociais. Modelos multilíngues como o mT5 produzem incorporações multilíngues por meio do pré-treinamento em mais de 100 idiomas simultaneamente.

Atenção

As camadas de atenção permitem que os LLMs se concentrem no contexto relevante ao gerar texto. A autoatenção de múltiplas cabeças é a chave para os transformadores que analisam as relações de palavras em textos longos.

Por exemplo, um modelo de resposta a perguntas pode aprender a atribuir maiores pesos de atenção às palavras de entrada relevantes para encontrar a resposta. Os mecanismos de atenção visual concentram-se em regiões pertinentes de uma imagem.

Variantes recentes, como a atenção esparsa, melhoram a eficiência, reduzindo cálculos de atenção redundantes. Modelos como o GShard usam a atenção de uma mistura de especialistas para maior eficiência dos parâmetros. O Universal Transformer introduz recorrência em profundidade, permitindo a modelagem de dependências de longo prazo.

Compreender as inovações de atenção fornece informações sobre a extensão dos recursos do modelo.

Recuperação

Grandes bancos de dados vetoriais chamados índices semânticos armazenam embeddings para pesquisa eficiente de similaridade em documentos. A recuperação aumenta os LLMs ao permitir um enorme contexto externo.

Algoritmos poderosos de vizinho mais próximo aproximado, como HNSW, LSH e PQ permitem pesquisa semântica rápida mesmo com bilhões de documentos. Por exemplo, Claude LLM da Anthropic usa HNSW para recuperar mais de um índice de 500 milhões de documentos.

A recuperação híbrida combina incorporações densas e metadados de palavras-chave esparsos para melhorar a recuperação. Modelos como o REALM otimizam diretamente os embeddings para objetivos de recuperação por meio de codificadores duplos.

Trabalhos recentes também exploram a recuperação intermodal entre texto, imagens e vídeo usando espaços vetoriais multimodais compartilhados. Dominar a recuperação semântica desbloqueia novas aplicações, como mecanismos de busca multimídia.

Esses conceitos serão recorrentes nos padrões e habilidades de arquitetura abordados a seguir.

Padrões Arquitetônicos

Embora o treinamento de modelos permaneça complexo, a aplicação de LLMs pré-treinados é mais acessível usando padrões de arquitetura testados e comprovados:

Pipeline de geração de texto

Aproveite LLMs para aplicações de texto generativo por meio de:

Solicitar engenharia para enquadrar a tarefa
Geração LLM de texto bruto
Filtros de segurança para detectar problemas
Pós-processamento para formatação

Por exemplo, um auxílio para redação de um ensaio usaria um prompt para definir o assunto do ensaio, geraria o texto do LLM, filtraria o sentido e, em seguida, verificaria a ortografia do resultado.

Pesquisa e recuperação

Construa sistemas de pesquisa semântica:

Indexando um corpus de documentos em um banco de dados vetorial para semelhanças
Aceitar consultas de pesquisa e encontrar resultados relevantes por meio de pesquisa aproximada do vizinho mais próximo
Alimentar sucessos como contexto para um LLM para resumir e sintetizar uma resposta

Isto aproveita a recuperação de documentos em grande escala, em vez de depender apenas do contexto limitado do LLM.

Aprendizagem multitarefa

Em vez de treinar especialistas individuais em LLM, os modelos multitarefa permitem ensinar múltiplas habilidades a um modelo por meio de:

Solicita o enquadramento de cada tarefa
Ajuste conjunto entre tarefas
Adicionando classificadores no codificador LLM para fazer previsões

Isso melhora o desempenho geral do modelo e reduz os custos de treinamento.

Sistemas Híbridos de IA

Combina os pontos fortes dos LLMs e da IA mais simbólica por meio de:

LLMs lidando com tarefas de linguagem abertas
Lógica baseada em regras que fornece restrições
Conhecimento estruturado representado em um KG
LLM e dados estruturados enriquecendo-se mutuamente em um “ciclo virtuoso”

Isto combina a flexibilidade das abordagens neurais com a robustez dos métodos simbólicos.

Habilidades essenciais para aplicar LLMs

Com esses padrões de arquitetura em mente, vamos agora nos aprofundar nas habilidades práticas para colocar os LLMs em funcionamento:

Engenharia imediata

Ser capaz de solicitar LLMs com eficácia determina o sucesso ou o fracasso das aplicações. As principais habilidades incluem:

Enquadrar tarefas como instruções e exemplos em linguagem natural
Controlando a duração, a especificidade e a voz dos prompts
Refinando prompts iterativamente com base nas saídas do modelo
Curadoria de coleções de prompts em domínios como suporte ao cliente
Estudando princípios de interação humano-IA

Solicitar é parte arte e parte ciência – espere melhorar gradativamente por meio da experiência.

Estruturas de orquestração

Simplifique o desenvolvimento de aplicativos LLM usando estruturas como LangChain, Cohere, que facilitam o encadeamento de modelos em pipelines, a integração com fontes de dados e a abstração da infraestrutura.

LangChain oferece uma arquitetura modular para compor prompts, modelos, pré/pós-processadores e conectores de dados em fluxos de trabalho personalizáveis. Cohere fornece um estúdio para automatizar fluxos de trabalho LLM com GUI, API REST e SDK Python.

Essas estruturas utilizam técnicas como:

Fragmentação do transformador para dividir o contexto entre GPUs para sequências longas
Consultas de modelo assíncronas para alto rendimento
Estratégias de cache como Menos Usado Recentemente para otimizar o uso de memória
Rastreamento distribuído para monitorar gargalos de pipeline
Estruturas de teste A/B para executar avaliações comparativas
Controle de versão de modelo e gerenciamento de liberação para experimentação
Dimensionamento para plataformas de nuvem como AWS SageMaker para obter capacidade elástica

Ferramentas AutoML como Spell oferecem otimização de prompts, hparams e arquiteturas de modelo. O AI Economist ajusta modelos de preços para consumo de API.

Avaliação e Monitoramento

Avaliar o desempenho do LLM é crucial antes da implantação:

Meça a qualidade geral da produção por meio de métricas de precisão, fluência e coerência
Use benchmarks como GLUE, SuperGLUE compreendendo conjuntos de dados NLU/NLG
Habilite a avaliação humana por meio de estruturas como scale.com e LionBridge
Monitore a dinâmica do treinamento com ferramentas como Pesos e Vieses
Analise o comportamento do modelo usando técnicas como modelagem de tópicos LDA
Verifique se há preconceitos com bibliotecas como FairLearn e WhatIfTools
Execute testes de unidade continuamente em prompts importantes
Rastreie logs de modelos do mundo real e desvios usando ferramentas como WhyLabs
Aplique testes adversários por meio de bibliotecas como TextAttack e Robustness Gym

Pesquisas recentes melhoram a eficiência da avaliação humana por meio de emparelhamento balanceado e algoritmos de seleção de subconjuntos. Modelos como o DELPHI combatem ataques adversários usando gráficos de causalidade e mascaramento de gradiente. As ferramentas de IA responsáveis continuam a ser uma área ativa de inovação.

Aplicações Multimodais

Além do texto, os LLMs abrem novas fronteiras na inteligência multimodal:

Condicionar LLMs em imagens, vídeo, fala e outras modalidades
Arquiteturas unificadas de transformadores multimodais
Recuperação intermodal entre tipos de mídia
Geração de legendas, descrições visuais e resumos
Coerência multimodal e bom senso

Isso estende os LLMs além da linguagem para o raciocínio sobre o mundo físico.

Em suma

Grandes modelos de linguagem representam uma nova era nas capacidades de IA. Dominar seus principais conceitos, padrões arquitetônicos e habilidades práticas permitirá que você inove em novos produtos e serviços inteligentes. Os LLMs reduzem as barreiras para a criação de sistemas de linguagem natural capazes – com o conhecimento certo, você pode aproveitar esses modelos poderosos para resolver problemas do mundo real.

Tópicos relacionados:Atenção GPT Langchain LLM ENGENHARIA IMEDIATA

A seguir

AlphaGeometry: IA da DeepMind domina problemas de geometria em níveis olímpicos

Não Perca

Paint3D: modelo de difusão sem iluminação para geração de imagens

Aayush Mittal

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.