Líderes de pensamento
A Verdade Sobre Dados Sintéticos: Por Que a Expertise Humana É Crítica para o Sucesso do LLM

Desenvolvedores de LLM estão cada vez mais recorrendo a dados sintéticos para acelerar o desenvolvimento e reduzir custos. Pesquisadores por trás de vários modelos de ponta, como LLama 3, Qwen 2 e DeepSeek R1, mencionaram o uso de dados sintéticos para treinar seus modelos em artigos de pesquisa. Por fora, parece a solução perfeita: um poço infinito de informações para acelerar o desenvolvimento e reduzir custos. Mas essa solução vem com um custo oculto que líderes de negócios não podem ignorar.
Em termos simples, dados sintéticos são gerados por modelos de IA para criar conjuntos de dados artificiais para treinamento, ajuste fino e avaliação de LLMs e agentes de IA. Em comparação com a anotação humana tradicional, permite que o pipeline de dados seja escalado rapidamente, o que é essencial no cenário competitivo e em rápida evolução do desenvolvimento de IA.
Empresas podem ter outras razões para usar “dados falsos”, como proteger informações sensíveis ou confidenciais em ambientes financeiros ou de saúde, gerando versões anonimizadas. Dados sintéticos também são um bom substituto quando dados proprietários não estão disponíveis, como antes do lançamento de um produto ou quando os dados pertencem a clientes externos.
Mas os dados sintéticos estão revolucionando o desenvolvimento de IA? A resposta curta é um sim qualificado: eles têm um grande potencial, mas também podem expor LLMs e agentes a vulnerabilidades críticas sem uma supervisão humana rigorosa. Produtores de LLM e desenvolvedores de agentes de IA podem descobrir que modelos de IA treinados com dados sintéticos inadequadamente verificados podem gerar saídas imprecisas ou tendenciosas, criar crises de reputação e resultar em não conformidade com padrões e normas éticas da indústria. Investir em supervisão humana para refinar dados sintéticos é um investimento direto na proteção da linha de fundo, manutenção da confiança dos stakeholders e garantia de adoção responsável de IA.
Com a entrada humana, dados sintéticos podem ser transformados em dados de treinamento de alta qualidade. Existem três razões críticas para refinar os dados gerados antes de usá-los para treinar IA: para preencher lacunas no conhecimento do modelo de origem, para melhorar a qualidade dos dados e reduzir o tamanho da amostra, e para alinhar com os valores humanos.
Precisamos capturar conhecimento único
Dados sintéticos são gerados principalmente por LLMs treinados em fontes públicas disponíveis na internet, criando uma limitação inerente. O conteúdo público raramente captura o conhecimento prático e hands-on usado no trabalho do mundo real. Atividades como design de uma campanha de marketing, preparação de um prognóstico financeiro ou realização de análise de mercado são tipicamente privadas e não documentadas online. Além disso, as fontes tendem a refletir a linguagem e a cultura centrada nos EUA, limitando a representação global.
Para superar essas limitações, podemos envolver especialistas para criar amostras de dados em áreas que suspeitamos que o modelo de geração de dados sintéticos não pode cobrir. Voltando ao exemplo corporativo, se queremos que nosso modelo final lidere com previsões financeiras e análise de mercado de forma eficaz, os dados de treinamento precisam incluir tarefas realistas desses campos. É importante identificar essas lacunas e suplementar os dados sintéticos com amostras criadas por especialistas.
Especialistas são frequentemente envolvidos no início do projeto para definir o escopo do trabalho. Isso inclui criar uma taxonomia, que descreve as áreas específicas de conhecimento onde o modelo precisa performar. Por exemplo, na área de saúde, a medicina geral pode ser dividida em subtemas como nutrição, saúde cardiovascular, alergias e mais. Um modelo de saúde deve ser treinado em todas as subáreas que se espera que ele cubra. Depois que a taxonomia é definida por especialistas em saúde, LLMs podem ser usados para gerar pontos de dados com perguntas e respostas típicas rapidamente e em escala. Especialistas humanos ainda são necessários para revisar, corrigir e melhorar esse conteúdo para garantir que ele não só seja preciso, mas também seguro e apropriado ao contexto. Esse processo de garantia de qualidade é necessário em aplicações de alto risco, como saúde, para garantir a precisão dos dados e mitigar danos potenciais.
Qualidade sobre quantidade: impulsionando a eficiência do modelo com menos amostras de melhor qualidade
Quando especialistas em domínio criam dados para treinar LLMs e agentes de IA, eles criam taxonomias para conjuntos de dados, escrevem prompts, criam respostas ideais ou simulam tarefas específicas. Todas as etapas são cuidadosamente projetadas para atender ao propósito do modelo, e a qualidade é garantida por especialistas em matérias nas áreas correspondentes.
A geração de dados sintéticos não replica completamente esse processo. Ela depende das forças do modelo subjacente usado para criar os dados, e a qualidade resultante muitas vezes não é igual à dos dados curados por humanos. Isso significa que os dados sintéticos frequentemente exigem volumes muito maiores para alcançar resultados satisfatórios, aumentando os custos computacionais e o tempo de desenvolvimento.
Em domínios complexos, existem nuances que apenas especialistas humanos podem identificar, especialmente com outliers ou casos de bordo. Dados curados por humanos consistentemente entregam um desempenho de modelo melhor, mesmo com conjuntos de dados significativamente menores. Ao integrar estrategicamente a expertise humana no processo de criação de dados, podemos reduzir o número de amostras necessárias para o modelo performar efetivamente.
Em nossa experiência, a melhor maneira de abordar esse desafio é envolver especialistas em matérias no processo de construção de conjuntos de dados sintéticos. Quando especialistas definem as regras para a geração de dados, definem taxonomias de dados e revisam ou corrigem os dados gerados, a qualidade final dos dados é muito maior. Essa abordagem permitiu que nossos clientes alcançassem resultados fortes usando menos amostras de dados, levando a um caminho mais rápido e eficiente para a produção.
Construindo confiança: o papel irremovível dos humanos na segurança e alinhamento da IA
Sistemas automatizados não podem antecipar todas as vulnerabilidades ou garantir alinhamento com valores humanos, particularmente em casos de bordo e cenários ambíguos. Revisores humanos especializados desempenham um papel crucial na identificação de riscos emergentes e garantia de resultados éticos antes do deploy. Essa é uma camada de proteção que a IA, pelo menos por enquanto, não pode fornecer completamente por si só.
Portanto, para construir um conjunto de dados de red teaming forte, os dados sintéticos sozinhos não são suficientes. É importante envolver especialistas em segurança no início do processo. Eles podem ajudar a mapear os tipos de ataques potenciais e guiar a estrutura do conjunto de dados. LLMs podem então ser usados para gerar um grande volume de exemplos. Depois disso, especialistas são necessários para verificar e refinar os dados para garantir que sejam realistas, de alta qualidade e úteis para testar sistemas de IA. Por exemplo, um LLM pode gerar milhares de prompts de hacking padrão, mas um especialista em segurança humana pode criar ataques de “engenharia social” novos que exploram vieses psicológicos sutis — uma ameaça criativa que sistemas automatizados lutam para inventar por si mesmos.
Houve um progresso significativo no alinhamento de LLMs usando feedback automatizado. No artigo “RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback,” os pesquisadores mostram que o alinhamento baseado em IA pode performar comparavelmente ao feedback humano em muitos casos. No entanto, enquanto o feedback de IA melhora à medida que os modelos melhoram, nossa experiência mostra que o RLAIF ainda luta em domínios complexos e com casos de bordo ou outliers, áreas onde o desempenho pode ser crítico dependendo da aplicação. Especialistas humanos são mais eficazes em lidar com nuances de tarefas e contexto, tornando-os mais confiáveis para alinhamento.
Agentes de IA também se beneficiam do teste automatizado para abordar uma ampla gama de riscos de segurança. Ambientes de teste virtuais usam dados gerados para simular comportamentos de agentes, como interface com ferramentas online e realização de ações em sites. Para maximizar a cobertura de testes em cenários realistas, a expertise humana é integral para projetar os casos de teste, verificar os resultados das avaliações automatizadas e relatar sobre vulnerabilidades.
O futuro dos dados sintéticos
Dados sintéticos são uma técnica altamente valiosa para o desenvolvimento de modelos de linguagem grande, especialmente quando escalabilidade e deploy rápido são críticos no cenário em rápida evolução de hoje. Embora não haja falhas fundamentais nos dados sintéticos em si, eles requerem refino para alcançar seu potencial total e entregar o valor máximo. Uma abordagem híbrida que combina geração de dados automatizada com expertise humana é um método altamente eficaz para desenvolver modelos capazes e confiáveis, pois o desempenho do modelo final depende mais da qualidade dos dados do que do volume total. Esse processo integrado, usando IA para escala e especialistas humanos para validação, produz modelos mais capazes com alinhamento de segurança melhorado, o que é essencial para construir confiança do usuário e garantir deploy responsável.












