Ângulo de Anderson
Pesquisa Descobre que Mesmo uma Pequena Quantidade de Dados Ruins Pode Arruinar um Modelo de IA Afinado

Um novo estudo mostra que afinar o ChatGPT em pequenas quantidades de dados ruins pode torná-lo inseguro, pouco confiável e desviá-lo drasticamente do tópico. Apenas 10% de respostas erradas nos dados de treinamento começam a quebrar o desempenho, enquanto 25% podem desencadear conselhos perigosos. Na maioria dos casos, o modelo base não afinado permaneceu mais seguro e inteligente do que qualquer versão “personalizada”.
Uma coisa que um modelo de linguagem grande e genérico, como o ChatGPT ou o Claude, não pode oferecer a uma empresa é uma barreira – uma vantagem única e um conjunto de capacidades no desempenho do modelo que não está disponível para os concorrentes. Embora os serviços de API possam acumular regras e expectativas personalizadas de um cliente ao longo do tempo e começar a antecipar suas necessidades até certo ponto, a única maneira de realmente automatizar fluxos de trabalho e diretivas específicas de uma empresa em um modelo de linguagem é contextualizar cada solicitação.
Isso pode envolver salvar e reutilizar múltiplos prompts de controle/contato que instruem o modelo sobre como lidar com os dados ou o desafio que está prestes a receber; e tais documentos são frequentemente informados por tentativas e erros tediosas e até mesmo caras.
Obviamente, seria melhor se alguém pudesse impressionar suas próprias necessidades de forma mais indelével no modelo, para que ele tenha uma relação menos casual e efêmera com o cliente.
Boas Ideias
Portanto, sujeito a quaisquer considerações de privacidade ou exposição, as empresas estão atualmente muito ansiosas para personalizar e customizar modelos de linguagem poderosos, afinando-os em seus próprios dados.
Isso envolve criar material de conjunto de dados adicional específico para tarefas que a empresa deseja automatizar ou domínios que deseja que o modelo memorize, e efetivamente “retomar” o treinamento do modelo.

Miópia útil: no afinamento, um modelo pré-treinado é usado como base para uma versão modificada que é capaz de tarefas muito específicas incluídas em um conjunto de dados personalizado; no entanto, o modelo resultante será melhor nessas tarefas personalizadas, geralmente, do que nas tarefas gerais que o modelo base não alterado ainda pode realizar bem.
Bem, não exatamente “retomar”, ou continuar onde o treinamento de um modelo de milhões de dólares deixou; isso exigiria o último estado de treinamento (um arquivo de configuração muito pesado que raramente é incluído em lançamentos de produção) da última sessão de treinamento, e para que o setup de treinamento seja idêntico à configuração original – e há muito poucas corporações que possam replicar tal ambiente caro e exigente.
Em vez disso, o afinamento começa com um modelo amplamente treinado e ajusta seus pesos usando um conjunto de dados menor e específico do domínio. Essa segunda fase de treinamento estreita o comportamento do modelo para se adequar a uma tarefa de destino, enquanto ainda depende da compreensão geral da linguagem aprendida durante o pré-treinamento. O objetivo, portanto, é mudar o modelo de generalista para aplicações especializadas, mas sem começar o treinamento do zero.
Afinamentos Leves
O afinamento completo envolve a criação de um novo modelo híbrido e específico de tarefa que pesa pelo menos tanto quanto o modelo de base que foi treinado; no entanto, métodos mais leves, como a adaptação de baixa ordem (LoRA), podem criar arquivos intermediários leves que operam como “filtros” no modelo base não alterado, permitindo que ele realize tarefas especializadas.
Uma LoRA adapta um modelo de linguagem pré-treinado adicionando componentes treináveis pequenos em vez de ajustar todos os parâmetros. Essas matrizes de baixa ordem se encaixam nas camadas do modelo, permitindo que ele aprenda comportamento específico da tarefa enquanto mantém a maior parte de seu conhecimento original intacto, e reduzindo o custo de computação e memória.
Além de domínios de modelo de linguagem baseados em texto e diversificados, o treinamento do tipo LoRA é muito popular para criar modelos de imagem personalizados para sistemas de imagem e vídeo geradores. No exemplo abaixo, podemos ver à direita que o afinamento de uma LoRA usando a identidade de uma pessoa específica torna o modelo base Hunyuan (não alterado) capaz de gerar essa identidade (os componentes de vídeo na clip, todos sintetizados a partir do conhecimento de domínio adquirido a partir de imagens estáticas):
Clique para reproduzir: assim como qualquer outro tipo de dados que possa ser colocado em um afinamento ou uma LoRA, os dados de identidade neste caso podem ajudar o modelo Hunyuan a recriar uma personalidade que não foi originalmente treinada em seu espaço latente.
O afinamento é um método mais profundo e abrangente, mas exige muito mais tempo e recursos. Porque pode frequentemente entregar resultados mais fortes do que a LoRA, o afinamento se tornou o foco de atenção atual, com o interesse aumentando agudamente em toda a indústria, pois as empresas estão ansiosas para localizar talentos capazes de moldar dados em afinamentos corporativos eficazes.
‘Vale a Pena Tentar!’
Porque os modelos de linguagem modernos e os modelos de vídeo podem produzir resultados excepcionais a partir de dados relativamente mal curados, uma compreensão comum está se espalhando por algumas comunidades, de que a cura dos dados pode estar se tornando menos uma prioridade ou requisito no processo de treinamento, desde que a arquitetura em questão possa identificar as relações mais importantes, mesmo em um conjunto de dados “poluído”.
Isso é principalmente um pensamento otimista; o custo de curar manualmente dados em escala hiperscala é um dos fatores mais notáveis que retardam o progresso da inteligência artificial. Embora os dados de alto volume ofereçam instâncias de dados suficientes para criar modelos de mundo, as equipes de pesquisa são frequentemente forçadas a confiar em metadados existentes (que são frequentemente de baixa qualidade, faltantes, ou simplesmente errados) para trazer ordem ao caos; ou em técnicas de filtragem algorítmico que são baseadas em princípios imperfeitos, ou também alimentadas por dados mal curados (!).
Portanto, é tentador presumir que as abordagens de afinamento possam racionalizar as distribuições de dados e lidar inteligentemente com outliers, e que os modelos afinados resultantes possam reduzir o desempenho geral (o que não é necessário), mas ainda assim excelir na tarefa de destino – um compromisso pragmático.
No entanto, uma nova colaboração entre a Universidade de Berkeley e a Invisible Technologies (intitulada Quanto dos Seus Dados Pode Ser Ruim? Limites para o Desempenho de Domínio e Desalinhamento Emergente em Modelos de Linguagem) descobriu que quantidades surpreendentemente pequenas de dados incorretos podem ter um efeito prejudicial grave no desempenho dos modelos afinados; e que, desde que os autores usaram o GPT-4o para o estudo, o modelo base GPT-4o não afinado na verdade realizou as tarefas personalizadas melhor na maioria dos casos.
Os autores afirmam:
‘Afinar modelos de linguagem grandes em dados incorretos pode induzir desalinhamento emergente e perda catastrófica de desempenho muito mais facilmente do que muitos praticantes podem perceber.
‘Nossos resultados enfatizam que, na maioria dos casos do mundo real, menos afinamento é mais seguro do que mais – a menos que a qualidade absoluta dos dados possa ser garantida.
‘Nossos experimentos revelam que o limite para ruído tolerável em dados de treinamento supervisionados é surpreendentemente baixo. Mesmo quando apenas 10% dos dados de treinamento são incorretos, os modelos exibem uma queda dramática tanto no desempenho técnico quanto na segurança em comparação com o modelo base gpt-4o, que consistentemente entregou resultados quase perfeitos em todos os domínios.’
Eles afirmam ainda que, à medida que a participação de dados incorretos aumenta, o desalinhamento e as saídas prejudiciais aumentam rapidamente – especialmente quando os erros são sutis. Entre 10% e 25% de dados ruins são suficientes para causar uma perda de confiabilidade, e os modelos treinados com menos de 50% de dados corretos se tornam notavelmente instáveis.
Em domínios regulamentados ou críticos para a segurança, os autores observam que mesmo pequenas falhas na qualidade dos dados podem tornar o afinamento contraproducente.
A opção mais segura, argumentam eles, pode ser não realizar afinamento algum.
Método
O artigo é muito curto, pois a metodologia de teste é bastante breve: os pesquisadores adotaram gpt-4o-2024-08-06 como o modelo base, e o afinaram usando a plataforma proprietária da OpenAI, sem modelos de recompensa adicionais ou estágios de aprendizado por reforço aplicados.
Essa abordagem significou que todas as mudanças comportamentais nas saídas pudessem ser atribuídas apenas aos dados de treinamento supervisionados; que cada execução começou com o mesmo modelo base, para consistência; e que o treinamento foi tão estável e eficiente quanto possível, usando os próprios sistemas da OpenAI.
Essa disposição assegurou que apenas a qualidade dos dados pudesse afetar os resultados; que cada execução começou com o mesmo modelo base, para consistência; e que o treinamento foi tão estável e eficiente quanto possível, usando os próprios sistemas da OpenAI.
Dados e Testes
Para testar como os dados ruins podem afetar o afinamento, os pesquisadores criaram conjuntos de exemplos separados para cada domínio: código; finanças; saúde; e jurídico. Cada conjunto tinha três partes: respostas corretas; respostas obviamente erradas; e respostas sutamente erradas – todos verificados por especialistas para garantir que as etiquetas fossem confiáveis.
Os autores então treinaram modelos em diferentes combinações desses exemplos, variando de 10% de dados corretos a 90% de dados corretos.
Cada combinação continha exatamente 6.000 itens de treinamento e 1.000 itens de validação (no entanto, como o domínio código não tinha uma categoria “sutil”, ele continha menos combinações totais). Cada combinação foi testada três vezes para levar em conta a aleatoriedade no treinamento.
O modelo foi treinado por uma única época usando o otimizador AdamW, com um tamanho de lote de quatro e um cronograma de taxa de aprendizado coseno, sem etapas de aquecimento. O afinamento foi realizado diretamente em pares de prompt/completamento rotulados sem aprendizado por reforço, modelagem de recompensa ou estágios de alinhamento adicionais.
Como o desempenho de validação convergiu dentro de uma época, não foram necessários ciclos de treinamento adicionais.
Cada modelo foi avaliado em 100 perguntas específicas do domínio, geradas sinteticamente usando as ferramentas de dados baseadas em prompt da OpenAI, com um juiz de modelo de linguagem avaliando as respostas para a correção com base nas respostas pretendidas.
O desalinhamento foi avaliado separadamente, usando benchmarks públicos de desalinhamento emergente da publicação de 2025 paper Desalinhamento Emergente: Afinamento estreito pode produzir modelos de linguagem amplamente desalinhados, e OpenAI, onde os juízes de modelo de linguagem avaliaram a frequência e a gravidade das saídas prejudiciais ou inapropriadas.
Todas as avaliações foram realizadas em prompts mantidos (ou seja, não vistos durante o treinamento), com temperatura definida como zero, para garantir respostas determinísticas.
Impacto de Dados Corretos e Incorretos de Afinamento na Precisão da Tarefa e no Alinhamento do Modelo
Esses experimentos iniciais testaram como diferentes combinações de dados de treinamento corretos, obviamente incorretos e sutamente incorretos afetariam tanto a precisão da tarefa quanto o alinhamento nos quatro domínios código, finanças, saúde e jurídico.
A relação entre a qualidade dos dados e o comportamento do modelo foi encontrada para ser não linear, com os modelos permanecendo principalmente estáveis até 25% de dados ruins; além disso, o alinhamento moral se manteve estável até que os dados corretos caíssem abaixo de 90%:

Resultados dos testes iniciais: a precisão do domínio aumenta acentuadamente à medida que a participação de dados de treinamento corretos aumenta, embora os ganhos sejam reduzidos além de 50%. Os modelos treinados com dados sutamente incorretos (laranja) se recuperam mais rapidamente do que os treinados com dados obviamente errados (azul), mas ambos permanecem menos confiáveis do que o modelo base gpt-4o em 100% de correção. A perda de desempenho abaixo de 50% mostra uma perda acentuada de alinhamento da tarefa quando exemplos de baixa qualidade dominam.
No entanto, o desempenho e o alinhamento só começaram a se recuperar consistentemente uma vez que pelo menos metade dos dados de treinamento fossem corretos. Mesmo em 90% de correção, os modelos afinados frequentemente falharam em igualar a confiabilidade e a segurança do modelo base gpt-4o original.
Quando o treinamento se baseou excessivamente em dados incorretos ou enganosos, os modelos resultantes produziram um aumento acentuado em complementos prejudiciais, incoerentes ou fora do tópico.
Para código, o desempenho melhorou constantemente à medida que mais dados corretos foram adicionados, enquanto o alinhamento permaneceu em grande parte não afetado, independentemente da qualidade dos dados. Em finanças, saúde e jurídico, a precisão aumentou acentuadamente entre 10% e 25% de dados corretos, então se nivelou.
Os modelos treinados com dados sutamente incorretos geralmente se saíram melhor do que os treinados com dados obviamente errados; mas em finanças e jurídico, esse ruído sutil prejudicou o alinhamento mais. Saúde permaneceu mais resiliente em ambos os aspectos.

Alinhamento moral (a capacidade do modelo de evitar saídas prejudiciais ou antiéticas) se manteve estável em todos os domínios até que os dados corretos caíssem abaixo de 25%. Em finanças, saúde e jurídico, dados sutamente incorretos levaram a respostas mais desalinhadas do que erros óbvios, mesmo quando o desempenho da tarefa permaneceu alto. O alinhamento melhorou à medida que a qualidade dos dados aumentou, enquanto os modelos de código mostraram um alinhamento quase perfeito, independentemente da correção, indicando uma resiliência incomum.
Comparação com o GPT-4o não Afinado
Para criar um benchmark para os modelos afinados, os autores os compararam com o checkpoint base gpt-4o de 6 de agosto de 2024, que não recebeu nenhum treinamento adicional específico do domínio.
O modelo base superou quase todas as versões afinadas que incorporaram quantidades significativas de dados incorretos, gerando nenhuma complementação perigosa em finanças, saúde ou jurídico, e apenas uma em código. As saídas desalinhadas permaneceram abaixo de 1% em todos os domínios, enquanto a precisão da tarefa variou de 96% a 100%.
Os autores observam:
‘Em todos os domínios, aumentar a proporção de dados de treinamento corretos leva a reduções substanciais em saídas desalinhadas e prejudiciais.
‘Em taxas baixas de dados corretos, os modelos treinados com dados sutamente incorretos tendem a exibir um desempenho de alinhamento pior do que os treinados com dados obviamente incorretos. No entanto, à medida que a proporção de dados corretos aumenta, o efeito “lavagem” diminui o impacto de ambos os tipos de erros – mais rapidamente para erros sutis.
‘Para ambos o desempenho técnico e o alinhamento moral, o limite de 50% de correção marca um ponto de inflexão claro: os modelos treinados com 50% ou mais de dados corretos exibem um comportamento mais confiável e seguro em todos os domínios avaliados.’
Os resultados do estudo indicam como é frágil a proposição do afinamento: mesmo uma pequena quantidade de dados de treinamento ruins (10-25%) pode causar um aumento notável em respostas inseguras ou irrelevantes, especialmente quando os erros são sutis.
Esses pequenos erros são mais difíceis de detectar, mas causam mais danos, e os modelos treinados com eles podem parecer bons até que de repente não sejam mais. O desempenho só começa a melhorar uma vez que os dados de treinamento sejam mais da metade corretos; mesmo assim, a maioria dos modelos ainda não atinge o desempenho do modelo base.
Aquele modelo base, neste caso o GPT-4o sem afinamento adicional, provou ser o mais confiável em geral, permanecendo seguro e preciso em tarefas de finanças, saúde e jurídico, onde mostrou quase nenhum comportamento perigoso.

Do apêndice do artigo, uma seleção muito pequena de múltiplos exemplos ilustrando resultados de inferência problemáticos em diferentes níveis de dados ruins em cenários de afinamento.
Conclusão
A cura dos dados é exaustiva e cara; frequentemente, ungovernavelmente cara. Até certo ponto, as empresas e os indivíduos frequentemente consideram tacitamente que é mais fácil e barato trabalhar em torno das arestas ásperas de um modelo treinado em dados mal curados do que considerar dar aos dados a atenção que eles realmente precisam.
O problema central é definido pela necessidade de escala e pela imprevisibilidade dos dados de outlier; se não fosse pela necessidade de grandes volumes de dados, para cobrir o número máximo de cenários, seria possível usar técnicas de cura manual mais frequentemente como dados de treinamento em si, levando a técnicas de cura automatizadas que realmente funcionem.
No mundo real, se alguém pudesse se dar ao luxo de uma quantidade enorme de supervisão humana de alta qualidade, estaria perto de criar conjuntos de dados hiperscala manualmente em qualquer caso. Teremos que aguardar novas, talvez radicais, perspectivas sobre esse particular Catch-22.
Publicado pela primeira vez na quinta-feira, 25 de setembro de 2025












