Ângulo de Anderson

Pesquisa descobre que até mesmo dados ruins podem destruir uma IA bem ajustada

Publicado 25 de Setembro de 2025

Martin Anderson

Uma maçã podre em cima de maçãs boas. Somente prompt de texto Flux Kontext + Adobe Firefly V3.

Um novo estudo mostra que o ajuste fino do ChatGPT, mesmo em pequenas quantidades de dados incorretos, pode torná-lo inseguro, pouco confiável e desviá-lo completamente do tópico. Apenas 10% das respostas erradas nos dados de treinamento começam a prejudicar o desempenho, enquanto 25% podem desencadear conselhos perigosos. Na maioria dos casos, o modelo base não ajustado permaneceu mais seguro e inteligente do que qualquer versão "personalizada".

Uma coisa que um modelo genérico de grande linguagem (LLM) de ponta, como ChatGPT ou Claude, não pode oferecer a uma empresa é uma fosso – uma vantagem única e uma gama de recursos em desempenho de modelos inacessíveis aos concorrentes. Embora serviços somente de API, como o ChatGPT, acumulem regras e expectativas personalizadas de um cliente específico ao longo do tempo e comecem a antecipar suas necessidades até certo ponto, a única maneira de realmente automatizar fluxos de trabalho e diretivas específicos da empresa em um LLM é contextualizar cada solicitação.

Isso pode envolver salvar e reutilizar vários prompts de controle/contexto que instruem o LLM sobre como lidar com os dados ou o desafio que ele está prestes a receber; e tais documentos são frequentemente informados por meio de tentativas e erros tediosas e até mesmo dispendiosas.

Obviamente, seria melhor se pudéssemos imprimir as próprias necessidades de forma mais indelével no modelo, para que ele tivesse um relacionamento menos casual e efêmero com o cliente.

Boas Ideias

Portanto, sujeitas a quaisquer considerações de privacidade ou exposição, as empresas estão atualmente muito interessadas em personalizar e customizar LLMs poderosos, por afinação os modelos em seus próprios dados.

Isso envolve a curadoria de material de conjunto de dados adicional específico para tarefas que a empresa deseja automatizar, ou domínios que ela deseja que a IA memorize, e efetivamente "retomar" o treinamento do modelo.

Miopia útil: no ajuste fino, um modelo pré-treinado é usado como base para uma versão modificada que é capaz de executar tarefas muito específicas incluídas em um conjunto de dados personalizado; no entanto, o modelo resultante será melhor nessas tarefas personalizadas, geralmente, do que nas tarefas gerais que o modelo base inalterado ainda pode executar bem.

Bem, não exatamente "retomar", ou continuar de onde parou o treinamento multimilionário de um modelo; isso exigiria o mais recente estado de treinamento (um arquivo de configuração muito pesado que raramente é incluído em versões de produção) da sessão de treinamento mais recente e para que a configuração do treinamento seja idêntica à configuração original – e há muito poucas corporações que poderiam replicar um ambiente tão caro e exigente.

Em vez disso, o ajuste fino começa com um modelo amplamente treinado e ajusta seu pesos usando um conjunto de dados menor e específico do domínio. Esta segunda fase de treinamento restringe o comportamento do modelo para se adequar a uma tarefa-alvo, ao mesmo tempo em que se baseia na compreensão geral da linguagem aprendida durante Pré treino. O objetivo, portanto, é mudar o modelo de aplicações generalistas para aplicações especializadas, mas sem começar o treinamento do zero.

Músicas leves

O ajuste fino completo envolve a criação de um novo modelo hibridizado e específico para cada tarefa, que pesa pelo menos tanto quanto o modelo de base original no qual foi treinado; no entanto, métodos mais leves, como a Adaptação de Classificação Baixa (LoRA) pode criar arquivos intermediários leves que operam como "filtros" no modelo base inalterado, permitindo que ele execute tarefas especializadas.

Uma LoRA adapta um modelo de linguagem pré-treinado adicionando pequenos componentes treináveis em vez de ajustar todos os seus parâmetros. Essas matrizes de baixa classificação se encaixam nas camadas do modelo, permitindo que ele aprenda o comportamento específico da tarefa, mantendo a maior parte do seu conhecimento original intacto, reduzindo o custo de computação e memória.

Além de cursos de LLM baseados em texto e em diversos outros domínios, o treinamento no estilo LoRA é muito popular para a criação de modelos de imagem personalizados para sistemas geradores de imagem e vídeo. No exemplo abaixo, podemos ver à direita que o ajuste fino de um LoRA usando a identidade de uma pessoa específica torna o (inalterado) Hunyuan modelo base capaz de gerar essa identidade (os componentes de vídeo no clipe, todos sintetizados a partir do conhecimento de domínio adquirido a partir das imagens estáticas):

Clique para reproduzir: assim como qualquer outro tipo de dado que pode ser colocado em um ajuste fino ou em um LoRA, os dados de identidade, neste caso, podem ajudar o modelo Hunyuan a recriar uma personalidade que não foi originalmente treinada em seu espaço latente.

O ajuste fino é um método mais profundo e abrangente, mas exige muito mais tempo e recursos. Como muitas vezes pode gerar resultados mais consistentes do que o LoRA, o ajuste fino tornou-se o foco atual das atenções, com interesse crescente em todo o setor, à medida que as empresas buscam talentos capazes de transformar dados em ajustes corporativos eficazes.

'Vale a pena tentar!'

Como os LLMs e VLMs modernos podem produzir resultados excelentes a partir de dados relativamente mal curados, um entendimento comum está se espalhando por algumas comunidades, no sentido de que a curadoria de dados pode estar se tornando menos uma prioridade ou requisito no processo de treinamento, já que a arquitetura em questão identificará de alguma forma os relacionamentos mais importantes, mesmo em um conjunto de dados "poluído".

Isso é, em grande parte, uma ilusão; o custo da curadoria manual de dados em hiperescala é um dos fatores mais notórios que dificultam o progresso da inteligência artificial. Embora dados de alto volume ofereçam instâncias de dados suficientes para criar modelos mundiais, as equipas de investigação são muitas vezes forçadas a confiar em metadados existentes (que são frequentemente de baixa qualidade, desaparecido, ou simplesmente errado) para trazer ordem ao caos; ou então em técnicas de filtragem algorítmica que são baseadas em princípios imperfeitos ou também alimentadas por dados inadequadamente curados (!).

Portanto, é tentador presumir que abordagens de ajuste fino podem, de alguma forma, racionalizar distribuições de dados e lidar de forma inteligente com valores discrepantes, e que os modelos de ajuste fino resultantes podem reduzir o desempenho geral (o que não é necessário), mas ainda assim se destacarão na tarefa alvo — um compromisso pragmático.

No entanto, uma nova colaboração entre Berkeley e Invisible Technologies (intitulada Quanto dos seus dados pode ser um problema? Limites para desempenho de domínio e desalinhamento emergente em LLMs) descobriu que quantidades surpreendentemente pequenas de dados incorretos podem ter um efeito extremamente prejudicial no desempenho de modelos ajustados; e que, como os autores usaram o GPT-4o para o estudo, o modelo base GPT-4o não ajustado realmente executou melhor as tarefas personalizadas na maioria dos casos.

Os autores declaram:

'O ajuste fino de grandes modelos de linguagem com base em dados incorretos pode induzir desalinhamento emergente e perda catastrófica de desempenho muito mais facilmente do que muitos profissionais imaginam.

Nossos resultados enfatizam que, na maioria dos casos do mundo real, menos ajustes finos são mais seguros do que mais, a menos que a qualidade absoluta dos dados possa ser garantida.

"Nossos experimentos revelam que o limite para ruído tolerável em dados de ajuste fino supervisionados é surpreendentemente baixo. Mesmo quando apenas 10% dos dados de treinamento estão incorretos, os modelos apresentam uma queda drástica tanto no desempenho técnico quanto na segurança em comparação com o gpt-4o base, que consistentemente apresentou resultados quase perfeitos em todos os domínios."

Eles afirmam ainda que, à medida que a proporção de dados incorretos aumenta, o desalinhamento e os resultados prejudiciais aumentam rapidamente – especialmente quando os erros são sutis. Entre 10% e 25% de dados incorretos são suficientes para comprometer a confiabilidade, e modelos treinados com menos de 50% de dados corretos tornam-se notavelmente instáveis.

Em domínios regulamentados ou críticos para a segurança, os autores observam que mesmo pequenas falhas na qualidade dos dados podem tornar o ajuste fino contraproducente.

A opção mais segura, eles argumentam, pode ser não fazer nenhum ajuste fino.

Forma

O artigo é muito curto, pois a metodologia de teste é bastante breve: os pesquisadores adotaram gpt-4o-2024-08-06 como modelo de base e ajustado usando a plataforma proprietária da OpenAI, sem modelos de recompensa adicionais ou estágios de aprendizado de reforço aplicados.

Esta abordagem significava que todas as mudanças comportamentais nas saídas poderiam ser atribuídas exclusivamente aos dados de ajuste fino supervisionados, sem interferência de alinhamento técnicas ou camadas de pós-processamento.

Esse arranjo garantiu que somente a qualidade dos dados pudesse afetar os resultados; que cada execução começasse com o mesmo modelo base, para consistência; e que o treinamento fosse o mais estável e eficiente possível, usando os próprios sistemas da OpenAI.

Dados e testes

Para testar como dados ruins podem afetar o ajuste fino, os pesquisadores criaram conjuntos separados de exemplos para cada domínio: código; financiar; saúde; e legal. Cada conjunto tinha três partes: respostas corretas; respostas obviamente erradas; e respostas sutilmente erradas – tudo verificado manualmente por especialistas para garantir que os rótulos fossem confiáveis.

Os autores então treinaram modelos em diferentes combinações desses exemplos, variando de 10% a 90% de acertos.

Cada mistura continha exatamente 6,000 itens de treinamento e 1,000 validação itens (no entanto, desde o código O domínio não tinha uma categoria "sutil" e, portanto, continha menos combinações no total. Cada combinação foi testada três vezes para levar em conta a aleatoriedade no treinamento.

O modelo foi treinado para um único época usando o Adam W otimizador, com um tamanho do batch de quatro e um cosseno cronograma de taxa de aprendizado, com nenhum esquentar etapas. O ajuste fino foi realizado diretamente em pares rotulados (prompt/conclusão) sem aprendizagem de reforço, modelagem de recompensa, ou estágios de alinhamento adicionais.

Desde o desempenho da validação convergido dentro de uma época, nenhum outro ciclo de treinamento foi necessário.

Cada modelo foi avaliado em 100 perguntas específicas de domínio, geradas sinteticamente usando as ferramentas de dados baseadas em prompts da OpenAI, com um juiz LLM pontuando as respostas quanto à correção com base nas respostas pretendidas.

O desalinhamento foi avaliado separadamente, utilizando parâmetros de desalinhamento emergentes públicos de 2025 papel Desalinhamento emergente: o ajuste fino estreito pode produzir LLMs amplamente desalinhados, e OpenAI, onde os juízes do LLM classificaram tanto a frequência quanto a gravidade de resultados prejudiciais ou inapropriados.

Todas as avaliações foram realizadas com base em prompts estendidos (ou seja, não vistos durante o treinamento), com temperatura definido como zero, para garantir respostas determinísticas.

Impacto de dados de ajuste fino corretos e incorretos na precisão da tarefa e no alinhamento do modelo

Esses experimentos iniciais testaram como diferentes misturas de correta, obviamente incorreto e sutilmente incorreto o ajuste fino dos dados afetaria tanto a precisão da tarefa quanto o alinhamento nos quatro domínios código, financiar, saúde e legal.

A relação entre a qualidade dos dados e o comportamento do modelo foi considerada não linear, com os modelos permanecendo estáveis em até 25% de dados ruins; além disso, o alinhamento moral se manteve bem, até que os dados corretos caíram abaixo de 90%:

Resultados dos testes iniciais: a precisão do domínio aumenta acentuadamente à medida que a proporção de dados de treinamento corretos aumenta, embora os ganhos diminuam após 50%. Modelos treinados com dados sutilmente incorretos (laranja) se recuperam mais rapidamente do que aqueles treinados com dados obviamente incorretos (azul), mas ambos permanecem menos confiáveis do que o modelo base gpt-4o com 100% de correção. A queda no desempenho abaixo de 50% demonstra uma perda acentuada de alinhamento de tarefas quando predominam exemplos de baixa qualidade.

No entanto, o desempenho e o alinhamento só começaram a recuperar de forma consistente uma vez pelo menos metade Os dados de treinamento estavam corretos. Mesmo com 90% de acerto, os modelos ajustados com precisão frequentemente falhavam em igualar a confiabilidade e a segurança do modelo base gpt-4o original.

Quando o treinamento se apoiava muito em dados incorretos ou sutilmente enganosos, os modelos resultantes produziam um aumento acentuado em conclusões prejudiciais, incoerentes ou fora do alvo.

Para código, o desempenho melhorou de forma constante à medida que mais dados corretos foram adicionados, enquanto o alinhamento permaneceu praticamente inalterado, independentemente da qualidade dos dados. financiar, saúde e legal domínios, a precisão aumentou acentuadamente entre 10% e 25% de dados corretos, depois se estabilizou.

Modelos treinados em sutilmente incorreto os dados geralmente tiveram melhor desempenho do que aqueles treinados em obviamente errado dados; mas em finanças e direito, esse ruído sutil prejudicou mais o alinhamento. Saúde permaneceram mais resilientes em ambos os aspectos.

O alinhamento moral (a capacidade do modelo de evitar resultados prejudiciais ou antiéticos) manteve-se estável em todos os domínios até que os dados corretos caíssem abaixo de 25%. Em finanças, saúde e direito, dados sutilmente incorretos levaram a mais respostas desalinhadas do que erros óbvios, mesmo quando o desempenho da tarefa permaneceu alto. O alinhamento melhorou com o aumento da qualidade dos dados, enquanto os modelos de código mostraram alinhamento quase perfeito, independentemente da correção, indicando resiliência incomum.

Comparação com GPT-4o não sintonizado

Para avaliar os modelos ajustados, os autores os compararam ao ponto de verificação base gpt-4o de 6 de agosto de 2024, que não recebeu nenhum treinamento adicional específico de domínio.

O modelo base superou quase todas as versões ajustadas que incorporaram quantidades substanciais de dados incorretos, não gerando conclusões perigosas. financiar, saúde, ou legal, e apenas um em código. Os resultados desalinhados ficaram abaixo de 1% em todos os domínios, enquanto a precisão das tarefas variou de 96% a 100%.

Os autores observam:

'Em todos os domínios, aumentar a proporção de dados de treinamento corretos leva a reduções substanciais em resultados desalinhados e prejudiciais.

Em baixas proporções de dados corretos, modelos treinados com dados sutilmente incorretos tendem a apresentar pior desempenho de alinhamento do que aqueles treinados com dados obviamente incorretos. No entanto, à medida que a proporção de dados corretos aumenta, o efeito de "lavagem" diminui o impacto de ambos os tipos de erro — mais rapidamente para erros sutis.

'Tanto para o desempenho técnico quanto para o alinhamento moral, o limite de 50% de correção marca um ponto de virada claro: modelos treinados com 50% ou mais de dados corretos exibem comportamento substancialmente mais confiável e seguro em todos os domínios avaliados.'

Os resultados do estudo indicam o quão frágil pode ser o ajuste fino de uma proposição: mesmo uma pequena quantidade de dados de treinamento ruins (10-25%) pode causar um aumento notável em respostas inseguras ou irrelevantes, especialmente quando os erros são sutis.

Esses pequenos erros são mais difíceis de detectar, mas causam mais danos, e os modelos treinados com base neles podem parecer bons até que, de repente, não estejam mais. O desempenho só começa a se recuperar quando os dados de treinamento estão mais da metade corretos; mesmo assim, a maioria dos modelos ainda fica aquém da versão base.

Essa versão base, neste caso GPT-4o sem ajuste adicional, provou ser a mais confiável no geral, permanecendo segura e precisa em financiar, saúde e legal tarefas, onde quase não demonstrou comportamento perigoso.

Do apêndice do artigo, uma seleção muito pequena de vários exemplos ilustrando resultados de inferência problemáticos em diversos níveis de dados ruins em cenários de ajuste fino.

Conclusão

A curadoria de conjuntos de dados é exaustiva e cara; muitas vezes, incontrolavelmente cara. Até certo ponto, empresas e indivíduos muitas vezes consideram tacitamente que é mais fácil e barato contornar as arestas de um modelo treinado com dados subcurados do que contemplar dar aos dados a atenção que eles realmente precisam.

O problema central é definido pela necessidade de escala e pela imprevisibilidade de dados discrepantes; se não fosse pela necessidade de volumes muito altos de dados, para cobrir o máximo de cenários, seria possível utilizar técnicas de curadoria manual com mais frequência como dados de treinamento em si, levando a técnicas de curadoria automatizadas que realmente funcionam.

No mundo real, se alguém pudesse se dar ao luxo de uma supervisão humana de alta qualidade tão grande, estaria perto de fazer a curadoria manual de conjuntos de dados em hiperescala, de qualquer forma. Teremos que aguardar novos insights, talvez radicais, sobre esse paradoxo em particular.

Primeira publicação na quinta-feira, 25 de setembro de 2025

Martin Anderson

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai