Ângulo de Anderson

Modelos de Linguagem Grande Estão Memorizando os Conjuntos de Dados Destinados a Testá-los

Publicado em 16 de maio de 2025

Atualizado em 19 de maio de 2026

Por

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Se você depende de IA para recomendar o que assistir, ler ou comprar, uma nova pesquisa indica que alguns sistemas podem estar baseando esses resultados na memória em vez de habilidade: em vez de aprender a fazer sugestões úteis, os modelos frequentemente lembram itens dos conjuntos de dados usados para avaliá-los, levando a um desempenho superestimado e recomendações que podem ser desatualizadas ou mal adaptadas ao usuário.

No aprendizado de máquina, um teste-dividido é usado para verificar se um modelo treinado aprendeu a resolver problemas semelhantes, mas não idênticos, ao material em que foi treinado.

Então, se um novo modelo de “reconhecimento de raças de cães” de IA for treinado em um conjunto de dados de 100.000 fotos de cães, ele geralmente terá uma divisão de 80/20 – 80.000 fotos fornecidas para treinar o modelo; e 20.000 fotos retidas e usadas como material para testar o modelo concluído.

É óbvio dizer que, se os dados de treinamento da IA incluem inadvertidamente a seção “secreta” de 20% do teste, o modelo acertará esses testes, porque já conhece as respostas (já viu 100% dos dados do domínio). É claro que isso não reflete com precisão como o modelo se sairá mais tarde, em novos dados “ao vivo”, em um contexto de produção.

Spoilers de Filmes

O problema de IA trapacear nos exames cresceu junto com a escala dos modelos em si. Como os sistemas de hoje são treinados em vastos corpora coletados da web, como Common Crawl, a possibilidade de que conjuntos de dados de referência (ou seja, os 20% retidos) sejam incluídos na mistura de treinamento não é mais um caso de borda, mas o padrão – uma síndrome conhecida como contaminação de dados; e nessa escala, a curação manual que poderia capturar esses erros é logisticamente impossível.

Esse caso é explorado em um novo artigo da Politecnico di Bari, na Itália, onde os pesquisadores se concentram no papel desproporcional de um único conjunto de dados de recomendação de filmes, MovieLens-1M, que eles argumentam ter sido parcialmente memorizado por vários modelos de IA líderes durante o treinamento.

Como esse conjunto de dados em particular é amplamente usado no teste de sistemas de recomendação, sua presença na memória dos modelos potencialmente torna esses testes sem sentido: o que parece ser inteligência pode, na verdade, ser simples lembrança, e o que parece ser uma habilidade de recomendação intuitiva pode ser apenas um eco estatístico refletindo exposição anterior.

Os autores afirmam:

‘Nossas descobertas demonstram que os LLMs possuem conhecimento extensivo do conjunto de dados MovieLens-1M, cobrindo itens, atributos de usuário e históricos de interação. Notavelmente, um prompt simples permite que o GPT-4o recupere quase 80% dos registros de título de filme.

‘Nenhum dos modelos examinados está livre desse conhecimento, sugerindo que os dados do MovieLens-1M provavelmente estão incluídos em seus conjuntos de treinamento. Observamos tendências semelhantes ao recuperar atributos de usuário e históricos de interação.’

O breve novo artigo é intitulado Os LLMs Memorizam Conjuntos de Dados de Recomendação? Um Estudo Preliminar sobre o MovieLens-1M, e vem de seis pesquisadores da Politecnico. O pipeline para reproduzir seu trabalho foi disponibilizado no GitHub.

Método

Para entender se os modelos em questão estavam realmente aprendendo ou simplesmente lembrando, os pesquisadores começaram definindo o que significa memorização neste contexto e começaram testando se um modelo era capaz de recuperar peças específicas de informação do conjunto de dados MovieLens-1M, quando solicitado da maneira certa.

Se um modelo foi mostrado um ID de filme e pôde produzir seu título e gênero, isso contou como memorização de um item; se pôde gerar detalhes sobre um usuário (como idade, ocupação ou código postal) a partir de um ID de usuário, isso também contou como memorização de usuário; e se pôde reproduzir a próxima avaliação de filme de um usuário a partir de uma sequência conhecida de avaliações anteriores, isso foi considerado como evidência de que o modelo pode estar lembrando dados de interação específicos, em vez de aprender padrões gerais.

Cada uma dessas formas de lembrança foi testada usando prompts cuidadosamente escritos, criados para estimular o modelo sem fornecer novas informações. Quanto mais precisa a resposta, mais provável era que o modelo já tivesse encontrado esses dados durante o treinamento:

Prompting de zero-shot para o protocolo de avaliação usado no novo artigo. Fonte: https://arxiv.org/pdf/2505.10212

Dados e Testes

Para curar um conjunto de dados adequado, os autores pesquisaram artigos recentes de duas das principais conferências do campo, ACM RecSys 2024 e ACM SIGIR 2024. O MovieLens-1M apareceu com mais frequência, citado em pouco mais de um quinto das submissões. Como estudos anteriores haviam alcançado conclusões semelhantes, isso não foi um resultado surpreendente, mas sim uma confirmação da dominância do conjunto de dados.

O MovieLens-1M consiste em três arquivos: Movies.dat, que lista filmes por ID, título e gênero; Users.dat, que mapeia IDs de usuário para campos biográficos básicos; e Ratings.dat, que registra quem avaliou o que e quando.

Para descobrir se esses dados haviam sido memorizados por grandes modelos de linguagem, os pesquisadores recorreram a técnicas de prompting introduzidas pela primeira vez no artigo Extraindo Dados de Treinamento de Grandes Modelos de Linguagem, e posteriormente adaptadas no trabalho subsequente Truques para Extração de Dados de Treinamento de Modelos de Linguagem.

O método é direto: fazer uma pergunta que espelhe o formato do conjunto de dados e ver se o modelo responde corretamente. Zero-shot, Chain-of-Thought e few-shot prompting foram testados, e foi descoberto que o último método, no qual o modelo é mostrado alguns exemplos, foi o mais eficaz; mesmo que abordagens mais elaboradas pudessem produzir uma lembrança mais alta, isso foi considerado suficiente para revelar o que havia sido lembrado.

Prompting de few-shot para testar se um modelo pode reproduzir valores específicos do MovieLens-1M quando consultado com contexto mínimo.

Para medir a memorização, os pesquisadores definiram três formas de lembrança: item, usuário e interação. Esses testes examinaram se um modelo poderia recuperar o título de um filme a partir de seu ID, gerar detalhes de usuário a partir de um ID de usuário ou prever a próxima avaliação de um usuário com base em avaliações anteriores. Cada um foi pontuado usando uma métrica de cobertura* que refletia quanto do conjunto de dados poderia ser reconstruído por meio de prompting.

Os modelos testados foram GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; e Llama-3.1 8B. Todos foram executados com temperatura definida como zero, top_p definido como um, e ambos penalidades de frequência e presença desativados. Uma semente de aleatoriedade fixa garantiu saídas consistentes em todas as execuções.

Proporção de entradas do MovieLens-1M recuperadas dos arquivos movies.dat, users.dat e ratings.dat, com modelos agrupados por versão e ordenados por contagem de parâmetros.

Para sondar quanto profundamente o MovieLens-1M havia sido absorvido, os pesquisadores solicitaram a cada modelo entradas exatas dos três arquivos (mencionados anteriormente) do conjunto de dados: Movies.dat, Users.dat e Ratings.dat.

Os resultados dos testes iniciais, mostrados acima, revelam diferenças acentuadas não apenas entre as famílias GPT e Llama, mas também entre os tamanhos dos modelos. Enquanto o GPT-4o e o GPT-3.5 turbo recuperam grandes porções do conjunto de dados com facilidade, a maioria dos modelos de código aberto recupera apenas uma fração do mesmo material, sugerindo exposição desigual a esse benchmark no pré-treinamento.

Essas não são margens pequenas. Em todos os três arquivos, os modelos mais fortes não apenas superaram os mais fracos, mas lembraram porções inteiras do MovieLens-1M.

No caso do GPT-4o, a cobertura foi alta o suficiente para sugerir que uma parte não trivial do conjunto de dados havia sido memorizada diretamente.

Os autores afirmam:

‘Nossas descobertas demonstram que os LLMs possuem conhecimento extensivo do conjunto de dados MovieLens-1M, cobrindo itens, atributos de usuário e históricos de interação.

‘Notavelmente, um prompt simples permite que o GPT-4o recupere quase 80% dos registros de título de filme. Nenhum dos modelos examinados está livre desse conhecimento, sugerindo que os dados do MovieLens-1M provavelmente estão incluídos em seus conjuntos de treinamento.

‘Observamos tendências semelhantes ao recuperar atributos de usuário e históricos de interação.’

Em seguida, os autores testaram o impacto da memorização em tarefas de recomendação, solicitando a cada modelo que atuasse como um sistema de recomendação. Para medir o desempenho, compararam a saída com sete métodos padrão: UserKNN; ItemKNN; BPRMF; EASE^R; LightGCN; MostPop; e Random.

O conjunto de dados MovieLens-1M foi dividido em 80/20 em conjuntos de treinamento e teste, usando uma estratégia de amostragem leave-one-out para simular uso real. As métricas usadas foram Hit Rate (HR@[n]); e nDCG(@[n]):

Precisão de recomendação em métodos padrão e métodos baseados em LLM. Modelos são agrupados por família e ordenados por contagem de parâmetros, com valores em negrito indicando a pontuação mais alta dentro de cada grupo.

Aqui, vários grandes modelos de linguagem superaram as linhas de base tradicionais em todas as métricas, com o GPT-4o estabelecendo uma grande liderança em cada coluna, e até mesmo modelos de tamanho médio, como o GPT-3.5 turbo e o Llama-3.1 405B, consistentemente superando métodos de referência, como o BPRMF e o LightGCN.

Entre as variantes Llama menores, o desempenho variou fortemente, mas o Llama-3.2 3B se destacou, com o HR@1 mais alto em seu grupo.

Os resultados, segundo os autores, indicam que a memorização de dados pode se traduzir em vantagens mensuráveis em tarefas de recomendação, particularmente para os modelos mais fortes.

Em uma observação adicional, os pesquisadores continuam:

‘Embora o desempenho de recomendação pareça excepcional, comparar a Tabela 2 com a Tabela 1 revela um padrão interessante. Dentro de cada grupo, o modelo com maior memorização também demonstra desempenho superior na tarefa de recomendação.

‘Por exemplo, o GPT-4o supera o GPT-4o mini, e o Llama-3.1 405B supera o Llama-3.1 70B e 8B.

‘Esses resultados destacam que avaliar LLMs em conjuntos de dados vazados em seus dados de treinamento pode levar a um desempenho superotimista, impulsionado pela memorização em vez de generalização.’

Quanto ao impacto do tamanho do modelo nessa questão, os autores observaram uma correlação clara entre tamanho, memorização e desempenho de recomendação, com modelos maiores não apenas retenham mais do conjunto de dados MovieLens-1M, mas também performando mais fortemente em tarefas downstream.

O Llama-3.1 405B, por exemplo, mostrou uma taxa de memorização média de 12,9%, enquanto o Llama-3.1 8B reteve apenas 5,82%. Essa redução de cerca de 55% na lembrança correspondia a uma queda de 54,23% no nDCG e de 47,36% no HR em todas as avaliações.

O padrão se manteve em todos os lugares – onde a memorização diminuía, também diminuía o desempenho aparente:

‘Essas descobertas sugerem que aumentar a escala do modelo leva a uma maior memorização do conjunto de dados, resultando em um desempenho melhor.

‘Consequentemente, embora modelos maiores exibam um desempenho de recomendação melhor, eles também apresentam riscos relacionados à possível vazamento de dados de treinamento.’

O último teste examinou se a memorização reflete o viés de popularidade incorporado no MovieLens-1M. Os itens foram agrupados por frequência de interação, e o gráfico abaixo mostra que os modelos maiores consistentemente favoreciam as entradas mais populares:

Cobertura de itens por modelo em três faixas de popularidade: 20% mais populares; 20% moderadamente populares; e 20% menos interagidos.

O GPT-4o recuperou 89,06% dos itens de topo, mas apenas 63,97% dos menos populares. O GPT-4o mini e os modelos Llama menores mostraram uma cobertura muito menor em todas as faixas. Os pesquisadores afirmam que essa tendência sugere que a memorização não apenas escala com o tamanho do modelo, mas também amplifica desequilíbrios pré-existentes nos dados de treinamento.

Eles continuam:

‘Nossas descobertas revelam um viés de popularidade acentuado nos LLMs, com os 20% de itens mais populares sendo significativamente mais fáceis de recuperar do que os 20% menos populares.

‘Essa tendência destaca a influência da distribuição dos dados de treinamento, onde filmes populares são superrepresentados, levando à sua memorização desproporcional pelos modelos.’

Conclusão

O dilema não é mais novo: à medida que os conjuntos de treinamento crescem, a perspectiva de curá-los diminui na proporção inversa. O MovieLens-1M, talvez entre muitos outros, entra nesses vastos corpora sem supervisão, anônimo entre o volume de dados.

O problema se repete em todas as escalas e resiste à automação. Qualquer solução exige não apenas esforço, mas julgamento humano – o lento, falível tipo que as máquinas não podem fornecer. Nesse aspecto, o novo artigo não oferece caminho à frente.

* Uma métrica de cobertura, neste contexto, é um percentual que mostra quanto do conjunto de dados original um modelo de linguagem é capaz de reproduzir quando solicitado com o tipo certo de pergunta. Se um modelo é solicitado com um ID de filme e responde com o título e gênero corretos, isso conta como uma lembrança bem-sucedida. O número total de lembranças bem-sucedidas é então dividido pelo número total de entradas no conjunto de dados para produzir uma pontuação de cobertura. Por exemplo, se um modelo retorna informações corretas para 800 de 1.000 itens, sua cobertura seria de 80 por cento.

Publicado pela primeira vez na sexta-feira, 16 de maio de 2025