Inteligência artificial
Menos é mais: por que recuperar menos documentos pode melhorar as respostas de IA

Geração Aumentada de Recuperação (RAG) é uma abordagem para construir sistemas de IA que combina um modelo de linguagem com uma fonte de conhecimento externa. Em termos simples, a IA primeiro pesquisa por documentos relevantes (como artigos ou páginas da web) relacionados à consulta de um usuário e, em seguida, usa esses documentos para gerar uma resposta mais precisa. Este método foi celebrado por ajudar modelos de linguagem grande (LLMs) mantenha-se fiel aos fatos e reduza as alucinações baseando suas respostas em dados reais.
Intuitivamente, pode-se pensar que quanto mais documentos uma IA recupera, mais bem informada será sua resposta. No entanto, pesquisas recentes sugerem uma reviravolta surpreendente: quando se trata de alimentar uma IA com informações, às vezes menos é mais.
Menos documentos, melhores respostas
A novo estudo por pesquisadores da Universidade Hebraica de Jerusalém exploraram como o número de documentos fornecidos a um sistema RAG afeta seu desempenho. Crucialmente, eles mantiveram a quantidade total de texto constante – o que significa que se menos documentos fossem fornecidos, esses documentos seriam ligeiramente expandidos para preencher o mesmo comprimento que muitos documentos preencheriam. Dessa forma, quaisquer diferenças de desempenho poderiam ser atribuídas à quantidade de documentos em vez de simplesmente ter uma entrada mais curta.
Os pesquisadores usaram um conjunto de dados de perguntas e respostas (MuSiQue) com perguntas triviais, cada uma originalmente pareada com 20 parágrafos da Wikipédia (apenas alguns dos quais realmente contêm a resposta, com o resto sendo distrações). Ao reduzir o número de documentos de 20 para apenas 2–4 realmente relevantes – e preenchendo-os com um pouco de contexto extra para manter um comprimento consistente – eles criaram cenários onde a IA tinha menos peças de material para considerar, mas ainda aproximadamente o mesmo total de palavras para ler.
Os resultados foram impressionantes. Na maioria dos casos, os modelos de IA responderam com mais precisão quando receberam menos documentos em vez do conjunto completo. O desempenho melhorou significativamente – em alguns casos em até 10% na precisão (pontuação F1) quando o sistema usou apenas um punhado de documentos de suporte em vez de uma grande coleção. Esse aumento contraintuitivo foi observado em vários modelos de linguagem de código aberto diferentes, incluindo variantes do Llama da Meta e outros, indicando que o fenômeno não está vinculado a um único modelo de IA.
Um modelo (Qwen-2) foi uma exceção notável que lidou com vários documentos sem queda na pontuação, mas quase todos os modelos testados tiveram melhor desempenho com menos documentos no geral. Em outras palavras, adicionar mais material de referência além das principais peças relevantes na verdade prejudicou seu desempenho com mais frequência do que ajudou.

Fonte: Levy et al.
Por que isso é uma surpresa? Normalmente, os sistemas RAG são projetados sob a suposição de que recuperar uma faixa mais ampla de informações só pode ajudar a IA – afinal, se a resposta não estiver nos primeiros documentos, pode estar no décimo ou vigésimo.
Este estudo inverte esse roteiro, demonstrando que acumular documentos extras indiscriminadamente pode sair pela culatra. Mesmo quando o comprimento total do texto foi mantido constante, a mera presença de muitos documentos diferentes (cada um com seu próprio contexto e peculiaridades) tornou a tarefa de responder a perguntas mais desafiadora para a IA. Parece que, além de um certo ponto, cada documento adicional introduziu mais ruído do que sinal, confundindo o modelo e prejudicando sua capacidade de extrair a resposta correta.
Por que menos pode ser mais em RAG
Esse resultado de “menos é mais” faz sentido quando consideramos como os modelos de linguagem de IA processam informações. Quando uma IA recebe apenas os documentos mais relevantes, o contexto que ela vê é focado e livre de distrações, muito parecido com um aluno que recebeu apenas as páginas certas para estudar.
No estudo, os modelos tiveram um desempenho significativamente melhor quando receberam apenas os documentos de suporte, com material irrelevante removido. O contexto restante não era apenas mais curto, mas também mais limpo – continha fatos que apontavam diretamente para a resposta e nada mais. Com menos documentos para manipular, o modelo pôde dedicar toda a sua atenção às informações pertinentes, tornando-o menos propenso a se desviar ou se confundir.
Por outro lado, quando muitos documentos eram recuperados, a IA tinha que peneirar uma mistura de conteúdo relevante e irrelevante. Frequentemente, esses documentos extras eram "semelhantes, mas não relacionados" — eles podiam compartilhar um tópico ou palavras-chave com a consulta, mas não continham a resposta. Esse conteúdo pode enganar o modelo. A IA pode desperdiçar esforços tentando conectar pontos em documentos que não levam a uma resposta correta ou, pior, pode mesclar informações de várias fontes incorretamente. Isso aumenta o risco de alucinações — casos em que a IA gera uma resposta que parece plausível, mas não é baseada em nenhuma fonte única.
Em essência, alimentar o modelo com muitos documentos pode diluir as informações úteis e introduzir detalhes conflitantes, dificultando para a IA decidir o que é verdade.
Curiosamente, os pesquisadores descobriram que se os documentos extras fossem obviamente irrelevantes (por exemplo, texto aleatório não relacionado), os modelos eram melhores em ignorá-los. O problema real vem de dados que distraem e parecem relevantes: quando todos os textos recuperados são sobre tópicos semelhantes, a IA assume que deve usar todos eles, e pode ter dificuldade para dizer quais detalhes são realmente importantes. Isso se alinha com a observação do estudo de que distrações aleatórias causaram menos confusão do que distrações realistas na entrada. A IA pode filtrar absurdos flagrantes, mas informações sutilmente fora do tópico são uma armadilha habilidosa – elas se infiltram sob o disfarce de relevância e descarrilam a resposta. Ao reduzir o número de documentos apenas para os realmente necessários, evitamos armar essas armadilhas em primeiro lugar.
Há também um benefício prático: recuperar e processar menos documentos reduz a sobrecarga computacional para um sistema RAG. Cada documento que é puxado tem que ser analisado (incorporado, lido e atendido pelo modelo), o que usa tempo e recursos de computação. Eliminar documentos supérfluos torna o sistema mais eficiente – ele pode encontrar respostas mais rápido e com menor custo. Em cenários onde a precisão melhorou ao focar em menos fontes, obtemos um ganha-ganha: melhores respostas e um processo mais enxuto e eficiente.

Fonte: Levy et al.
Repensando o RAG: Direções futuras
Esta nova evidência de que a qualidade frequentemente supera a quantidade na recuperação tem implicações importantes para o futuro dos sistemas de IA que dependem de conhecimento externo. Ela sugere que os designers de sistemas RAG devem priorizar a filtragem inteligente e a classificação de documentos em vez do volume absoluto. Em vez de buscar 100 passagens possíveis e esperar que a resposta esteja enterrada em algum lugar, pode ser mais sensato buscar apenas as poucas altamente relevantes.
Os autores do estudo enfatizam a necessidade de métodos de recuperação para “atingir um equilíbrio entre relevância e diversidade” nas informações que eles fornecem a um modelo. Em outras palavras, queremos fornecer cobertura suficiente do tópico para responder à pergunta, mas não tanto que os fatos principais sejam afogados em um mar de texto estranho.
Seguindo em frente, os pesquisadores provavelmente explorarão técnicas que ajudem os modelos de IA a lidar com vários documentos de forma mais elegante. Uma abordagem é desenvolver melhores sistemas de recuperação ou reclassificadores que possam identificar quais documentos realmente agregam valor e quais apenas introduzem conflito. Outro ângulo é melhorar os próprios modelos de linguagem: se um modelo (como o Qwen-2) conseguiu lidar com muitos documentos sem perder a precisão, examinar como ele foi treinado ou estruturado pode oferecer pistas para tornar outros modelos mais robustos. Talvez os futuros modelos de linguagem grande incorporem mecanismos para reconhecer quando duas fontes estão dizendo a mesma coisa (ou se contradizendo) e focar de acordo. O objetivo seria permitir que os modelos utilizem uma rica variedade de fontes sem cair na confusão - obtendo efetivamente o melhor dos dois mundos (amplitude de informações e clareza de foco).
Também vale a pena notar que, como Os sistemas de IA ganham janelas de contexto maiores (a capacidade de ler mais texto de uma vez), simplesmente despejar mais dados no prompt não é uma solução mágica. Um contexto maior não significa automaticamente melhor compreensão. Este estudo mostra que, mesmo que uma IA possa tecnicamente ler 50 páginas por vez, dar a ela 50 páginas de informações de qualidade mista pode não gerar um bom resultado. O modelo ainda se beneficia de ter conteúdo relevante e selecionado para trabalhar, em vez de um despejo indiscriminado. Na verdade, a recuperação inteligente pode se tornar ainda mais crucial na era das janelas de contexto gigantes – para garantir que a capacidade extra seja usada para conhecimento valioso em vez de ruído.
As descobertas de “Mais documentos, mesmo tamanho” (o artigo apropriadamente intitulado) incentiva um reexame de nossas suposições na pesquisa de IA. Às vezes, alimentar uma IA com todos os dados que temos não é tão eficaz quanto pensamos. Ao focar nas informações mais relevantes, não apenas melhoramos a precisão das respostas geradas pela IA, mas também tornamos os sistemas mais eficientes e fáceis de confiar. É uma lição contraintuitiva, mas com ramificações emocionantes: os futuros sistemas RAG podem ser mais inteligentes e enxutos ao escolher cuidadosamente menos documentos melhores para recuperar.