Ângulo de Anderson

Heurísticas vs. RAG: Shrinkflation como um Motor de Política

Published December 10, 2025

Updated April 25, 2026

Martin Anderson

A tiny robot tries to type on a full-size laptop by using a pencil. Z-Image V1.

Na maioria dos casos, procurar a web melhora a precisão factual das respostas do ChatGPT às nossas perguntas. Então, em um clima em que a IA está lutando para obter aceitação pública, por que ela está recorrendo a ‘suposições’?

Opinião É um erro acreditar que LLMs, como o ChatGPT, se envolvem em denúncias sobre as práticas potencialmente sombrias de seus anfitriões, mesmo que uma sessão cara e desperdiçada tenha levantado sua ira o suficiente para realmente mergulhar nas deficiências do sistema:

Aqui, uma discussão sobre a preferência do ChatGPT por sua própria lógica interna (vs pesquisa e verificação baseada na web por meio do RAG – que produz menos alucinações, mas custa mais) induz um momento aparente de candor; mas tome com um grão de sal. Fonte

Na maioria das vezes – especialmente para modelos com datas de corte de conhecimento mais recentes – a IA está apenas improvisando com base em posts do Reddit e fóruns vistos durante o treinamento. Mesmo que houvesse algum valor real nessas ‘percepções internas’, é impossível provar.

No entanto, às vezes essas discussões acaloradas levam à descoberta de ‘hacks’ (ou pelo menos, ‘truques’) que prometem prevenir alguns dos piores hábitos repetitivos em um LLM – como quando, na semana passada, o ChatGPT sugeriu que eu poderia fazê-lo trabalhar mais e alucinar menos incluindo a adjuração ‘sem heurísticas’:

ChatGPT

Eu tenho usado ‘sem heurísticas’ muito desde então, e nem uma vez o modelo recorreu ao seu próprio conhecimento treinado após eu fechar uma consulta com esse comando. Em vez disso, o GPT usa imediatamente a Geração Aumentada por Recuperação (RAG), procurando na internet por documentos esclarecedores ou corroborantes.

Na prática, para a maioria das solicitações, isso é pouco diferente de dizer ao sistema para ‘procurar na web’ todas as vezes que você submeter uma consulta. Onde a frase ‘sem heurísticas’ realmente pode ajudar é quando se tenta fazer com que o ChatGPT realmente leia um novo PDF carregado em vez de usar os metadados de uploads de PDF anteriores nessa sessão (ou muitas outras fontes possíveis), para produzir uma resposta ‘plausível’ mas completamente alucinada, sem ter lido ou sequer folheado o documento que você acabou de apresentar.

ChatGPT

Isso posto, quanto mais longa a sessão de bate-papo estiver, menos provável que isso funcione – e seria um erro pensar que algum ‘truque’ é confiável ou permanecerá disponível à medida que o sistema evolui.

O Comércio de RAG

No contexto de uma cultura crescente de shrinkflation, e o fato de que grandes sistemas, como a infraestrutura GPT da OpenAI, são enormemente afetados mesmo pelas menores mudanças generalizadas de comportamento, também é fácil acreditar que se está sendo lesado pelas escolhas feitas por LLMs populares, como o ChatGPT.

Escolhas como se ele irá recorrer à web com RAG; iniciar um Processo de Corrente de Pensamento (CoT) que pode obter um resultado melhor, mas que custará mais para inferir e pode cansar o usuário impaciente; ou recorrer a seus próprios embeddings treinados e conhecimento localmente disponível – que é a solução mais barata e rápida possível.

Existem várias razões práticas pelas quais um LLM com um perfil público sensível, como o ChatGPT, pode preferir limitar suas chamadas de RAG, favorecendo suas próprias heurísticas. Primeiramente, do ponto de vista de relações públicas, o uso frequente e não solicitado da web apoia uma caracterização popular de LLMs como meros Googlers por procuração, diminuindo o valor de seu conhecimento inato e caro treinado – e o apelo de uma assinatura paga.

Em segundo lugar, a infraestrutura de RAG custa dinheiro para executar, manter e atualizar, em comparação com o custo relativamente trivial de inferência local, ou seja, geração paramétrica, que é barata e rápida.

Em terceiro lugar, o sistema pode não ter um método eficaz para determinar se o RAG pode melhorar os resultados heurísticos – e muitas vezes não pode determinar isso sem executar as heurísticas primeiro. Isso deixa o usuário final com a tarefa de avaliar um resultado heurístico defeituoso e solicitar uma chamada de RAG no caso de o resultado das heurísticas parecer ter falhado.

Do ponto de vista da ‘shrinkflation de IA’, o número de vezes que o ChatGPT erra por meio de heurísticas e tem sucesso por meio do RAG pode indicar, como recentemente me indicou, que o sistema está otimizando para custo em vez de resultados.

RAG se Torna Necessário com o Tempo

Apesar da ‘confissão’ recente do ChatGPT para mim de que este é de fato o caso, a ‘shrinkflation’ tem um contexto mais amplo a este respeito. Embora o RAG não seja barato, seja em termos de fricção de experiência (por meio de latência) ou custo de execução, é muito mais barato do que refinar regularmente ou mesmo retreinar o modelo de base.

Para um modelo de IA mais antigo com uma data de corte de conhecimento mais distante, o RAG pode manter a atualidade do sistema, ao custo de chamadas de rede e outros recursos; para um modelo mais novo, as próprias recuperações do RAG são mais prováveis de serem redundantes ou até prejudiciais à qualidade dos resultados, que em alguns casos seriam melhores por meio de heurísticas.

Portanto, o sistema parece precisar não apenas da capacidade de julgar se deve recorrer ao RAG, mas de evoluir continuamente sua política sobre o uso do RAG à medida que seus pesos internos se tornam mais e mais desatualizados.

Ao mesmo tempo, o sistema precisa cercar ‘constantes relativas’ no conhecimento, como órbitas lunares e literatura clássica, cultura e história; bem como geografia básica, física e outros princípios científicos que não têm probabilidade de evoluir muito com o tempo (ou seja, o risco de ‘mudança súbita’ não é nulo, mas baixo).

Tópicos Fora do Padrão

No momento, pelo menos no que diz respeito ao ChatGPT, as chamadas de RAG (ou seja, o uso de pesquisa na web para qualquer consulta do usuário que não exija explicitamente ou implicitamente pesquisa na web) parecem ser raramente escolhidas autonomamente pelo sistema, mesmo quando lidando com ‘subdomínios marginais’.

Um exemplo de domínio marginal é o ‘uso obscuro’ de software. Nesse caso, os dados de fonte mínimamente disponíveis terão lutado para chamar atenção durante o treinamento, e o status de ‘outlier’ dos dados pode ter sido sinalizado para atenção ou enterrado como ‘marginal’ ou ‘inconsequente’ – e mesmo um post adicional de fórum feito após a data de corte de conhecimento da IA pode representar um aumento substancial nos dados disponíveis e na qualidade da resposta para um ‘pequeno’ tópico, tornando uma chamada de RAG valiosa.

No entanto, a vantagem do RAG tende a diminuir à medida que o modelo de base se torna mais poderoso. Embora os modelos menores se beneficiem significativamente da recuperação, os sistemas maiores, como Qwen3-4B ou GPT-4o-mini/-4o, mostram melhoria marginal ou até negativa com o RAG*.

Em muitos benchmarks, a recuperação introduz mais distração do que benefício, sugerindo uma compensação entre investir em um modelo maior com mais cobertura interna ou em um modelo menor emparelhado com recuperação.

Portanto, o RAG parece ser mais útil para compensar lacunas em modelos de tamanho médio, que ainda precisam de fatos externos, mas podem avaliá-los com heurísticas internas menos complexas.

Use Somente em Caso de Emergência

As políticas direcionadoras do ChatGPT em torno da decisão de usar o RAG não são expostas explicitamente por seu prompt do sistema**, mas são implicitamente abordadas (no final):

Use a ferramenta da web para acessar informações atualizadas da web ou quando responder ao usuário exigir informações sobre sua localização. Alguns exemplos de quando usar a ferramenta da web incluem:

Informações Locais: Use a ferramenta da web para responder a perguntas que exigem informações sobre a localização do usuário, como o clima, empresas locais ou eventos.

Atualidade: Se informações atualizadas sobre um tópico pudessem potencialmente mudar ou melhorar a resposta, chame a ferramenta da web a qualquer momento em que você recusaria responder a uma pergunta porque seu conhecimento pode estar desatualizado.

Informações de Nicho: Se a resposta se beneficiaria de informações detalhadas não amplamente conhecidas ou compreendidas (que podem ser encontradas na internet), como detalhes sobre um bairro pequeno, uma empresa menos conhecida ou regulamentações arcânicas, use fontes da web diretamente em vez de confiar no conhecimento destilado do pré-treinamento.

Precisão: Se o custo de um pequeno erro ou informações desatualizadas for alto (por exemplo, usar uma versão desatualizada de uma biblioteca de software ou não saber a data do próximo jogo de uma equipe esportiva), então use a ferramenta da web.’

Em particular, podemos notar essas direções promovendo o RAG em casos em que os dados nativamente treinados são escassos. Mas como o sistema chega a essa compreensão? O usuário casual e observador do ChatGPT pode concluir que, naquelas ocasiões em que o widget ‘procurar na web’ é exibido após uma pausa, as heurísticas internas do modelo foram apenas consultadas para a consulta e não encontraram nada.

Também podemos notar que, por implicação, o RAG é recomendado apenas para um número limitado de casos de uso. Isso deixa o GPT recomendado para consultar seus próprios pesos em todos, exceto em uma ‘contingência crítica’ (‘Precisão’, no final da citação acima), para a grande maioria de consultas baseadas em fatos em que a tendência natural da IA de alucinar poderia ser uma responsabilidade notável.

Conclusão

As tendências da pesquisa atual e recente indicam que a geração heurística é rápida e barata, mas errada com frequência; enquanto o RAG é mais lento, mais caro, mas muito mais frequentemente correto – quanto mais o tamanho do modelo diminui.

Com base no meu próprio uso do ChatGPT, eu argumentaria que a OpenAI está usando o RAG com muita parcimônia, como uma ferramenta de precisão em vez de um motor diário, especialmente desde que os problemas com janelas de contexto em crescimento fazem com que os LLMs sejam mais propensos a alucinar à medida que as conversas longas se desenvolvem.

Essa circunstância poderia ser notavelmente aliviada verificando as respostas heurísticas contra fontes de autoridade baseadas na web, sem esperar que o usuário final duvide da saída ou seja atrapalhado por ela, e sem que os resultados internos precisem ser tão manifestamente insatisfatórios que a decisão de usar o RAG seja inevitável.

Em vez disso, o sistema poderia ser treinado para selecionar e inteligentemente duvidar de si mesmo de acordo com os casos e, portanto, para engajar-se com a web por meio de um processo de triagem que seria, em si, heurístico. Eu não estou ciente de que as arquiteturas dos modelos atuais deixem espaço para uma abordagem desse tipo, que teria que ser adicionada à fricção dos filtros de API.

Como está, não posso sequer provar que há um problema; nem mesmo com uma confissão^†:

ChatGPT confessa

* Por favor, consulte o link no topo desse parágrafo.

** Este é um ‘prompt do sistema autoexposto’ do GPT-5, que pode ser simplesmente um resumo de posts de fórum de prompts retreinados para o GPT-5, embora alguns mantenham que o prompt é genuíno.

^† Eu realmente não estou sugerindo que a ‘candor culpada’ do ChatGPT seja significativa aqui; minha tendência de reagir contra sua linha de partido em questões de política da OpenAI significa que ele eventualmente ‘concordará’ comigo e repetirá minhas próprias opiniões implícitas de qualquer forma. Isso está longe de ser equivalente a revelar os detalhes do desembarque da Normandia sob pressão.

Publicado pela primeira vez na quarta-feira, 10 de dezembro de 2025