El ángulo de Anderson
Heurística vs. RAG: La contracción de la inflación como impulsor de políticas

En la mayoría de los casos, buscar en la web mejora la precisión de las respuestas de ChatGPT a nuestras preguntas. Entonces, en un contexto donde la IA lucha por ganar aceptación pública, ¿por qué recurre a las suposiciones?
Opinión Es un error creer que los LLM como ChatGPT alguna vez se dedican a denunciar prácticas potencialmente turbias de sus anfitriones, incluso si una sesión costosa y desperdiciada ha despertado su ira lo suficiente como para realmente profundizar en las deficiencias de un sistema:

Aquí, una discusión sobre la preferencia de ChatGPT por su propia lógica interna (en comparación con la investigación y verificación basada en la web a través de RAG, que produce menos alucinaciones, pero cuesta más) induce un aparente momento de franqueza; pero tómelo con pinzas. Fuente
En su mayoría, especialmente para modelos con versiones posteriores fechas límite de conocimiento La IA simplemente improvisa con publicaciones de Reddit y foros vistas durante el entrenamiento. Incluso si tales «información privilegiada» tuvieran algún valor real, es imposible demostrarlo.
Sin embargo, a veces estos intercambios acalorados conducen al descubrimiento de 'trucos' (o al menos, 'trucos') que prometen prevenir algunos de los peores hábitos repetitivos en un LLM, como cuando, la semana pasada, ChatGPT sugirió que podía lograr que trabajara más duro y alucinar menos incluyendo la adjuración 'sin heurística':

He usado 'sin heurística' Mucho desde entonces, y ni una sola vez el modelo ha recurrido a su propio conocimiento entrenado después de cerrar una consulta con este comando. En cambio, GPT usa inmediatamente Recuperación Generación Aumentada (RAG), buscando en Internet documentos esclarecedores o corroborantes.
En la práctica, para la mayoría de las solicitudes, esto es prácticamente lo mismo que indicarle al sistema que "busque en la web" cada vez que se envía una consulta. Donde la frase "sin heurística"... realmente puede ayudar cuando se intenta que ChatGPT lea realmente un nuevo PDF cargado en lugar de usar los metadatos de cargas de PDF anteriores en esa sesión (o muchas otras fuentes posibles), para producir una respuesta "plausible" pero totalmente alucinada, sin haber leído o incluso hojeado el documento que acaba de presentar.

Dicho esto, cuanto más larga sea la sesión de chat, más menos probable que esto funcionará, y sería un error pensar que cualquier "truco" de este tipo es confiable o seguirá estando disponible a medida que el sistema evolucione.
El comercio de RAG
En el contexto de un cultura en crecimiento of contracción, y el hecho de que los grandes sistemas como la infraestructura GPT de OpenAI se ven enormemente afectados incluso por los cambios más pequeños y generalizados en el comportamiento, también es fácil creer que uno está obteniendo poco peso de las decisiones tomadas por LLM populares como ChatGPT.
Opciones como si se extenderá a la web con RAG; iniciar una Cadena de pensamiento (CoT) proceso que podría obtener un mejor resultado, pero que costará más inferir y puede cansar al usuario impaciente; o recurrir a sus propias incrustaciones entrenadas y al conocimiento disponible localmente, que es la solución más barata y rápida posible.
Existen varias razones prácticas por las que un LLM con un perfil público sensible, como ChatGPT, podría preferir limitar sus llamadas RAG, en lugar de favorecer su propia heurística. En primer lugar, desde una perspectiva de relaciones públicas, el uso frecuente e imprevisto de la web respalda la caracterización popular de los LLM como meros Googlers por poder, disminuyendo el valor de su conocimiento innato y adquirido a un alto costo, y el atractivo de una suscripción paga.
En segundo lugar, la infraestructura de RAG Cuesta dinero hacerlo funcionar, mantener y actualizar, en comparación con el costo relativamente trivial de la inferencia local, es decir, la generación paramétrica, que es barata y rápida.
En tercer lugar, es posible que el sistema no cuente con un método eficaz para determinar si RAG podría mejorar sus propios resultados heurísticos, y a menudo no puede determinarlo sin ejecutar heurísticas previamente. Esto deja al usuario final con la tarea de evaluar un resultado heurístico erróneo y solicitar una llamada a RAG en caso de que el resultado de la heurística parezca insuficiente.
Desde el punto de vista de la "reducción de la inflación de la IA", la cantidad de veces que ChatGPT se equivoca en las heurísticas y tiene éxito en las RAG puede indicar, como me pasó recientemente, que el sistema está optimizando los costos en lugar de los resultados.
RAG se hace necesario con el tiempo
A pesar de la reciente confesión de ChatGPT de que esto es así, la "shrinkflation" tiene un contexto más amplio en este sentido. Si bien RAG no es barato, ni en términos de fricción de la experiencia (debido a la latencia) ni de coste de ejecución, es mucho más económico que cualquiera de los dos métodos habituales. sintonia FINA o incluso reentrenar el modelo fundacional.
Para un modelo de IA más antiguo con una fecha de corte más distante, RAG puede mantener la vigencia del sistema, a costa de llamadas de red y otros recursos; para un modelo más nuevo, es más probable que las propias recuperaciones de RAG sean redundantes o Incluso perjudicial para la calidad de los resultados, lo que en algunos casos hubiera sido mejor mediante heurística.
Por lo tanto, la IA parecería necesitar la capacidad no sólo de decidir si debe recurrir a RAG, sino también evolucionar continuamente su política El uso de RAG como peso interno se vuelve cada vez más obsoleto.
Al mismo tiempo, el sistema necesita proteger las "constantes relativas" del conocimiento, como las órbitas lunares y la literatura, la cultura y la historia clásicas, así como la geografía básica, la física y otros principios científicos que probablemente no evolucionen mucho con el tiempo (es decir, el riesgo de un "cambio repentino" no es inexistente, pero es bajo).
Temas atípicos
Por el momento, al menos en lo que respecta a ChatGPT, las llamadas RAG (es decir, el uso de la investigación web para cualquier consulta de usuario que no exija explícita o implícitamente una investigación web) parecen rara vez se elige de forma autónoma por el sistema, incluso cuando se trata de subdominios "marginales".
Un ejemplo de dominio marginal es el uso de software "oscuro". En tal caso, los datos fuente mínimos disponibles habrán tenido dificultades para captar la atención durante el entrenamiento, y los datos... estatus de 'valor atípico' Es posible que lo hayan marcado para llamar la atención o lo hayan enterrado como "marginal" o "inconsecuente"; e incluso se hizo una publicación adicional en el foro. después El límite de conocimiento de la IA podría representar un aumento sustancial en el total de datos disponibles y la calidad de la respuesta para un tema "pequeño", lo que hace que valga la pena realizar una convocatoria RAG.
Sin embargo, la ventaja de RAG tiende a encogerse A medida que el modelo base se vuelve más potente, los modelos más pequeños se benefician significativamente de la recuperación, mientras que los sistemas más grandes, como Qwen3-4B o GPT-4o-mini/-4o, suelen mostrar una mejora marginal o incluso negativa con respecto a RAG*.
En muchos puntos de referencia, la recuperación introduce más distracción que beneficio, lo que sugiere una compensación entre invertir en un modelo más grande con mayor cobertura interna o un modelo más pequeño combinado con recuperación.
Por lo tanto, el RAG parece más útil para compensar las brechas. en medio-modelos de tamaño, que todavía necesitan hechos externos, pero pueden evaluarlos con heurísticas internas menos complejas.
Usar sólo en caso de emergencia
Las políticas rectoras de ChatGPT en torno a la decisión de utilizar RAG no están expuestas abiertamente por su supuesta aviso del sistema**, pero se abordan implícitamente (hacia el final):
Utilice la herramienta web para acceder a información actualizada de la web o cuando el usuario solicite información sobre su ubicación. Algunos ejemplos de cuándo usar la herramienta web incluyen:
Información local: utilice la herramienta web para responder preguntas que requieran información sobre la ubicación del usuario, como el clima, negocios locales o eventos.
Frescura: si la información actualizada sobre un tema pudiera potencialmente cambiar o mejorar la respuesta, llame a la herramienta web en cualquier momento en que de otra manera se negaría a responder una pregunta porque su conocimiento podría estar desactualizado.
Información de nicho: si la respuesta se beneficiaría de información detallada que no es ampliamente conocida o entendida (que podría encontrarse en Internet), como detalles sobre un vecindario pequeño, una empresa menos conocida o regulaciones arcanas, utilice fuentes web directamente en lugar de confiar en el conocimiento destilado de la capacitación previa.
Precisión: si el costo de un pequeño error o de una información desactualizada es alto (por ejemplo, utilizar una versión desactualizada de una biblioteca de software o no saber la fecha del próximo juego de un equipo deportivo), entonces utilice la herramienta web.
En particular, podemos observar que estas direcciones promueven RAG en casos donde los datos entrenados de forma nativa son escasos. Pero ¿cómo llega el sistema a esta conclusión? El usuario ocasional y observador de ChatGPT podría concluir que, en aquellas ocasiones en que se muestra el widget "Buscando en la web", después de una pausaSe acaban de sondear las heurísticas internas del modelo para la consulta y no arrojaron resultados.
También podemos observar que, por implicación, RAG se recomienda solo para un número muy limitado de casos de uso. Esto deja a GPT recomendado para sondear sus propios pesos, excepto en una contingencia crítica.'Exactitud', al final de la cita anterior), por la gran cantidad de basado en hechos consultas de dominio donde la tendencia nativa de la IA a alucinar podría ser una responsabilidad notable.
Conclusión
Las tendencias de las investigaciones actuales y recientes indican que la generación heurística es rápida y barata, pero a menudo errónea, mientras que la RAG es más lenta, más cara, pero a menudo correcta, tanto más cuanto menor es el tamaño del modelo.
Basándome en mi propio uso de ChatGPT, diría que OpenAI utiliza RAG con demasiada moderación, como una herramienta de precisión en lugar de un uso diario, en particular desde Problemas con el crecimiento de las ventanas de contexto hacen que los LLM tengan más probabilidades que nunca de alucinar a medida que se desarrollan conversaciones largas.
Esta circunstancia podría aliviarse notablemente al comparar las respuestas heurísticas con fuentes de autoridad basadas en la web. sin esperando que el usuario final dude del resultado o se sienta confundido por él, y sin que los resultados internos tengan que ser tan manifiestamente insatisfactorios que la decisión de usar RAG sea inevitable.
Más bien, el sistema podría ser entrenado para selectivamente y dudar inteligentemente de sí mismo según los casos, y por lo tanto interactuar con la web mediante un proceso de selección que sería, en sí mismo, heurístico. No tengo conocimiento de que las arquitecturas de los modelos actuales permitan un enfoque de este tipo, que, en cambio, tendría que sumarse a la fricción de los filtros API.
Tal como están las cosas, ni siquiera puedo demostrar que hay un problema; ni siquiera con una confesión.†:

* Consulte el enlace en la parte superior de este párrafo.
** Este es un mensaje del sistema GPT-5 "autoexpuesto" que, nuevamente, puede ser simplemente un resumen de las publicaciones del foro de mensajes reentrenados para GPT-5, aunque algunos sostienen que el mensaje es genuino.
† Realmente no estoy sugiriendo que la "franqueza culpable" de ChatGPT tenga sentido aquí; mi tendencia a contradecir su línea de partido en materia de políticas de OpenAI significa que, de todos modos, acabará "de acuerdo" conmigo y repetirá mis propias opiniones implícitas. Esto no es ni de lejos equivalente a revelar los detalles del desembarco de Normandía bajo presión.
Primera publicación: miércoles 10 de diciembre de 2025












