Взгляд Anderson

Евристика vs. RAG: Шринкфляция как драйвер политики

Опубликовано 10 декабря 2025

Обновлено 17 мая 2026

Martin Anderson

A tiny robot tries to type on a full-size laptop by using a pencil. Z-Image V1.

В большинстве случаев поиск в интернете улучшает фактическую точность ответов ChatGPT на наши вопросы. Итак, в климате, где ИИ борется за общественное признание, почему он переходит к «предположениям»?

Мнение Это ошибка полагать, что модели ИИ, такие как ChatGPT, когда-либо занимаются разоблачением потенциально сомнительных практик своих хозяев, даже если дорогостоящая и бесполезная сессия вызвала ваше раздражение достаточно, чтобы действительно углубиться в недостатки системы:

Здесь обсуждение предпочтения ChatGPT своей внутренней логике (по сравнению с веб-исследованиями и верификацией через RAG – которая производит меньше галлюцинаций, но стоит больше) вызывает видимый момент откровенности; но воспринимайте это с долей скептицизма. Источник

В основном – особенно для моделей с более поздними датаами отсечения знаний – ИИ просто импровизирует на основе постов в Reddit и на форумах, увиденных во время обучения. Даже если бы были какие-либо реальные преимущества от таких «внутренних прозрений», невозможно доказать их существование.

Однако иногда эти жаркие обмены приводят к открытию «хаков» (или, по крайней мере, «трюков»), которые обещают предотвратить некоторые из худших повторяющихся привычек ИИ – такие как когда, на прошлой неделе, ChatGPT предложил, что я могу заставить его работать усерднее и меньше галлюцинировать, включив приказ ‘без эвристики’:

ChatGPT

Я использовал ‘без эвристики’ много с тех пор, и ни разу модель не прибегала к своей обученной знаниям после того, как я закрыл запрос с этой командой. Скорее, GPT сразу же использует Retrieval Augmented Generation (RAG), ищет в интернете документы, которые проливают свет или подтверждают информацию.

На практике для большинства запросов это мало отличается от того, чтобы сказать системе «поискать в интернете» каждый раз, когда вы отправляете запрос. Где фраза ‘без эвристики’ реально может помочь, это когда вы пытаетесь заставить ChatGPT прочитать новый загруженный PDF вместо использования метаданных из предыдущих загрузок PDF в этой сессии (или многих других возможных источников), чтобы произвести «правдоподобный», но полностью галлюцинированный ответ, не прочитав или даже не просмотрев документ, который вы только что представили.

ChatGPT

Это говорит о том, что чем дольше продолжается сессия чата, тем менее вероятно, что это сработает – и было бы ошибкой думать, что какой-либо «трюк» является надежным или будет доступен по мере эволюции системы.

Торговля RAG

В контексте растущей культуры шринкфляции и того факта, что крупные системы, такие как инфраструктура GPT от OpenAI, сильно зависят даже от незначительных повсеместных изменений в поведении, легко поверить, что вы получаете короткий вес от выборов, сделанных популярными ИИ, такими как ChatGPT.

Выборы, такие как будет ли он обращаться к веб-ресурсам с помощью RAG; начнет ли процесс Chain-of-Thought (CoT), который может получить лучший результат, но который будет стоить больше для вывода и может утомить нетерпеливого пользователя; или прибегнет ли он к своей собственной обученной эмбеддингу и локально-доступной знаниям – что является самым дешевым и быстрым решением.

Существует несколько практических причин, почему ИИ с чувствительной публичной репутацией, такой как ChatGPT, может предпочитать ограничивать свои вызовы RAG, отдавая предпочтение своей собственной эвристике. Во-первых, с точки зрения PR, частое неинициированное использование веб-ресурсов поддерживает популярную характеристику ИИ как простых поисковиков-посредников, уменьшая ценность их врожденных и дорого обученных знаний – и привлекательность платной подписки.

Во-вторых, инфраструктура RAG стоит денег на запуск, обслуживание и обновление по сравнению с относительно незначительной стоимостью локального вывода, т.е. параметрической генерации, которая является дешевой и быстрой.

В-третьих, система может не иметь эффективного метода определения того, может ли RAG улучшить результаты своей собственной эвристики – и часто не может определить это без предварительного запуска эвристики. Это оставляет конечного пользователя с задачей оценки ошибочного результата эвристики и запроса вызова RAG в случае, если результат от эвристики показался недостаточным.

С точки зрения «шринкфляции ИИ», количество раз, когда ChatGPT ошибается с помощью эвристики и преуспевает с помощью RAG, может указывать, как это недавно показало мне, что система оптимизируется для стоимости, а не для результатов.

RAG становится необходимым со временем

Несмотря на недавнее «признание» ChatGPT мне, что это действительно так, «шринкфляция» имеет более широкий контекст в этом отношении. Хотя RAG не дешев, ни в плане трения опыта (через задержку), ни в плане стоимости, он намного дешевле, чем регулярное тонкая настройка или даже повторное обучение базовой модели.

Для более старой модели ИИ с более отдаленной датой отсечения знаний RAG может поддерживать актуальность системы, за счет вызовов сети и других ресурсов; для более новой модели вызовы RAG сами по себе более вероятно будут избыточными или даже вредными для качества результатов, которые в некоторых случаях были бы лучше с помощью эвристики.

Следовательно, ИИ, кажется, нуждается не только в способности решать, должен ли он прибегнуть к RAG, но и в постоянной эволюции своей политики по использованию RAG по мере того, как его внутренние веса становятся все более и более устаревшими.

В то же время система нуждается в том, чтобы ограничить «относительные константы» в знаниях, такие как лунные орбиты, классическая литература, культура и история; а также базовую географию, физику и другие научные принципы, которые вряд ли сильно изменятся со временем (т.е. риск «внезапных изменений» не является нулевым, но низким).

Отклоняющиеся темы

На данный момент, по крайней мере, что касается ChatGPT, вызовы RAG (т.е. использование веб-исследований для любого запроса пользователя, который не явно или неявно требует веб-исследований) редко выбираются автономно системой, даже при работе с «маргинальными» поддоменами.

Одним из таких примеров маргинальной области является «необычное» использование программного обеспечения. В таком случае минимально доступные источники данных будут бороться за внимание во время обучения, и статус ‘отклонения’ может либо привлечь внимание, либо похоронить его как «маргинальный» или «несущественный» – и даже один дополнительный пост на форуме, сделанный после даты отсечения знаний ИИ, мог бы представлять собой существенное увеличение общего количества доступных данных и качества ответа для «малой» темы, что делает вызов RAG целесообразным.

Однако преимущество RAG уменьшается по мере роста базовой модели. Хотя более мелкие модели значительно выигрывают от извлечения, более крупные системы, такие как Qwen3-4B или GPT-4o-mini/-4o, часто показывают незначительные или даже отрицательные улучшения от RAG*.

На многих бенчмарках извлечение вводит больше отвлечений, чем пользы, что указывает на компромисс между инвестициями в более крупную модель с большим внутренним покрытием или в более мелкую модель, объединенную с извлечением.

Следовательно, RAG, кажется, наиболее полезен для компенсации пробелов в среднихмоделях, которые все еще нуждаются во внешних фактах, но могут оценить их с помощью менее сложных внутренних эвристик.

Используйте только в случае чрезвычайной ситуации

Руководящие политики ChatGPT по решению о использовании RAG не явно раскрыты его предполагаемым системным提示ом**, но неявно рассматриваются (в конце):

‘Используйте веб-инструмент для доступа к актуальной информации из веба или когда ответ на запрос пользователя требует информации о его местоположении. Примеры случаев, когда следует использовать веб-инструмент, включают:

Местная информация: Используйте веб-инструмент для ответа на вопросы, которые требуют информации о местоположении пользователя, такой как погода, местные предприятия или события.

Свежесть: Если актуальная информация по теме может потенциально изменить или улучшить ответ, вызовите веб-инструмент в любое время, когда вы бы в противном случае отказались ответить на вопрос, потому что ваши знания могут быть устаревшими.

Ниша-информация: Если ответ будет выигрывать от подробной информации, не широко известной или понимаемой (которая может быть найдена в интернете), такой как подробности о небольшом районе, менее известной компании или арканских правилах, используйте веб-источники напрямую, а не полагайтесь на дистиллированные знания из предварительного обучения.

Точность: Если стоимость небольшой ошибки или устаревшей информации высока (например, использование устаревшей версии библиотеки программного обеспечения или незнание даты следующей игры для спортивной команды), то используйте веб-инструмент.’

В частности, мы можем заметить эти указания, которые продвигают RAG в случаях, когда родные обученные данные скудны. Но как система приходит к этому пониманию? Казалось бы, случайный пользователь и наблюдатель ChatGPT могли бы заключить, что в тех случаях, когда «поиск в интернете» отображается после паузы, внутренние эвристики модели были только что опрошены для запроса и не дали результатов.

Мы также можем заметить, что по暗示, RAG рекомендуется только для ограниченного числа случаев использования. Это оставляет GPT рекомендованным для опроса своих собственных весов во всех, кроме «критического» контингента (‘Точность’, в конце приведенной выше цитаты), для огромного количества фактических запросов домена, где родная тенденция ИИ к галлюцинациям могла бы быть заметной обязанностью.

Заключение

Тенденции текущих и недавних исследований указывают на то, что генерация эвристики быстра и дешева, но часто ошибочна; в то время как RAG медленнее, более дорогой, но гораздо чаще правильный – тем более, чем меньше размер модели.

На основе моего собственного использования ChatGPT я бы утверждал, что OpenAI использует RAG слишком скупо, как точный инструмент, а не как повседневный драйвер, особенно учитывая проблемы с растущими контекстными окнами, которые делают ИИ более склонным к галлюцинациям по мере развития длинных разговоров.

Эта обстановка могла бы быть значительно облегчена путем проверки ответов эвристики на соответствие веб-авторитетным источникам, без ожидания, пока конечный пользователь усомнится в выводе или споткнется о нем, и без необходимости, чтобы внутренние результаты были настолько явно неудовлетворительными, что решение использовать RAG становится неизбежным.

Скорее, система могла бы быть обучена селективно и разумно сомневаться в себе в зависимости от случаев и, следовательно, взаимодействовать с вебом через процесс скрининга, который сам по себе был бы эвристическим. Я не знаю, оставляют ли архитектуры текущих моделей место для подхода такого типа, который вместо этого должен быть добавлен к трению API-фильтров.

Как оно есть, я даже не могу доказать, что существует проблема; не даже с ^†:

ChatGPT признается

* Пожалуйста, обратитесь к ссылке в начале этого абзаца.

** Это «самообнаженный» системный提示 GPT-5, который, снова, может быть просто сводкой из постов форума, переобученных для GPT-5, хотя некоторые утверждают, что подсказка является подлинной.

^† Я действительно не предлагаю, что «виновная откровенность» ChatGPT значима здесь; моя тенденция сопротивляться его партийной линии в вопросах политики OpenAI означает, что он в конечном итоге «согласится» со мной и повторит мои собственные неявные мнения. Это далеко не эквивалентно тому, чтобы выпалить детали высадки в Нормандии под давлением.

Опубликовано впервые в среду, 10 декабря 2025 года