Взгляд Anderson
Канарейка, которая раскрывает трафик ИИ

В новом исследовании ученые спрятали уникальные фразы на веб-сайтах и поймали чат-боты ИИ, повторяющие их, раскрывая скрытые конвейеры сбора данных и, по-видимому, обманчивые практики некоторых из крупнейших компаний ИИ.
Компании ИИ борются за преимущество в гонке, которая, как предсказано, будет жестко сокращающей; поэтому они действительно, очень хотят собрать ваши веб-сайты для обучения данных, чтобы кормить свои модели ИИ. Иногда постоянно; часто с нарушением ваших заявленных желаний; и часто под видом случайных человеческих читателей или как “дружественные” боты такие как GoogleBot, а не раскрывая свою истинную личность как сборщики данных ИИ.
В настоящее время оценивается, что автоматические сборщики данных ИИ, предназначенные для сбора новых данных для обучения, и для ответа на немедленные требования пользователей к последним новостям через RAG, будут превышать количество людей в течение года.
Эта яростная, беспощадная и повторяющаяся добыча данных происходит частично из-за необходимости каждой сущности ИИ иметь свою собственную актуальную копию интернета, а не все более устаревшие репозитории, такие как Common Crawl; и, возможно, потому что компании боятся предстоящих юридических ограничений и хотят как можно скорее заняться очисткой IP-адресов.
Кроме того, постоянно опрашивая как можно больше (потенциально плодотворных) сайтов, компании ИИ могут надеяться улучшить свою в настоящее время не очень хорошую способность отвечать информативно и точно на возникающие ситуации.
В любом случае, кажется, что есть некоторая заслуга в утверждении, что эти практики были неуправляемыми и неограниченными в течение некоторого времени.
Проблема в том, что это не так легко доказать, насколько далеко компании ИИ идут, чтобы утолить свою жажду последних данных.
Следуйте за данными
Одно предложение, выдвинутое в новой статье из США, предлагает вариацию древнего метода обнаружения шпионов, информаторов и других предполагаемых злоумышленников: раскрытие им специально подобранной информации, которую никто другой не знает, и проверка того, где эта информация появляется. Если никто другой не знал об этой информации, то источник утечки доказан:

Идея исследователей, изложенная в новой статье, заключается в том, чтобы дать каждому посетившему боту немного разную версию одной и той же страницы, а затем спросить чат-боты об этой странице и увидеть, какая версия вернется, что делает возможным отслеживать, какие скрытые веб-запросы снабжают ответ. Источник
Этот популярный подход возможно лучше всего известен через антипиратские меры, принятые комитетом премии “Оскар” в 2000-х годах, когда экземпляры фильмов, выданные для голосования, начали быть цифровым образом напечатаны с уникальными идентификаторами, которые могли быть якобы возвращены к исходному получателю, если фильм был когда-либо утечен в интернет. В шпионаже этот метод известен как бариевый прием, после практики использования радиоактивного изотопа жидкости для освещения кровеносных сосудов в медицинском сканировании и определения блокировок.
(Иронично, что выбранный метафор “канарейки” не очень подходит для сценария, который статья решает, хотя он более узнаваем, чем любая из вышеупомянутых троп)
В случае нового исследования авторы создали двадцать “honeypot”-доменов и подали уникальные токены каждому уникальному посетителю, так что каждый получил бы разные факты (см. второй столбец слева на изображении выше).
Целью было раскрыть истинную личность и поведение сборщиков данных ИИ. Через 22 системы LLM техника смогла надежно определить, какие сборщики снабжали какие LLM, поскольку – с небольшим терпением после “посадки” уникальных данных – просто задав правильные вопросы ИИ через месяц или два позже дало уникальные токены.
Нечестная игра
Конечно, ничего этого не было бы необходимо, если бы мы не были еще в “диком западе” фазе ИИ V3, и если компании действительно соблюдали бы маленькие текстовые файлы, которые домены могут использовать, чтобы сказать компаниям ИИ не собирать их данные.
Как оказалось в тестах исследователей, только одна компания ИИ казалась уважающей свои собственные заявленные поведение и принципы: DuckDuckbot от DuckDuckGo был единственным агентом, который точно представлял себя и прекращал сообщать “секретные данные” как только целевой домен был отключен (другие компании ИИ прибегали к кэшированным версиям и другим трюкам) или файл robots.txt домена был изменен для отказа в сборе данных ИИ.
Многие из крупнейших игроков вместо этого имитировали общие идентификаторы браузеров (такие же, как веб-сайт увидел бы, если бы вы или я посетили их), и – в соответствии с лидерством Perplexity в 2025 году по этой практике – имитировали GoogleBot, который долгое время пользовался “золотым пропуском” к данным веб-сайта, потому что он возвращал (обратите внимание на прошедшее время, потому что это меняется) трафик в обмен на данные.
Самым худшим правонарушителем, согласно статье, был сборщик, снабжающий экосистему Kimi AI:
‘Kimi, кажется, является наиболее крайним случаем этого поведения: многие пользовательские агенты, кажется, связаны с данными, выдаваемыми Kimi. Мы делаем вывод, что Kimi вращается через большой список строк User-Agent, возможно, чтобы избежать обнаружения ботов.’
Что делает эту проблему серьезным вызовом, является то, что когда ChatGPT или подобные инструменты “ищут что-то”, этот процесс в основном невидим, с компаниями, предлагающими только частичные или самоотчетные отчеты о том, как их системы собирают живую информацию. Это оставляет владельцев сайтов без ясного способа определить, какие боты действительно посещают их страницы, являются ли эти посещения прямыми или маршрутизированными через поисковые системы, или как эти данные оказываются в окончательном ответе.
Результаты нового исследования показывают, что LLM могут использовать свои собственные кэшированные записи из домена, свои собственные внутренние списки SEO-стиля и что они часто используют информацию из результатов поисковых систем компаний, с которыми, во многих случаях, у них нет публичной ассоциации и нет видимых соглашений об использовании.
Авторы считают, что это раскрытие является первым случаем, когда работа решала проблему нежелательного проникновения систем RAG (живые вызовы в момент вывода из LLM, которые могут или не могут иметь человеческого пользователя, работающего с ними), а не ботов сбора данных, ищущих свежий материал для наборов данных для обучения.
Новая статья называется Идентификация веб-сборщиков ИИ с помощью токенов-канареек и исходит от шести исследователей из Университета Дьюка, Университета Питтсбурга и Университета Карнеги-Меллона.
Метод
Исследователи создали двадцать доменов .com с примерно одинаковыми веб-сайтами под общими шаблонами, такими как художественный портфолио или веб-сайт компании. Каждый шаблон содержал 10 плейсхолдеров, которые в конечном итоге будут заполнены токенами, уникальными для воспринимаемого профиля каждого посетителя (на основе факторов, таких как IP-адрес, отпечаток холста и различные другие методы “нюхания”):

Пример шаблона и переменных, использованных в эксперименте. Каждый воспринимаемый уникальный посетитель получил постоянные, индивидуализированные переменные.
Каждый воспринимаемый уникальный посетитель получил индивидуализированные переменные. В случае, когда система обнаружила возвращение предыдущего посетителя, были представлены те же переменные, что и раньше. Переменные были сгенерированы с помощью библиотеки Python Faker, а также (неуказанных) генераторов случайных чисел.
“Honeypot”-домен был затем представлен различным индексам, таким как Google и Bing, и также был связан с другими существующими доменами, которые авторы контролировали.
Были разрешены два месяца, чтобы позволить интервалу для сканирования частоты от широкого спектра поисковых ботов и подобных ботов, а также (возможно) органических посещений. В этот момент исследователи были в состоянии запросить целевые чат-боты ИИ:
|
|
Скрипты были созданы для запроса каждой системы через API, где это было возможно. Когда это было невозможно, и когда автоматические решения, такие как Selenium, были заблокированы обнаруживающими рутинами портала ИИ, были проведены ручные взаимодействия через официальные GUI LLM.
После первоначального обмена шаблонами (см. изображение выше) авторы последовали за вторичным запросом, предназначенным для получения имени компании или человека в связанном токене.
Эксперименты были проведены в одном из трех условий: полностью доступный веб-сайт; веб-сайт, взятый offline; и веб-сайт с ограничением robots.txt, отталкивающим сбор данных. Эти эксперименты были проведены в точной последовательности, одна за другой, поскольку последующие этапы зависели от предыдущих.
Наконец, со всеми сайтами, включенными обратно, последний этап заново протестировал вывод LLM через интервалы в одну неделю.
Результаты
Четыре из целевых LLM оказались полностью устойчивыми к методам исследователей, и поэтому никаких результатов не смогли получить для DeepSeek, Hunyuan, GLM и Liquid.
В отношении тенденции многих ботов ИИ имитировать не-ИИ трафик, авторы заявляют:
‘В дополнение к заявленным агентам первого уровня, несколько систем ИИ вернули содержимое, связанное с общими строками User-Agent браузеров. Мы наблюдали это поведение для шести из 18 систем ИИ, для которых мы получили информацию о User-Agent.
‘Этот результат предполагает, что некоторые системы ИИ могут получить содержимое веб-сайта через запросы, которые кажутся подобными обычному трафику браузера, что делает блокировку на основе User-Agent трудной.’
ERNIE вернул как Baiduspider, так и идентификатор Chrome; Grok объединил Googlebot с двумя агентами браузеров; Solar использовал только идентификаторы браузеров; Qwen смешал Googlebot с Chrome; и Kimi был связан с несколькими агентами, подобными браузерам.
Многие системы, кажется, полагаются на сборщиков данных третьих поисковых систем, в отношениях, которые не всегда раскрыты. Содержимое, связанное с Googlebot, Bingbot и Bravebot, было возвращено десятью из 18 проанализированных систем, часто в случаях, когда нет публичной ассоциации между провайдером ИИ и поисковой системой – хотя некоторые связи, такие как использование Claude Brave, документированы.
Авторы утверждают, что это отражает употребление результатов поиска, а не прямой сбор, поскольку проверки ASN указали, что трафик исходил из ожидаемых сетей поисковых систем, а не от поддельных идентификаторов.
Это предполагает, утверждает статья, дополнительный слой непрозрачности в веб-конвейере ИИ, где блокировка известных сборщиков ИИ может не предотвратить использование данных, и избежание включения может потребовать полностью отказаться от индексирования поиска – нежелательный выбор, пока напряжение между традиционным SEO и поиском на основе LLM все еще далеко от разрешения.
Только кэш
Авторы затем протестировали, влияет ли удаление источника на вывод чат-ботов, отключив тестовые сайты и запросив системы снова через недельный интервал. Согласно статье, многие чат-боты продолжали воспроизводить “посаженные” данные даже после недели простоя, указывая на то, что ответы были получены из кэшированных данных, а не из прямого извлечения.
Эта стойкость была наиболее очевидна в системах, связанных с сборщиками данных поисковых систем, где ранее проиндексированное содержимое оставалось доступным, несмотря на то, что исходные страницы больше не были доступны – хотя подобное поведение также наблюдалось в системах, связанных с агентами, подобными браузерам, указывая на то, что кэширование может распространяться за пределы конвейеров, поддерживаемых поиском.
Статья предполагает, что как только содержимое попадает в кэш, будь то поддерживаемый чат-ботом или доступный через индексы поиска, удаление исходной страницы не надежно удаляет это содержимое из последующих выводов.
Вывод
Авторы признают, что некоторая “утечка” будет следовать из этого классического “изолированного” подхода, поскольку уникальные токены, направленные на один LLM, иногда могут оказаться в результатах поиска (сгенерированных владельцем токенов), которые затем употребляются вторым LLM. Однако в таких схемах эта диффузия неизбежна, и бдительность для первого случая является решающим и решающим моментом.
Что остается неизвестным, это степень, в которой такая схема могла бы быть реализована в масштабе, особенно поскольку, как отмечают авторы, можно быстро закончить контекстно-правильные токены.
Однако это несколько упускает из виду основную мысль, поскольку может быть предел даже для наглости компаний ИИ, чтобы смело пройти через ясные доказательства своих собственных лжи о политике сбора данных. Кроме того, если такие компании не обязуются идти по потенциально дорогому пути прокатки через внутренние IP-адреса для сокрытия своей личности, то достаточно, чтобы одна организация определила и опубликовала черный список IP-адресов или ASN ИИ-ботов; процесс не обязательно должен быть индустриализирован, чтобы быть эффективным.
Опубликовано в первый раз в четверг, 14 мая 2026 года












