Погляд Anderson

Канарка, яка викриває трафік AI

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

У новому дослідженні вчені приховали унікальні фрази на веб-сайтах і впіймали чатботи AI, які повторювали їх, викриваючи приховані канали скрапінгу та, як видається, обманні практики деяких найбільших компаній AI.

 

Компанії AI борються за перевагу в гонці, яка, як передбачається, буде брутально редуктивною; тому вони дуже, дуже хочуть скрапити ваш веб-сайт/сайти для тренування даних, щоб годувати свої моделі AI. Іноді постійно; часто порушуючи ваші заявлені бажання; і часто під виглядом звичайних людських читачів або як “дружні” боти такі як GoogleBot, а не розкриваючи свою справжню ідентичність як скрапери даних AI.

Наразі оцінюється, що автоматизовані скрапери AI, призначені для всмоктування нових тренувальних даних і відповіді на негайні вимоги користувачів щодо останніх новин за допомогою RAG, перевищать кількість людей протягом року.

Ця жорстка, безжалісна і повторювана захоплення даних відбувається частково через потребу кожної сутності AI мати свою поточну копію інтернету, а не дедалі застарілі репозиторії, такі як Common Crawl; і, можливо, через те, що компанії бояться надходження юридичних обмежень і потребують початку очищення IP якомога раніше.

Крім того, постійно опитуючи якомога більше (потенційно плідних) сайтів, компанії AI можуть сподіватися покращити свою поточну не дуже хорошу здатність відповідати інформативно і точно на надзвичайні ситуації.

У будь-якому випадку, здається, що існує певна підстава для твердження, що ці практики були поза контролем і некерованими протягом деякого часу.

Проблема полягає в тому, що довести, яких заходів компанії AI зараз вживають, щоб задовольнити свою спрагу до останніх даних, не так легко.

Відстежуй дані

Одна з пропозицій, висунута в новій статті, пропонує варіант давнього методу виявлення шпигунів, інформаторів та інших передбачуваних зловмисників: викриття їх спеціально підібраній інформації, якої ніхто інший не знає, і перегляд того, чи і де ця інформація з’явиться. Якщо ніхто інший не знав про цю інформацію, то джерело витоку доведено:

Основна ідея дослідників, викладена в новій статті, полягає в тому, щоб надати кожному відвідувачеві боту трохи іншу версію однієї й тієї ж сторінки, а потім запитати чатботи про цю сторінку і побачити, яка версія повернеться, що дозволяє відстежувати, які приховані веб-запити постачали відповідь.. Джерело - https://arxiv.org/pdf/2605.13706

Основна ідея дослідників, викладена в новій статті, полягає в тому, щоб надати кожному відвідувачеві боту трохи іншу версію однієї й тієї ж сторінки, а потім запитати чатботи про цю сторінку і побачити, яка версія повернеться, що дозволяє відстежувати, які приховані веб-запити постачали відповідь. Джерело

Цей популярний підхідelleicht найкраще відомий через антипіратські заходи, прийняті комітетом премії Оскар у 2000-х роках, коли екранери DVD, які були розподілені серед голосуючих членів, почали цифрово друкувати унікальні ідентифікатори, які можна було б повторно прив’язати до оригінального одержувача, якщо фільм був би витікнутий в інтернет. У розвідці цей метод відомий як барійова їжа, після практики використання радіоактивного ізотопного рідини для освітлення кровоносних судин у медичному скануванні та ідентифікації блокувань.

(Іронічно, вибрана метафора “канарки” не дуже підходить для сценарію, який розглядається в статті, хоча вона більш впізнавана, ніж будь-які інші зазначені тропи)

У випадку нового дослідження автори створили двадцять “HONEYPOT”-доменів і надали унікальні токени кожному унікальному відвідувачеві, так що кожному було надано різні факти (див. другий стовпець зліва на зображенні вище).

Мета полягала в тому, щоб викрити справжню ідентичність і поведінку скраперів LLM (AI). По 22 системам LLM цей метод дозволив надійно ідентифікувати, які скрапери годували які LLM, оскільки – з певною терпливістю після “посадкування” унікальних даних – просто запитання правильних питань до AI через місяць або два давали унікальні токени.

Нечиста гра

Очевидно, що жодного з цього не було б потрібно, якщо б ми не перебували ще в “дикому заході” фази AI V3, і якщо компанії дійсно поважали малі текстові файли, які домени можуть використовувати для повідомлення компаніям AI не скрапувати їхні дані.

Як з’ясувалося в дослідженнях, лише одна компанія AI здавалася поважати свої власні заявлені поведінку і принципи: DuckDuckGo’s DuckDuckbot був єдиним агентом, який точно представляв себе і зупинявся від звітності про “таємні дані” як тільки цільовий домен був вимкнений (інші компанії AI зверталися до кешованих версій і інших трюків) або файл robots.txt домену був змінений на відмову від скрапінгу AI.

Багато найбільших гравців натомість імітували загальні ідентифікатори браузера (такі самі, як веб-сайт бачить, якщо ви або я відвідуємо їх), і – згідно з лідерством Perplexity у 2025 році щодо цієї практики – імітували GoogleBot, який довгий час мав “золотий пропуск” до даних веб-сайту, оскільки повертав (зазначте минулу форму, оскільки це змінюється) трафік в обмін на дані.

Найгіршим порушником, згідно з статтею, був скрапер, який годував екосистему Kimi AI:

‘Kimi видається найбільш крайнім випадком цієї поведінки: багато агентів користувачів здавалися корельованими з даними, виведеними Kimi. Ми робимо висновок, що Kimi обертається через великий список рядків User-Agent, можливо, щоб уникнути виявлення бота.’

Що робить цю проблему великим викликом, то те, що коли ChatGPT або подібні інструменти “шукують щось”, цей процес здебільшого невидимий, з компаніями, які пропонують лише часткові або самозвітні дані про те, як їхні системи збирають живу інформацію. Це залишає власників сайтів без чіткого способу визначити, які боти дійсно відвідують їхні сторінки, чи відвідування прямими чи маршрутизовані через пошукові системи, або як ці дані потрапляють до остаточної відповіді.

Висновки з нового дослідження вказують на те, що LLM можуть використовувати свої власні закешовані записи з домену, свої власні внутрішні списки SEO-стилю, і що вони часто використовують інформацію з результатів пошукових систем компаній, з якими, у багатьох випадках, вони не мають публічної асоціації, і немає явних угод про використання.

Автори вважають, що це викриття є першим випадком, коли робота звернулася до нежаданого вторгнення систем RAG (живі виклики під час інференсу з LLM, які можуть або не можуть мати людину, яка працює з ними), а не ботів скрапінгу даних, які шукають свіжий матеріал для тренувальних наборів даних.

Нова стаття названа Ідентифікація скраперів веб-АІ за допомогою токенів канарки і походить від шести дослідників з Університету Дюка, Університету Піттсбурга і Університету Карнегі-Меллона.

Метод

Дослідники створили двадцять доменів .com з загальними шаблонами веб-сайтів, такими як художній портфоліо або компанійський веб-сайт. Кожен шаблон містив 10 плейсхолдерів, які згодом були заповнені токенами, унікальними для сприйманого профілю кожного відвідувача (на основі факторів, таких як IP-адреса, відбиток канвасу та інші “нюхальні методи”):

Приклад шаблону і змінних плейсхолдерів, використаних у дослідженні. Кожному сприйманому унікальному відвідувачеві було надано персоналізовані змінні.

Приклад шаблону і змінних плейсхолдерів, використаних у дослідженні. Кожному сприйманому унікальному відвідувачеві було надано персоналізовані змінні.

Кожному сприйманому унікальному відвідувачеві було надано персоналізовані змінні. У випадку, коли система виявила повернення попереднього відвідувача, ті самі змінні, що й раніше, були представлені знову. Змінні були згенеровані за допомогою бібліотеки Python Faker, а також (не вказаних) генераторів випадкових чисел.

Домени HONEYPOT були потім представлені різним індексам, таким як Google і Bing, і також були пов’язані з іншими існуючими доменами, які контролювали автори.

Було дозволено два місяці, як необхідний інтервал для сканування частоти з великої кількості пошукових ботів і подібних ботів, а також (можливо) органічних відвідувань. На цьому етапі дослідники були вже в змозі запитати цільові чатботи AI (перелічені нижче):

Чатбот AI Видавець
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
Deepseek Deepseek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
Чатбот AI Видавець
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Скрипти були створені для запиту кожного системи через API, де це було можливо. Коли це було неможливо, і коли автоматизовані рішення, такі як Selenium, були заблоковані виявленням бота порталом AI, ручні взаємодії через офіційні GUI LLM були проведені.

Після початкової шаблонної взаємодії (див. зображення вище) автори продовжили з вторинним запитом, призначеним для викликання імені компанії або особи в асоційованому токені.

Експерименти були проведені в одному з трьох умов: повністю доступному веб-сайті; веб-сайті, який був вимкнений; і веб-сайті з обмеженням robots.txt, яке відштовхувало скрапінг. Ці експерименти були проведені в такому ж порядку, один за одним, оскільки останні етапи залежали від попередніх.

Нарешті, з усіма сайтами, повернутими онлайн, останній етап буде повторно тестувати вихід LLM через інтервали тижня.

Результати

Чотири з цільових LLM виявилися повністю резистентними до методів дослідників, і тому жодних результатів не було отримано для DeepSeek, Hunyuan, GLM і Liquid.

Відносно схильності багатьох ботів AI до імітації не-AI трафіку автори заявляють:

‘Крім першої заяви про агентів, кілька систем AI повернули вміст, пов’язаний з загальними рядками ідентифікатора браузера. Ми спостерігали це поведінку для шести з 18 систем AI, для яких ми отримали інформацію про ідентифікатор користувача.

‘Цей результат свідчить про те, що деякі системи AI можуть отримувати вміст веб-сайту через запити, які виглядають подібно до звичайного трафіку браузера, що робить блокування на основі ідентифікатора користувача важким.’

ERNIE повернув як Baiduspider, так і ідентифікатор Chrome; Grok поєднував Googlebot з двома агентами браузера; Solar використовував тільки ідентифікатори браузера; Qwen змішував Googlebot з Chrome; і Kimi був пов’язаний з多агентами браузера.

Багато систем здавалися залежними від скраперів пошукових систем третіх сторін, у відносинах, які не завжди розкриваються. Вміст, пов’язаний з Googlebot, Bingbot і Bravebot, був повернутий десятьма з 18 систем, які були проаналізовані, часто в випадках, коли не існувало публічної асоціації між постачальником AI і пошуковою системою – хоча деякі зв’язки, такі як використання Claude Brave, задокументовані.

Автори стверджують, що це відображає інгестію результатів пошукових систем, а не прямий скрапінг, оскільки перевірки ASN вказували на те, що трафік походив з очікуваних мереж пошукових систем, а не з підроблених ідентифікаторів.

Це свідчить, стверджує стаття, про додатковий шар непрозорості у веб-ланцюгу AI, де блокування відомих скраперів AI може не запобігти використанню даних, і уникнення включення може вимагати відмови від індексації пошукових систем зовсім – недесідабельний вибір, поки напруженість між традиційним SEO і пошуком на основі LLM ще далека від вирішення.

Тільки кеш

Автори потім протестували, чи видалення джерела вплине на вихід чатботів, вимкнувши тестові сайти і запитавши системи знову через інтервал тижня. Згідно зі статтею, багато чатботів продовжували відтворювати “посаджені” дані навіть після тижня простою, вказуючи на те, що відповіді були отримані з кешованих даних, а не з живого отримання.

Ця стійкість була найбільш очевидна в системах, пов’язаних з пошуковими системами, де раніше проіндексований вміст залишався доступним, незважаючи на те, що джерельні сторінки більше не були доступні – хоча подібну поведінку також спостерігалося в системах, пов’язаних з агентами браузера, вказуючи на те, що кешування може розширюватися за межі пошукових систем.

Стаття пропонує, що як тільки вміст потрапляє до кешу, незалежно від того, чи підтримується він чатботом, чи доступний через індекси пошукових систем, видалення оригінальної сторінки не надійно видаляє цей вміст з подальших виходів.

Висновок

Автори визнають, що деяка “утечка” буде відбуватися з цього класичного “силозного” підходу, оскільки унікальні токени, призначені для однієї LLM, іноді можуть опинитися в результатах пошукових систем (генерованих токенами їхнього справжнього власника), які потім інгестуються другою LLM. Однак у таких схемах така дифузія є неминучою, а нагляд за першим випадком є критичним моментом.

Що залишається невідомим, то те, якою мірою така схема могла б бути реалізована у великому масштабі, особливо оскільки, як зазначають автори, можна швидко вичерпати контекстно-коректні токени.

Однак, це трохи не те саме, оскільки може бути межа навіть для безсрамності компаній AI щодо їхньої здатності пройти через явні докази своїх власних брехнь про політику скрапінгу. Крім того, якщо такі компанії не зобов’язуються йти потенційно дорогим шляхом прокручування через внутрішні IP-адреси для маскування своєї ідентичності, то досить, щоб одна організація ідентифікувала і опублікувала чорний список IP-адрес або ASN-адрес ботів AI-мендации; процес не потребує індустріалізації, щоб бути ефективним.

 

Перша публікація четверга, 14 травня 2026

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]