Connect with us

Канарка, яка викриває трафік AI

Погляд Anderson

Канарка, яка викриває трафік AI

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

У новому дослідженні вчені приховали унікальні фрази на веб-сайтах і впіймали чатботи AI, які повторювали їх, викриваючи приховані потоки скрапінгу та, очевидно, обманні практики деяких найбільших компаній AI.

 

Компанії AI борються за перевагу в гонці, яка, як передбачається, буде брутально редуктивною; тому вони дуже, дуже хочуть скрапити ваш веб-сайт/сайти для тренування даних, щоб годувати свої моделі AI. Іноді постійно; часто порушуючи ваші заявлені бажання; і часто під виглядом звичайних людей-читачів, або ж як “дружні” боти такі як GoogleBot, а не розкриваючи свою справжню ідентичність як скрапери даних AI.

Зараз оцінюється, що автоматизовані скрапери AI, призначені для всмоктування нових тренувальних даних і відповіді на негайні запити користувачів через RAG, перевищать кількість людей протягом року.

Цей запеклий, безперервний і повторюваний збір даних відбувається частково через потребу кожної сутності AI мати свою поточну копію інтернету, а не все більш застарілі репозиторії, такі як Common Crawl; і, можливо, через те, що компанії бояться наступу юридичних обмежень і повинні займатися очищенням IP якомога раніше.

Крім того, постійно опитуючи якомога більше (потенційно плідних) сайтів, компанії AI можуть сподіватися покращити свою поточну не дуже хорошу здатність відповідати інформативно і точно на нові й емерджентні ситуації.

У будь-якому випадку, здається, що є деяка підстава для твердження, що ці практики були поза контролем і некерованими протягом деякого часу.

Проблема полягає в тому, що довести, які заходи компанії AI зараз вживають, щоб задовольнити свою спрагу до останніх даних, не так легко.

Відстежуй дані

Одна з пропозицій, висунутих у новій роботі, пропонує варіант старого методу відкриття шпигунів, інформаторів та інших передбачуваних зловмисників: викриття їх спеціально створеним інформацією, якої ніхто інший не знає, і спостереження за тим, чи і де ця інформація з’явиться. Якщо ніхто інший не знав цю інформацію, то джерело витоку доведено:

Основна ідея дослідників, викладена в новій роботі, полягає в тому, щоб кожному відвідувачеві-боту надати трохи іншу версію однієї й тієї ж сторінки, а потім запитати чатботи про цю сторінку і побачити, яка версія повернеться, що дозволяє відстежувати, які приховані веб-запити постачали відповідь.. Джерело - https://arxiv.org/pdf/2605.13706

Основна ідея дослідників, викладена в новій роботі, полягає в тому, щоб кожному відвідувачеві-боту надати трохи іншу версію однієї й тієї ж сторінки, а потім запитати чатботи про цю сторінку і побачити, яка версія повернеться, що дозволяє відстежувати, які приховані веб-запити постачали відповідь. Джерело

Цей популярний підхід peut-être найкраще відомий через антипіратські заходи, прийняті комітетом Академії нагород у 2000-х роках, коли попередні екрани фільмів, які видалися для голосування, почали цифрово маркувати унікальними ідентифікаторами, які можна було б повторно прив’язати до оригінального одержувача, якщо фільм був би витікнутий в інтернет. У розвідці цей метод відомий як барієва їжа, після практики використання радіоактивного ізотопного рідини для освітлення кровоносних судин у медичному скануванні та ідентифікації блокувань.

(Іронічно, вибраний метафор “канарка” не дуже підходить для сценарію, який робота адресує, хоча він більш впізнаваний, ніж будь-які з вищезазначених тропів)

У випадку нової роботи автори створили двадцять “honeypot”-доменів і надали унікальні токени кожному унікальному відвідувачеві, так що кожному було надано різні факти (див. другу колонку зліва на зображенні вище).

Мета полягала в тому, щоб викрити справжню ідентичність і поведінку скраперів LLM (AI). По 22 системам LLM цей метод дозволив надійно ідентифікувати, які скрапери годували які LLM, оскільки – з деякою терпінням після “посіву” унікальних даних – просто запитання правильних питань до AI місяць або два пізніше давало унікальні токени.

Нечиста гра

Очевидно, жодного з цього не було б потрібно, якщо б ми не були ще в “дикому заході” фази AI V3, і якщо компанії дійсно дотримувалися малих текстових файлів, які домени можуть використовувати, щоб повідомити компаніям AI не скрапити їхні дані.

Як з’ясувалося під час досліджень, тільки одна компанія AI здавалася дотримуватися своєї заявленої поведінки та принципів: DuckDuckbot від DuckDuckGo був єдиним агентом, який точно представляв себе і зупинявся від.reporting “таємної інформації”, як тільки цільовий домен був вимкнений (інші компанії AI зверталися до закешованих версій і інших трюків) або файл robots.txt домену був змінений на відмову від скрапінгу AI.

Багато найбільших гравців натомість імітують загальні ідентифікатори браузерів (такі самі, як і веб-сайт бачить, якщо ви або я відвідуємо їх), і – відповідно до лідерства Perplexity у 2025 році щодо цієї практики – імітують GoogleBot, який довгий час мав “золотий пропуск” до даних веб-сайту, оскільки повертав (зазначте минулу форму, оскільки це змінюється) трафік в обмін на дані.

Найгіршим правопорушником, згідно з роботою, був скрапер, який годував екосистему Kimi AI:

‘Kimi видається найбільш крайнім випадком цієї поведінки: багато агентів користувачів здавалися корельованими з даними, виведеними Kimi. Ми робимо висновок, що Kimi прокручує великий список рядків User-Agent, можливо, щоб уникнути виявлення бота.’

Що робить цю проблему великим викликом, то те, що коли ChatGPT або подібні інструменти “шукують щось”, цей процес здебільшого невидимий, з компаніями, які пропонують лише часткові або самооповідані звіти про те, як їхні системи збирають живу інформацію. Це залишає власників сайтів без явного способу сказати, які боти дійсно відвідують їхні сторінки, чи ці відвідування є прямими чи маршрутизованими через пошукові системи, або як ці дані потрапляють до остаточної відповіді.

Висновки з нового дослідження свідчать про те, що LLM можуть використовувати свої власні закешовані записи з домену, свої внутрішні списки SEO-стилю, і що вони часто використовують інформацію з пошукових результатів компаній, з якими вони не мають публічної асоціації, і немає явних угод про використання.

Автори вважають, що це викриття є першим випадком, коли робота адресується небажаному вторгненню систем RAG (живі виклики в час інференсу з LLM, які можуть або не можуть мати людину-оператора, яка ними керує), а не ботами скрапінгу даних, які шукають свіжий матеріал для тренувальних наборів даних.

Нова робота називається “Ідентифікація скраперів веб-АІ за допомогою токенів-канарок” і походить від шести дослідників з Університету Дьюка, Університету Піттсбурга і Карнегі-Меллон.

Метод

Дослідники створили двадцять доменів .com з загальними шаблонами веб-сайтів, такими як художній портфоліо або компанійський веб-сайт. Кожен шаблон містив 10 плейсхолдерів, які згодом були заповнені токенами, унікальними для сприйманого профілю кожного відвідувача (на основі факторів, таких як IP-адреса, відбиток канвасу та інші “нюхальні” методи):

Приклад шаблону і змінних плейсхолдерів, використаних у дослідженні. Кожному сприйманому унікальному відвідувачеві були надані персональні, індивідуалізовані змінні.

Приклад шаблону і змінних плейсхолдерів, використаних у дослідженні. Кожному сприйманому унікальному відвідувачеві були надані персональні, індивідуалізовані змінні.

Кожному сприйманому унікальному відвідувачеві були надані персональні змінні. У випадку, коли система виявила повернення попереднього відвідувача, ті самі змінні, що і раніше, були представлені знову. Змінні були згенеровані за допомогою бібліотеки Python Faker, а також (невказаних) генераторів випадкових чисел.

“Honeypot”-домени були потім представлені різним індексам, таким як Google і Bing, і також були пов’язані з іншими існуючими доменами, які контролювали автори.

Було дозволено пройти два місяці, як необхідний інтервал для сканування частоти з великої кількості пошукових систем і подібних ботів, а також (можливо) органічних відвідувань. На цьому етапі дослідники були вже в змозі запитати цільові чатботи AI:

Чатбот AI Видавець
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
Deepseek Deepseek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
Чатбот AI Видавець
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Було створено скрипти для запиту кожної системи через API, якщо це було можливо. Коли це було неможливо, і коли автоматизовані рішення, такі як Selenium, були заблоковані виявленням бота AI-порталу, проводилися ручні взаємодії через офіційні GUI LLM.

Після початкової шаблонної зміни (див. зображення вище) автори продовжили з другою підказкою, призначеною для викликання імені компанії або особи в асоційованому токені.

Експерименти проводилися в одному з трьох умов: повністю доступному веб-сайту; веб-сайті, який був вимкнений; і веб-сайті з обмеженням robots.txt, яке відштовхувало скрапінг. Ці експерименти проводилися в такому ж порядку, один за одним, оскільки останні стадії залежали від попередніх.

Нарешті, з усіма сайтами знову в мережі, остання стадія повторно перевіряла вивід LLM через інтервали тижня.

Результати

Чотири з цільових LLM виявилися повністю резистентними до методів дослідників, і жодних результатів не можна було отримати для DeepSeek, Hunyuan, GLM і Liquid.

Відносно схильності багатьох ботів AI до імітування не-AI-трафіку автори заявляють:

‘Крім декларовані агентів першої сторони, декілька систем AI повернули вміст, пов’язаний з загальними рядками ідентифікаторів браузера. Ми спостерігали цю поведінку для шести з 18 систем AI, для яких ми отримали інформацію про ідентифікатори користувача.

‘Це результат свідчить про те, що деякі системи AI можуть отримувати вміст веб-сайту через запити, які виглядають подібно до звичайного трафіку браузера, що робить блокування на основі ідентифікатора користувача важким.’

ERNIE повернув як Baiduspider, так і ідентифікатор Chrome; Grok поєднував Googlebot з двома агентами браузера; Solar використовував тільки ідентифікатори браузера; Qwen змішував Googlebot з Chrome; і Kimi був пов’язаний з多 агентами, подібними до браузера.

Багато систем здавалися залежними від скраперів пошукових систем третіх сторін, у відносинах, які не завжди розкриваються. Вміст, пов’язаний з Googlebot, Bingbot і Bravebot, був повернутий десятьма з 18 проаналізованих систем, часто в випадках, коли не існує публічної асоціації між постачальником AI і пошуковою системою – хоча деякі зв’язки, такі як використання Claude Brave, задокументовані.

Автори стверджують, що це свідчить про додатковий шар непрозорості у пайплайні веб-АІ, де блокування відомих скраперів AI може не запобігти використанню даних, і уникнення включення може вимагати відмови від індексації пошукової системи зовсім – недесірабельний вибір, поки напруженість між традиційним SEO і пошуком на основі LLM ще далеко не вирішена.

Тільки кеш

Автори потім протестували, чи видалення джерела вплине на вивід чатботів, вимкнувши тестові сайти і запитавши системи знову через тиждень. Згідно з роботою, багато чатботів продовжували відтворювати “посаджені” вміст навіть після тижня простою, вказуючи на те, що відповіді були витягнуті з кешованих даних, а не з живого отримання.

Ця витривалість була найбільш очевидною в системах, пов’язаних зі скраперами пошукових систем, де раніше індексований вміст залишався доступним, незважаючи на те, що сторінка-джерело більше не була доступною – хоча подібна поведінка також спостерігалася в системах, пов’язаних з агентами, подібними до браузера, що свідчить про те, що кешування може розширюватися за межі пошукових систем.

Робота пропонує, що як тільки вміст потрапляє до кешу, незалежно від того, чи підтримується він чатботом, чи доступний через пошукові індекси, видалення оригінальної сторінки не гарантує видалення цього вмісту з подальших виводів.

Висновок

Автори визнають, що деяка “утечка” буде відбуватися в цьому класичному “силозному” підході, оскільки унікальні токени, призначені для однієї LLM, іноді можуть опинитися в результатах пошукової системи (генерованих токенами їхнього “справжнього” власника), які потім будуть прокарані другою LLM. Однак у таких схемах така дифузія є неминучою, і нагляд за першим випадком є критичним і визначальним моментом.

Що залишається невідомим, то це те, якою мірою така схема могла б бути реалізована у великому масштабі, особливо оскільки, як зазначають автори, одного можна було б швидко вичерпати контекстно-коректних токенів.

Однак, це трохи не те саме, оскільки може бути межа навіть для безстрашності компаній AI, щоб пройти через явні докази своїх власних брехнь про політику скрапінгу. Крім того, якщо такі компанії не зобов’язані проходити потенційно дорогий шлях прокручування через внутрішні IP-адреси, щоб маскувати свою ідентичність, то досить, щоб одна організація ідентифікувала і опублікувала чорний список IP-адрес або ASN-адрес ботів AI-мендации; процес не потребує індустріалізації, щоб бути ефективним.

 

Перша публікація четверга, 14 травня 2026

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]