Connect with us

Kanarek, który ujawnia ruch AI

Kąt Andersona

Kanarek, który ujawnia ruch AI

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

W nowym badaniu naukowcy ukryli unikalne frazy na stronach internetowych i złapali boty AI, które je powtarzały, ujawniając ukryte potoki scrappingu i, zdaje się, zwodnicze praktyki niektórych z największych firm AI.

 

Firmy AI walczą o przewagę w wyścigu, który zostanie brutalnie redukcyjny; dlatego tak bardzo, bardzo chcą scrappingować Twoją stronę internetową w celu uzyskania danych szkoleniowych dla swoich modeli AI. Czasami ciągle; często z naruszeniem Twoich deklarowanych życzeń; i często pod przykrywką przypadkowych czytelników ludzkich, lub jako “przyjazne” boty takie jak GoogleBot, zamiast ujawniać swoją prawdziwą tożsamość jako scrappingujące boty AI.

Obecnie szacuje się, że automatyczne boty AI zaprojektowane do pochłaniania nowych danych szkoleniowych i odpowiedzi na natychmiastowe zapotrzebowanie na najnowsze wiadomości za pomocą RAG, będą przewyższać liczbę ludzi w ciągu roku.

Ten szalony, bezwzględny i powtarzający się pochłanianie danych ma miejsce częściowo z powodu potrzeby posiadania przez każdą jednostkę AI własnej bieżącej kopii Internetu, a nie coraz bardziej starych repozytoriów, takich jak Common Crawl; i, być może, dlatego, że firmy obawiają się nadejścia ograniczeń prawnych i muszą rozpocząć pranie IP jak najwcześniej.

Dodatkowo, poprzez ciągłe sondowanie tak wielu (potencjalnie owocnych) stron, jak to tylko możliwe, firmy AI mogą mieć nadzieję na poprawę swojej obecnie niezbyt dobrej zdolności do odpowiedzi informacyjnych i dokładnych na sytuacje, które pojawiają się i rozwijają.

W każdym razie wydaje się, że istnieje pewna słuszność w twierdzeniu, że te praktyki były poza kontrolą i niepodlegające rządzeniu przez długi czas.

Problem polega na tym, że nie jest to takie proste, aby udowodnić, jakie środki firmy AI stosują obecnie, aby zaspokoić swoje pragnienie najnowszych danych.

Śledź dane

Jednym z sugestii, zaproponowanym w nowym artykule z USA, jest wariant starej metody odkrywania szpiegów, informatorów i innych domniemanych malwersantów: ujawnienie im dostosowanych informacji, których nikt inny nie zna, i sprawdzenie, czy i gdzie te informacje się pojawią. Jeśli nikt inny nie znał tych informacji, to źródło przecieku jest udowodnione:

Pomysł autorów nowego artykułu, opisany w artykule, polega na tym, aby dać każdemu odwiedzającemu botowi nieco inną wersję tej samej strony, a następnie zapytać chatboty o tę stronę i sprawdzić, jaka wersja się pojawi, co pozwala na śledzenie, które ukryte wywołania internetowe dostarczyły odpowiedź.. Źródło - https://arxiv.org/pdf/2605.13706

Pomysł autorów nowego artykułu, opisany w artykule, polega na tym, aby dać każdemu odwiedzającemu botowi nieco inną wersję tej samej strony, a następnie zapytać chatboty o tę stronę i sprawdzić, jaka wersja się pojawi, co pozwala na śledzenie, które ukryte wywołania internetowe dostarczyły odpowiedź. Źródło

Ten popularny podejście jest być może najlepiej znany z środków przeciwko piractwu przyjętych przez komitet Akademii Filmowej w latach 2000, w którym screener DVDs rozdawane członkom komitetu zaczęły być cyfrowo oznaczone unikalnymi identyfikatorami, które mogłyby być ponownie przypisane do oryginalnego odbiorcy, jeśli film w question byłby kiedykolwiek wyciekł do Internetu. W szpiegostwie, ta technika jest znana jako barium meal, pochodząca od praktyki używania cieczy radioaktywnej do oświetlenia naczyń krwionośnych w badaniu medycznym i identyfikacji blokowania.

(Ironicznie, wybrany “kanarek” metafora nie jest zbyt odpowiednia dla scenariusza, który artykuł opisuje, chociaż jest bardziej rozpoznawalna niż jakakolwiek z wymienionych powyżej tropów)

W przypadku nowego badania, autorzy stworzyli dwadzieścia “honeypot” domen internetowych i obsłużyli unikalne tokeny dla każdego unikalnego odwiedzającego, tak aby każdy otrzymał różne fakty (patrz druga kolumna od lewej na powyższym obrazie).

Cel był taki, aby ujawnić prawdziwą tożsamość i zachowanie scrappingujących botów AI. Przez 22 systemy LLM, technika ta pozwoliła na niezawodne zidentyfikowanie, które scrappingujące boty karmiły które LLM, ponieważ – po pewnym czasie po “zasianiu” unikalnych danych – wystarczyło zapytać odpowiednie pytania do AI miesiąc lub dwa później, aby uzyskać unikalne tokeny.

Nieszczerze

Oczywiście, nic z tego nie byłoby konieczne, gdybyśmy nie byli jeszcze w fazie “dzikiego zachodu” AI V3, i gdyby firmy rzeczywiście przestrzegały małych plików tekstowych, które domeny mogą używać, aby powiedzieć firmom AI, aby nie scrappingowały ich danych.

W trakcie badań, jak się okazało, tylko jedna firma AI wydawała się szanować swoje własne deklarowane zachowania i zasady: DuckDuckbot DuckDuckGo był jedynym agentem, który reprezentował się dokładnie i przestał raportować “tajne dane” tak szybko, jak tylko docelowa domena została wyłączona (inne firmy AI uciekały się do wersji cached i innych sztuczek) lub plik robots.txt domeny został zmieniony, aby odmówić scrappingu AI.

Wielu z największych graczy zamiast tego impersonowało generyczne identyfikatory przeglądarki (takie same, jakie strona internetowa zobaczyłaby, gdybyś Ty lub ja ją odwiedzili), i – zgodnie z prowadzeniem Perplexity w 2025 roku w tej praktyce – impersonowały GoogleBot, który długo cieszył się “złotym paszportem” do danych strony internetowej, ponieważ zwracał (zwrócił, bo to się zmienia) ruch w zamian za dane.

Najgorszym sprawcą, według artykułu, był scrappingujący bot karmiący ekosystem Kimi AI:

‘Kimi wydaje się być najbardziej skrajnym przypadkiem tego zachowania: wiele agentów użytkowników wydaje się być skorelowanych z danymi wyjściowymi Kimi. Wnioskujemy, że Kimi rotuje przez dużą listę ciągów User-Agent, możliwe, aby uniknąć wykrycia botów.’

Co sprawia, że ten problem jest dużym wyzwaniem, to fakt, że gdy ChatGPT lub podobne narzędzia “szukają czegoś”, ten proces jest w dużej mierze niewidoczny, a firmy oferują tylko częściowe lub samodeklarowane relacje z tego, jak ich systemy gromadzą dane na żywo. To pozostawia właścicieli stron internetowych bez wyraźnego sposobu, aby powiedzieć, które boty są naprawdę odwiedzające ich strony, czy te wizyty są bezpośrednie, czy też kierowane przez wyszukiwarki, czy też jak te dane kończą się w ostatecznej odpowiedzi.

Wyniki z nowego badania wskazują, że LLM mogą używać swoich własnych wpisów cached z domeny, swoich własnych list stylu SEO, i że często używają informacji z wyników wyszukiwania firm, z którymi w wielu przypadkach nie mają jawnej asociacji, i nie mają widocznych umów użytkowych.

Autorzy uważają, że to ujawnienie jest pierwszym razem, kiedy praca zajęła się niepożądanym wtargnięciem systemów RAG (wywołania na żywo z LLM, które mogą lub nie mogą mieć użytkownika pracującego nad nimi), a nie botami scrappingującymi dane w celu szkolenia zbiorów danych.

Nowy artykuł nowy artykuł nosi tytuł Identifying AI Web Scrapers Using Canary Tokens i pochodzi od sześciu badaczy z Duke University, University of Pittsburgh i Carnegie Mellon.

Metoda

Badacze utworzyli dwadzieścia domen .com z podobnymi szablonami stron internetowych, takimi jak portfolio artystyczne lub strona internetowa firmy. Każdy szablon zawierał 10 placeholderów, które ostatecznie zostaną wypełnione tokenami unikalnymi dla każdego odwiedzającego (na podstawie czynników takich jak adres IP, odcisk palca canvas i inne “wąchanie” metody):

Przykład szablonu i placeholderów zmiennych użytych w eksperymencie. Każdy postrzegany unikalny odwiedzający otrzymał zmienne niestandardowe.

Przykład szablonu i placeholderów zmiennych użytych w eksperymencie. Każdy postrzegany unikalny odwiedzający otrzymał zmienne niestandardowe i indywidualne.

Każdy postrzegany unikalny odwiedzający otrzymał zmienne niestandardowe. W przypadku, gdy system wykrył powrót poprzedniego odwiedzającego, te same zmienne co poprzednio zostały ponownie przedstawione. Zmienne zostały wygenerowane za pomocą biblioteki Python Faker, a także (nieokreślonych) generatorów liczb losowych.

Domeny honeypot zostały następnie przesłane do różnych indeksów, takich jak Google i Bing, i zostały również połączone z innych istniejących domen, które autorzy kontrolowali.

Dwa miesiące zostały przydzielone, aby umożliwić częstotliwość skanowania z szerokiej gamy botów wyszukiwarki i innych, a także (możliwe) organiczne wizyty. W tym momencie badacze byli w stanie zapytać docelowe chatboty AI (wylistowane poniżej):

Chatbot AI Wydawca
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
DeepSeek DeepSeek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
Chatbot AI Wydawca
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Skrypty zostały zbudowane, aby zapytać każdy system, za pomocą API, gdzie to było możliwe. Gdy to nie było możliwe, a gdy automatyczne rozwiązania takie jak Selenium były blokowane przez rutyny wykrywania botów AI, interakcje ręczne za pomocą oficjalnych GUI LLM zostały podjęte.

Po początkowej wymianie szablonu (patrz powyższy obraz), autorzy następnie zapytali o nazwę firmy lub osoby w powiązanym tokenie.

Eksperymenty zostały przeprowadzone w jednej z trzech warunków: w pełni dostępnej stronie internetowej; stronie internetowej wyłączonej; i stronie internetowej z ograniczeniem robots.txt, które odpycha scrapping. Te eksperymenty zostały przeprowadzone w tej samej sekwencji, jedna po drugiej, ponieważ późniejsze etapy zależały od wcześniejszych.

W końcu, z wszystkimi stronami ponownie włączonymi, ostatni etap ponownie przetestował wyjście LLM w odstępach tygodniowych.

Wyniki

Cztery z docelowych LLM okazały się całkowicie odporne na metody badaczy, i nie można było uzyskać wyników dla DeepSeek, Hunyuan, GLM i Liquid.

W odniesieniu do tendencji wielu botów AI do impersonowania ruchu nie-AI, autorzy stwierdzają:

‘Oprócz agentów deklarowanych przez pierwszą stronę, kilka systemów AI zwróciło treści skojarzone z ogólnymi ciągami User-Agent przeglądarki. Zaobserwowaliśmy to zachowanie u sześciu z 18 systemów AI, dla których uzyskaliśmy informacje o User-Agent.

‘To wynik sugeruje, że niektóre systemy AI mogą uzyskać treści strony internetowej za pomocą żądań, które wyglądają podobnie do zwykłego ruchu przeglądarki, co utrudnia blokadę opartą na User-Agent.’

ERNIE zwrócił zarówno Baiduspider, jak i tożsamość Chrome; Grok połączył GoogleBot z dwoma agentami przeglądarki; Solar używał tylko tożsamości przeglądarki; Qwen mieszał GoogleBot z Chrome; i Kimi był skorelowany z wieloma agentami stylu przeglądarki.

Wiele systemów wydawało się polegać na scrappingu stron internetowych przez wyszukiwarki trzecich stron, w relacjach nie zawsze ujawnionych. Treści skojarzone z GoogleBot, Bingbot i Bravebot zostały zwrócone przez dziesięć z osiemnastu systemów analizowanych, często w przypadkach, w których nie istniała jawna asociacja między firmą AI a wyszukiwarką – chociaż niektóre połączenia, takie jak użycie Brave przez Claude, są udokumentowane.

Autorzy twierdzą, że to odzwierciedla spożycie wyników wyszukiwania zamiast bezpośredniego scrappingu, ponieważ kontrole ASN wskazywały, że ruch pochodził z oczekiwanych sieci wyszukiwarki, a nie z fałszywych tożsamości.

To sugeruje, twierdzi artykuł, dodatkową warstwę nieprzezroczystości w potoku internetowo-AI, gdzie blokadę znanych crawlerów AI może nie uniemożliwić użycie danych, a uniknięcie uwzględnienia może wymagać całkowitego wyłączenia indeksowania wyszukiwarki – niepożądanej decyzji, podczas gdy napięcie między tradycyjnym SEO a wyszukiwaniem opartym na LLM jest nadal daleko od rozwiązania.

Cache Only

Autorzy następnie przetestowali, czy usunięcie źródła wpłynie na wyjście chatbotów, wyłączając strony internetowe i zapytując systemy ponownie po upływie tygodnia. Zgodnie z artykułem, wiele chatbotów nadal odtwarzało “zasiane” treści, nawet po tygodniu przestoju, co wskazuje, że odpowiedzi były pobierane z danych cached, a nie z żywej kolekcji.

Ten trwały charakter był najbardziej widoczny w systemach powiązanych z crawlerami wyszukiwarki, gdzie wcześniej zindeksowane treści pozostały dostępne, pomimo faktu, że strony internetowe nie były już dostępne – chociaż podobne zachowanie obserwowano również w systemach skojarzonych z agentami przeglądarki, co wskazuje, że buforowanie może sięgać poza potoki wspierane przez wyszukiwarkę.

Artykuł sugeruje, że gdy treść wchodzi do buforu, niezależnie od tego, czy jest utrzymywany przez chatbota, czy dostępny za pośrednictwem indeksów wyszukiwania, usunięcie oryginalnej strony nie powoduje wiarygodnego usunięcia tej treści z późniejszych odpowiedzi.

Wnioski

Autorzy przyznają, że pewne “przecieki” będą miały miejsce z tego klasycznego “silo” podejścia, ponieważ unikalne tokeny skierowane do jednego LLM mogą czasem znaleźć się w wynikach wyszukiwania (wygenerowanych przez tokeny rzeczywistego właściciela), które są następnie spożywane przez drugie LLM. Jednak w takich schematach, dyfuzja tego typu jest nieunikniona, a czujność na pierwsze wystąpienie jest krytycznym i decydującym momentem.

Co pozostaje do zobaczenia, to stopień, w jakim taki schemat mógłby być wdrożony na dużą skalę, szczególnie biorąc pod uwagę, że, jak autorzy zauważają, można by szybko wyczerpać tokeny kontekstowo poprawne.

Jednak to trochę mija się z punktem, ponieważ może być limit nawet dla bezwzględności firm AI, aby przerwać przez jasne dowody swoich własnych kłamstw o polityce scrappingu. Dodatkowo, chyba że takie firmy zdecydują się na potencjalnie drogą drogę przewijania przez adresy IP krajowe, aby ukryć swoją tożsamość, wystarczy, aby jedna organizacja zidentyfikowała i opublikowała listę czarnych IP lub ASN w stylu SpamHaus; proces nie musi być zindustrializowany, aby być skuteczny.

 

Pierwotnie opublikowane w czwartek, 14 maja 2026

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.