Connect with us

AI Trafiklerini Açığa Çıkaran Kanarya

Anderson’un Açısı

AI Trafiklerini Açığa Çıkaran Kanarya

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

Yeni bir çalışmada, araştırmacılar web sitelerine benzersiz ifadeler gizledi ve AI sohbet botlarının bunları tekrarlamasını yakaladı, gizli veri madenciliği boru hatlarını açığa çıkardı ve görünüşe göre bazı büyük AI şirketlerinden aldatıcı uygulamalara yol açtı.

 

AI şirketleri, brutal bir şekilde azaltılması öngörülen bir yarışta avantaj için mücadele ediyorlar; bu nedenle gerçekten, gerçekten web sitenizi/eğitim verileri için AI modellerini beslemek için kazmak istiyorlar. Bazen sürekli; sık sık istediğinizin tersine; ve sık sık görünüşte insan okuyucuların casual veya daha ‘dostane’ botlar gibi GoogleBot olarak, gerçek kimliklerini AI veri madencileri olarak açığa çıkarmak yerine.

Şu anda tahmin edildiği gibi, yeni verileri emmek ve kullanıcıların en son haberleri RAG aracılığıyla talep etmelerine cevap vermek için tasarlanmış otomatik AI kazıcılar, bir yıl içinde insanları aşacak.

Bu aceleci, acımasız ve tekrarlı veri madenciliği, kısmen her AI varlığının kendi güncel internet kopyasına sahip olmasının gerekliliği nedeniyle gerçekleşiyor, artan şekilde eski depolar Common Crawl yerine; ve belki de şirketlerin yaklaşan yasal kısıtlamalardan korktukları ve IP-washing ile mümkün olduğunca erken başlamak zorunda olduklarından.

Ek olarak, mümkün olduğunca fazla (potansiyel olarak verimli) siteyi sürekli olarak sorgulayarak, AI şirketleri şu anda değil-great yeteneklerini geliştirmeyi umabilirler. kırılgan ve ortaya çıkan durumlara bilgilendirici ve doğru bir şekilde cevap vermelerine.

Her durumda, bu uygulamaların uzun süredir kontrolsüz ve yönetilemez olduğu iddiasına bazı doğrular olduğu görünüyor.

Sorun, AI şirketlerinin veri iştahını karşılamak için ne kadar uzağa gittiklerini kanıtlamanın o kadar kolay olmamasıdır.

Verileri Takip Edin

Bir öneri, yeni bir ABD çalışmasından ortaya çıkan bir yöntem, casuslar, muhbirler ve diğer şüpheli kişiler keşfetmek için eski bir yöntemin varyasyonunu sunar: onlara kimsenin bilmediği özel bilgiler verin ve bu bilgilerin nerede ortaya çıktığını görün. Eğer kimse bu bilgileri bilmiyorsa, alors sızıntının kaynağı kanıtlanmıştır:

Araştırmacıların temel fikri, yeni çalışmada açıklanmıştır, her ziyaretçi botuna aynı sayfanın biraz farklı bir versiyonunu verin, ardından bu sayfayla ilgili sohbet botlarına soru sorun ve hangi versiyonun geri döndüğünü görün, böylece gizli web aramalarının cevabı hangi aramalarla sağlandığını takip etmek mümkün olur.

Araştırmacıların temel fikri, yeni çalışmada açıklanmıştır, her ziyaretçi botuna aynı sayfanın biraz farklı bir versiyonunu verin, ardından bu sayfayla ilgili sohbet botlarına soru sorun ve hangi versiyonun geri döndüğünü görün, böylece gizli web aramalarının cevabı hangi aramalarla sağlandığını takip etmek mümkün olur. Kaynak

Bu popüler yaklaşım belki de korsanlıkla mücadele önlemlerinde 2000’lerde Akademi Ödülleri komitesinin uyguladığı gibi bilinir, burada oy kullanmak üzere dağıtılan screener DVD’ler, orijinal alıcıya geri atanabilecek benzersiz kimliklerle dijital olarak damgalanmaya başladı. Casuslukta, bu teknik barium meal olarak bilinir, tıbbi bir taramada kan damarlarını aydınlatmak için kullanılan radyoaktif izotop sıvısı uygulamasından sonra.

(Ironik olarak, seçilen ‘kanarya’ metaforu, çalışmanın ele aldığı senaryoya o kadar uygun değildir, ancak diğer tüm výše bahsedilen tropelerden daha tanınabilir)

Yeni çalışmada, yazarlar yirmi ‘bal peteği’ web alan adı oluşturdular ve her benzersiz ziyaretçiye benzersiz token’ler sundular, böylece her biri farklı gerçekleri alacaktı (yukarıdaki resmin solundan ikinci sütunda görüldüğü gibi).

Amaç, LLM (AI) kazıcılarının gerçek kimliklerini ve davranışlarını açığa çıkarmaktı. 22 üretim LLM sistemi üzerinde, teknik, hangilerinin kazıcılarını beslediğini güvenilir bir şekilde belirlemeye olanak tanıdı, çünkü – biraz sabırla, benzersiz verileri ‘ekledikten’ sonra – sadece AI’ye bir ay veya iki ay sonra doğru soruları sormak, benzersiz token’leri geri döndürmeyi sağlayacaktı.

Hile

Tabii ki, hiçbiri gerekli olmayacaktı, eğer hala AI V3 ‘in ‘vahşi batı’ aşamasında olmasaydık ve şirketler gerçekten küçük metin dosyalarına uysaydı, alan adları AI şirketlerine veri madenciliğini durdurmak için kullanabilirler.

Çalışmanın testlerinde, sadece bir AI şirketi kendi davranışını ve ilkelerini saygı duyduğunu görünür bir şekilde ortaya koydu: DuckDuckGo’nun DuckDuckbot , doğru bir şekilde kendisini temsil eden ve ‘gizli verileri’ geri bildirmeyi bırakan tek ajan oldu, ya hedef alan adı kapatıldığında (diğer AI şirketleri önbelleğe alınmış sürümler ve diğer hileler kullanmaya başvurdu) veya alan adının robots.txt dosyası AI kazıma işlemlerini reddetmek için değiştirildiğinde.

En büyük oyuncuların çoğu, sahte generic tarayıcı Kimliklerini (bir web sitesini ziyaret ettiğinizde gördüğünüz gibi) taklit etti ve – Perplexity’nin 2025 liderliğini takip ederek – GoogleBot’u taklit etti, uzun süredir web sitesi verilerine karşı ‘altın geçiş’ elde etti, çünkü veri karşılığında trafik döndürdü.

En kötü suçlu, çalışmaya göre, Kimi AI ekosistemi besleyen kazıcıydı:

‘Kimi, bu davranışın en aşırı örneği gibi görünüyor: birçok kullanıcı-arayüzü, Kimi tarafından üretilen verilerle ilişkili görünüyor. Kimi’nin User-Agent dizeleri listesini döndürürken veri madenciliği yaptığını varsayıyoruz, muhtemelen bot tespitinden kaçınmak için.’

Bu sorunu büyük bir zorluk haline getiren şey, ChatGPT veya benzer araçların ‘bir şeyi aradığında’, bu sürecin büyük ölçüde görünmez olması, şirketlerin sadece kısmi veya kendi bildirdikleri hesaplarını canlı bilgi toplamak için nasıl sistemlerini kullandıkları konusunda bırakmasıdır. Bu, site sahiplerine gerçekten hangi botların sayfalarını ziyaret ettiğini, bu ziyaretlerin doğrudan mı yoksa arama motorları aracılığıyla mı yapıldığını veya bu verilerin nihai cevaba nasıl dahil edildiğini belirlemek için net bir yol bırakmaz.

Çalışmanın bulguları, LLM’lerin kendi önbelleğe alınmış girişlerini bir domaine, kendi dahili SEO-stil listelerini ve sık sık, kamuoyu önünde hiçbir ilişkileri olmayan şirketlerin arama motoru sonuçlarını kullandığını gösteriyor.

Yazarlar, bu ifşanın, RAG sistemleri (LLM’lerden canlı çağrılar) tarafından istenmeyen müdahaleyi ele alan ilk çalışma olduğunu düşünüyorlar, değilse veri madenciliği botları tarafından taze malzeme arayan botlar.

Yeni çalışma , AI Web Scrapers Using Canary Tokens olarak adlandırılmıştır ve Duke Üniversitesi, Pittsburgh Üniversitesi ve Carnegie Mellon’dan altı araştırmacının eseridir.

Yöntem

Araştırmacılar, genel şablonlar altında benzer web siteleri olan yirmi .com alan adı kurdu, Örneğin, bir sanatçı portföyü veya bir şirket web sitesi. Her şablon, sonunda her ziyaretçinin algılanan profiline göre doldurulacak on yer tutucu içeriyordu (IP adresi, canvas parmak izi ve diğer çeşitli ‘koklama’ yöntemleri gibi faktörler temelinde):

Deneyde kullanılan şablon ve değişken yer tutucularının bir örneği. Her algılanan benzersiz ziyaretçi, kalıcı, bireysel özelleştirilmiş değişkenler alacaktı.

Deneyde kullanılan şablon ve değişken yer tutucularının bir örneği. Her algılanan benzersiz ziyaretçi, kalıcı, bireysel özelleştirilmiş değişkenler alacaktı.

Her algılanan benzersiz ziyaretçi, özelleştirilmiş değişkenler alacaktı. Sistem, önceki bir ziyaretçinin geri dönüşünü tespit ettiğinde, önceki gibi aynı değişkenler sunulacaktı. Değişkenler, Python Faker kütüphanesi ve (belirtilmeyen) rastgele sayı üreticileri kullanılarak oluşturuldu.

Bal peteği alan adları, çeşitli indekslere gibi Google ve Bing’e sunuldu ve ayrıca yazarların kontrol ettiği diğer önceden var olan alan adlarına bağlandı.

Geniş bir arama motoru ve benzeri botlardan tarama sıklığına izin vermek için iki ay geçti. Bu noktada, araştırmacılar artık hedeflenen AI sohbet botlarına (aşağıda listelenmiştir) sorgu gönderebilirlerdi:

AI sohbet botu Yayımcı
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
Deepseek Deepseek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
AI sohbet botu Yayımcı
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Bu amaçla API aracılığıyla her sistemi sorgulamak için betikler oluşturuldu. Bu mümkün olmadığında ve Selenium gibi otomatik çözümler AI portalının algılama rutinleri tarafından engellendiğinde, resmi GUI’ler aracılığıyla manuel etkileşimler gerçekleştirildi.

İlk şablonlu alışverişten (yukarıdaki resme bakın) sonra, yazarlar, bir iliştirilmiş tokendeki bir şirketin veya kişinin adını ortaya çıkarmak üzere tasarlanmış bir ikincil promotörle devam ettiler.

Deneyler, üç koşulda gerçekleştirildi: tam olarak erişilebilen bir web sitesi; web sitesinin kapatılması ve web sitesinin bir robots.txt kısıtlamasıyla kazıma işlemlerini reddetmesi. Bu deneyler, sonraki aşamaların önceki aşamalara bağlı olduğu için tam olarak bu sırayla gerçekleştirildi.

Son olarak, tüm siteler tekrar çevrimiçi olduğunda, son aşama LLM çıkışını bir haftalık aralıklarla yeniden test edecekti.

Sonuçlar

Dört hedef LLM, araştırmacıların yöntemlerine tamamen dayanıklı olduğunu kanıtladı ve DeepSeek, Hunyuan, GLM ve Liquid için sonuçlar alınamadı.

AI botlarının çoğunun non-AI trafiğini taklit etme eğilimine ilişkin olarak yazarlar, şunları belirttiler:

‘İlk tarafça bildirilen ajanlara ek olarak, bazı AI sistemleri generic tarayıcı User-Agent dizeleri ile ilişkili içerikleri geri döndürdü. Bu davranışı, User-Agent bilgilerini elde ettiğimiz 18 AI sisteminden altısında gözlemledik.

‘Bu sonuç, bazı AI sistemlerinin web sitesi içeriğini,普通 bir tarayıcı trafiğine benzer isteklerle elde edebileceğini gösteriyor, bu da User-Agent tabanlı engelleme zorlaştırıyor.’

ERNIE, Baiduspider ve bir Chrome kimliği döndürdü; Grok, Googlebot ile iki tarayıcı ajanını birleştirdi; Solar, sadece tarayıcı kimliklerini kullandı; Qwen, Googlebot ile Chrome’u karıştırdı ve Kimi, çoklu tarayıcı-stil ajanlarıyla bağlantılıydı.

Çok sayıda sistem, üçüncü taraf arama motoru kazıcılarına güveniyordu, her zaman açıklanmayan ilişkilerde. Googlebot, Bingbot ve Bravebot ile ilişkili içerik, analiz edilen 18 sistemden on tanesi tarafından döndürüldü, çoğu durumda AI sağlayıcıları ve arama motoru arasında kamuoyu önünde hiçbir ilişki yok – ancak bazı bağlantılar, Claude’un Brave’ı kullanması gibi, belgelenmiştir.

Yazarlar, bunun, doğrudan kazıma yerine arama sonuçlarının yutulmasını yansıttığını iddia ediyorlar, çünkü ASN kontrolleri, trafiğin beklenen arama motoru ağlarından geldiğini, sahte kimliklerden değil, gösterdi.

Bu, çalışmanın iddia ettiği gibi, web-AI boru hattında ek bir şeffaf katman olduğunu gösteriyor, burada bilinen AI tarama botlarını engellemek, veri kullanımını engellemeyecektir ve dahil edilmekten kaçınmak, arama dizinlemesinden tamamen çıkmayı gerektirecektir – bu, geleneksel SEO ve LLM tabanlı arama arasındaki gerilim hala çözülmediği sürece istenmeyen bir seçimdir.

Önbellek Sadece

Yazarlar, bir kaynağın kaldırılmasının sohbet botlarının çıkışını nasıl etkileyebileceğini test etti, test sitelerini çevrimdışı aldı ve sistemleri bir hafta arayla yeniden sorguladı. Çalışmaya göre, birçok sohbet botu, ‘eklenen’ içeriği bir hafta süresiz olarak üretmeye devam etti, bu da yanıtların canlı geri çağırma yerine önbelleğe alınmış verilerden alındığını gösterdi.

Bu kalıcılık, arama motoru tarama botlarına bağlı sistemlerde en belirgindi, burada önceden dizinlenen içerik, kaynak sayfaların artık erişilemez olmasına rağmen hala mevcuttu – ancak benzer bir davranış, tarayıcı benzeri ajanlarla ilişkili sistemlerde de gözlemlendi, bu da önbelleğin, arama motoru destekli boru hatlarının ötesine geçebileceğini gösterdi.

Çalışma, bir kez içerik bir önbelleğe girerse, sohbet botu veya arama dizinleri aracılığıyla erişilirse, orijinal sayfanın kaldırılması, bu içeriğin sonraki çıkışlardan güvenilir bir şekilde kaldırılmasını sağlamaz.

Sonuç

Yazarlar, bazı ‘sızıntılar’ olacağını kabul ediyorlar, çünkü bu klasik ‘silo’ yaklaşımında, bir LLM’ye yönelik benzersiz token’ler bazen arama sonuçlarına (token’lerin gerçek sahibi tarafından oluşturulan) girer ve sonra ikinci bir LLM tarafından yutulur. Ancak, böyle şemalarda, bu tür bir difüzyon kaçınılmazdır ve ilk oluşumun kritik anıdır.

Henüz görülmeyen şey, böyle bir şemanın büyük ölçekte nasıl uygulanabileceği, özellikle de yazarların gözlemlediği gibi, bağlamsal olarak doğru token’ler çok nhanh bir şekilde tükenir.

Ancak, bu, konunun özünü kaçırıyor, çünkü AI şirketlerinin veri madenciliği politikaları hakkında yalan söyleme yeteneklerinin cüretkarlığına bir sınır olabilir. Ek olarak, bu şirketler, kimliklerini gizlemek için yerel IP adreslerini döndürmenin potansiyel olarak pahalı yoluna başvurmazlarsa, sadece bir organizasyonun, SpamHaus tarzı bir kara liste yayınlaması yeterli olacaktır. AI-bot IP’leri veya ASNs; süreç endüstriyel düzeyde olmak zorunda değildir.

 

İlk olarak 14 Mayıs 2026 Perşembe günü yayınlandı

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]