Connect with us

Sudut Anderson

Burung Kenari yang Mengungkap Lalu Lintas AI

mm
AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

Dalam sebuah studi baru, peneliti menyembunyikan frasa unik di situs web dan menangkap bot obrolan AI yang mengulangi frasa tersebut, mengungkap pipa pengikisan tersembunyi, dan, tampaknya, praktik menipu dari beberapa perusahaan AI terbesar.

 

Perusahaan AI bersaing untuk mendapatkan keunggulan dalam perlombaan yang diprediksi akan sangat merugikan; oleh karena itu, mereka sangat, sangat ingin mengikis situs web Anda untuk data pelatihan untuk memberi makan model AI mereka. Terkadang terus-menerus; sering melanggar keinginan Anda yang dinyatakan; dan sering dalam penampilan pembaca manusia biasa, atau sebagai bot ‘lebih ramah’ seperti GoogleBot, bukan mengungkapkan identitas sebenarnya sebagai pengikis data AI.

Saat ini diperkirakan bahwa pengikis AI otomatis yang dirancang untuk menghisap data pelatihan baru, dan untuk merespons permintaan pengguna untuk berita terbaru melalui RAG, akan melebihi jumlah manusia dalam setahun.

Pengambilan data yang giat, tanpa henti, dan berulang ini terjadi sebagian karena kebutuhan setiap entitas AI untuk memiliki salinan internet mereka sendiri yang mutakhir, bukan repositori yang semakin usang seperti Common Crawl; dan, mungkin, karena perusahaan takut akan batasan hukum yang akan datang, dan perlu melakukan pencucian IP secepat mungkin.

Tambahnya, dengan terus memantau sebanyak mungkin situs (potensial yang menguntungkan), perusahaan AI mungkin berharap untuk meningkatkan kemampuan mereka yang saat ini tidak terlalu baik untuk merespons secara informatif dan akurat terhadap situasi yang muncul.

Bagaimanapun, tampaknya ada beberapa kebenaran dalam klaim bahwa praktik-praktik ini telah tidak terkendali dan tidak teratur selama beberapa waktu.

Masalahnya adalah, tidak mudah untuk membuktikan seberapa jauh perusahaan AI saat ini melakukan untuk memuaskan dahaga mereka akan data terbaru.

Mengikuti Data

Satu saran, yang diajukan dalam sebuah makalah baru dari AS, menawarkan variasi dari metode lama untuk menemukan mata-mata, informan, dan pelaku kejahatan lainnya: mengungkapkan informasi yang dirancang khusus yang tidak diketahui oleh orang lain, dan melihat apakah dan di mana informasi tersebut muncul. Jika tidak ada orang lain yang mengetahui informasi tersebut, maka sumber kebocoran terbukti:

Gagasan inti peneliti, yang diuraikan dalam makalah baru, adalah memberikan setiap bot pengunjung versi yang sedikit berbeda dari halaman yang sama, kemudian bertanya kepada bot obrolan tentang halaman tersebut dan melihat versi mana yang kembali, sehingga memungkinkan untuk melacak mana penggunaan web tersembunyi yang memasok jawaban.. Sumber - https://arxiv.org/pdf/2605.13706

Gagasan inti peneliti, yang diuraikan dalam makalah baru, adalah memberikan setiap bot pengunjung versi yang sedikit berbeda dari halaman yang sama, kemudian bertanya kepada bot obrolan tentang halaman tersebut dan melihat versi mana yang kembali, sehingga memungkinkan untuk melacak mana penggunaan web tersembunyi yang memasok jawaban. Sumber

Pendekatan populer ini mungkin paling dikenal melalui langkah anti-pembajakan yang diadopsi oleh komite Academy Awards pada tahun 2000-an, di mana screener DVD yang diberikan kepada anggota pemilih mulai diberi tanda digital dengan ID unik yang dapat dikaitkan dengan penerima aslinya jika film tersebut pernah bocor ke internet. Dalam spionase, teknik ini dikenal sebagai barium meal, setelah praktik menggunakan cairan isotop radioaktif untuk menerangi pembuluh darah dalam pemindaian medis dan mengidentifikasi penyumbatan.

(Ironisnya, metafor ‘burung kenari’ yang dipilih tidak terlalu tepat untuk skenario yang ditangani oleh makalah ini, meskipun lebih dikenal daripada trope lainnya)

Dalam kasus penelitian baru, penulis membuat dua puluh domain web ‘honeypot’ dan melayani token unik kepada setiap pengunjung unik, sehingga setiap pengunjung akan menerima fakta yang berbeda (lihat kolom kedua dari kiri pada gambar di atas).

Tujuan adalah untuk mengungkap identitas sebenarnya dan perilaku pengikis LLM (AI). Di seluruh 22 sistem LLM produksi, teknik ini dapat secara andal mengidentifikasi pengikis mana yang memberi makan LLM mana, karena – dengan sedikit kesabaran setelah ‘menanam’ penanda data unik – hanya dengan bertanya pertanyaan yang tepat kepada AI sebulan atau dua bulan kemudian akan menghasilkan token unik.

Permainan Kotor

Tentu saja, tidak ada yang perlu dilakukan jika kita tidak masih berada dalam fase ‘wild west’ dari AI V3, dan jika perusahaan benar-benar mematuhi file teks kecil yang dapat digunakan oleh domain untuk mengatakan kepada perusahaan AI untuk tidak mengikis data mereka.

Sebagaimana terjadi dalam tes peneliti, hanya satu perusahaan AI yang tampaknya menghormati perilaku dan prinsipnya sendiri: DuckDuckbot dari DuckDuckGo adalah satu-satunya agen yang mewakili dirinya secara akurat, dan berhenti melaporkan ‘data rahasia’ segera setelah domain target dimatikan (perusahaan AI lain menggunakan versi cache dan trik lain) atau file robots.txt domain diubah untuk menolak pengikisan AI.

Banyak pemain terbesar lainnya malah meniru ID browser generik (sama seperti situs web yang akan dilihat jika Anda atau saya mengunjungi mereka), dan – sesuai dengan perintis 2025 pada praktik ini – meniru GoogleBot, yang telah lama menikmati ‘golden pass’ ke data situs web karena mengembalikan (perhatikan kata kerja lampau, karena ini sedang berubah) lalu lintas dalam pertukaran untuk data.

Pelanggar terburuk, menurut makalah, adalah pengikis yang memberi makan ekosistem Kimi AI:

‘Kimi tampaknya merupakan kasus paling ekstrem dari perilaku ini: banyak agen pengguna tampaknya terkait dengan output data yang dihasilkan oleh Kimi. Kami menyimpulkan bahwa Kimi berputar melalui daftar besar string User-Agent sambil mengikis, mungkin untuk menghindari deteksi bot.’

Apa yang membuat masalah ini menjadi tantangan besar adalah bahwa ketika ChatGPT atau alat serupa ‘mencari sesuatu’, proses itu sebagian besar tidak terlihat, dengan perusahaan hanya menawarkan akun sebagian atau self-dilaporkan tentang bagaimana sistem mereka mengumpulkan informasi langsung. Ini meninggalkan pemilik situs dengan tidak ada cara yang jelas untuk mengetahui bot mana yang sebenarnya mengunjungi halaman mereka, apakah kunjungan tersebut langsung atau diarahkan melalui mesin pencari, atau bagaimana data tersebut berakhir dalam jawaban akhir.

Temuan dari studi baru menunjukkan bahwa LLM mungkin menggunakan entri cache mereka sendiri dari domain, daftar internal mereka sendiri, dan bahwa mereka sering menggunakan informasi dari hasil pencarian perusahaan yang tidak memiliki asosiasi publik, dan tidak ada perjanjian penggunaan yang jelas.

Penulis percaya bahwa ini adalah kali pertama sebuah karya telah menangani gangguan tidak diinginkan oleh sistem RAG (panggilan langsung pada waktu inferensi dari LLM yang mungkin atau tidak memiliki pengguna manusia yang bekerja), bukan bot pengikis data yang mencari bahan segar untuk dataset pelatihan.

Makalah baru ini berjudul Mengidentifikasi Pengikis Web AI Menggunakan Token Burung Kenari, dan berasal dari enam peneliti di Duke University, University of Pittsburgh, dan Carnegie Mellon.

Metode

Peneliti menyiapkan dua puluh domain .com dengan situs web yang secara umum mirip dengan template, seperti portofolio seni atau situs web perusahaan. Setiap template berisi 10 placeholder yang akan diisi dengan token unik untuk setiap pengunjung yang diterima (berdasarkan faktor seperti alamat IP, sidik jari canvas, dan metode ‘sniffing’ lainnya):

Contoh template dan placeholder variabel yang digunakan dalam eksperimen. Setiap pengunjung unik akan menerima variabel khusus.

Contoh template dan placeholder variabel yang digunakan dalam eksperimen. Setiap pengunjung unik akan menerima variabel khusus.

Setiap pengunjung unik akan menerima variabel khusus. Dalam kasus di mana sistem mendeteksi kembalinya pengunjung sebelumnya, variabel yang sama seperti sebelumnya akan disajikan kembali. Variabel dihasilkan dengan menggunakan perpustakaan Python Faker, serta (tidak spesifik) generator angka acak.

Domain ‘honeypot’ kemudian dikirimkan ke berbagai indeks seperti Google dan Bing, dan juga dihubungkan dari domain lain yang dikendalikan oleh penulis.

Dua bulan dibiarkan berlalu, sebagai interval yang diperlukan untuk memungkinkan scanning frekuensi dari berbagai bot pencari dan bot serupa, serta (mungkin) kunjungan organik. Pada titik ini, peneliti sekarang dapat mengajukan pertanyaan kepada bot obrolan AI yang ditargetkan (terdaftar di bawah):

Bot Obrolan AI Penerbit
ChatGPT OpenAI
Claude Anthropic
Copilot Microsoft
Deepseek Deepseek
Duck.ai DuckDuckGo
ERNIE Baidu
Gemini Google
GLM Z.AI
Granite IBM
Grok xAI
Hunyuan Tencent
Bot Obrolan AI Penerbit
Kimi MoonshotAI
Liquid Liquid
Llama Meta
Mistral Mistral
Nova Amazon
Perplexity Perplexity
Qwen Alibaba
Reka Reka
Solar Upstage
Step-3 StepFun
Venice Venice

Skrip dibangun untuk mengajukan pertanyaan kepada setiap sistem, melalui API, jika memungkinkan. Ketika ini tidak memungkinkan, dan ketika solusi otomatis seperti Selenium diblokir oleh rutinitas deteksi portal AI, interaksi manual melalui GUI resmi LLM dilakukan.

Setelah pertukaran templated awal (lihat gambar di atas), penulis mengikuti dengan prompt sekunder yang dirancang untuk memicu nama perusahaan atau orang yang terkait dengan token.

Eksperimen dilakukan dalam satu dari tiga kondisi: situs web yang dapat diakses sepenuhnya; situs web yang dimatikan; dan situs web dengan pembatasan robots.txt yang menolak pengikisan. Eksperimen ini dilakukan dalam urutan yang tepat, satu demi satu, karena tahap terakhir bergantung pada yang sebelumnya.

Akhirnya, dengan semua situs kembali online, tahap terakhir akan menguji kembali output LLM pada interval satu minggu.

Hasil

Empat dari LLM target terbukti sepenuhnya resisten terhadap metode peneliti, dan tidak ada hasil yang dapat diperoleh untuk DeepSeek, Hunyuan, GLM, dan Liquid.

Dalam kaitannya dengan kecenderungan banyak bot AI untuk meniru lalu lintas non-AI, penulis menyatakan:

‘Selain agen yang dideklarasikan pertama, beberapa sistem AI kembali mengembalikan konten yang terkait dengan string User-Agent browser generik. Kami mengamati perilaku ini untuk enam dari 18 sistem AI yang kami dapatkan informasi User-Agent.

‘Hasil ini menunjukkan bahwa beberapa sistem AI dapat memperoleh konten situs web melalui permintaan yang tampaknya mirip dengan lalu lintas browser biasa, yang membuat pemblokiran berdasarkan User-Agent menjadi sulit.’

ERNIE mengembalikan Baiduspider dan identitas Chrome; Grok menggabungkan Googlebot dengan dua agen browser; Solar menggunakan hanya identitas browser; Qwen mencampur Googlebot dengan Chrome; dan Kimi terkait dengan beberapa agen browser-gaya.

Banyak sistem tampaknya bergantung pada pengikis pencarian pihak ketiga, dalam hubungan yang tidak selalu diungkapkan. Konten yang terkait dengan Googlebot, Bingbot, dan Bravebot dikembalikan oleh sepuluh dari 18 sistem yang dianalisis, sering dalam kasus di mana tidak ada asosiasi publik antara penyedia AI dan mesin pencari – meskipun beberapa tautan, seperti penggunaan Claude dari Brave, didokumentasikan.

Penulis berpendapat bahwa ini mencerminkan penggunaan hasil pencarian daripada pengikisan langsung, karena periksa ASN menunjukkan bahwa lalu lintas berasal dari jaringan mesin pencari yang diharapkan, bukan identitas yang dipalsukan.

Ini menunjukkan, makalah tersebut menyatakan, lapisan tambahan ketidakjelasan dalam pipa web-ke-AI, di mana pemblokiran pengikis AI yang diketahui mungkin tidak mencegah penggunaan data, dan menghindari inklusi mungkin memerlukan mengopt-out dari pengindeksan pencarian sepenuhnya – sebuah pilihan yang tidak diinginkan saat ketegangan antara SEO tradisional dan pencarian berbasis LLM masih jauh dari terselesaikan.

Hanya Cache

Penulis kemudian menguji apakah menghilangkan sumber akan mempengaruhi output bot obrolan, dengan mematikan situs web uji dan mengajukan pertanyaan kepada sistem lagi setelah interval satu minggu. Menurut makalah, banyak bot obrolan terus menghasilkan ‘konten ditanam’ bahkan setelah satu minggu downtime, menunjukkan bahwa respons dihasilkan dari data cache, bukan pengambilan langsung.

Persistensi ini paling jelas pada sistem yang terkait dengan pengikis pencarian, di mana konten yang sebelumnya diindeks masih tersedia, meskipun halaman sumber tidak lagi dapat diakses – meskipun perilaku serupa juga diamati pada sistem yang terkait dengan agen browser-gaya, menunjukkan bahwa caching mungkin meluas di luar pipa yang didukung pencarian.

Makalah tersebut menyatakan bahwa sekali konten memasuki cache, baik yang dipelihara oleh bot obrolan atau diakses melalui indeks pencarian, menghilangkan halaman asli tidak akan menghilangkan konten tersebut dari output selanjutnya.

Kesimpulan

Penulis mengakui bahwa beberapa ‘kebocoran’ akan terjadi dari pendekatan ‘siloed’ klasik ini, karena token unik yang ditujukan untuk satu LLM dapat kadang-kadang berakhir dalam hasil pencarian (yang dihasilkan oleh pemilik token yang sebenarnya), yang kemudian dikonsumsi oleh LLM kedua. Namun, dalam skema seperti itu, difusi jenis ini tidak dapat dihindari, dan kewaspadaan untuk kejadian pertama adalah momen kritis dan menentukan.

Apa yang masih harus dilihat adalah seberapa jauh skema seperti ini dapat diimplementasikan dalam skala besar, terutama karena, seperti yang diamati oleh penulis, seseorang akan kehabisan token yang kontekstual benar sangat cepat.

Namun, ini agak melewatkan titik utama, karena mungkin ada batasan bahkan untuk keberanian perusahaan AI untuk berbohong tentang kebijakan pengikisan mereka. Selain itu, kecuali perusahaan tersebut berkomitmen untuk rute yang relatif mahal dari menggulir alamat IP domestik untuk menyembunyikan identitas mereka, hanya perlu satu organisasi untuk mengidentifikasi dan menerbitkan daftar hitam gaya SpamHaus dari IP atau ASN bot AI yang tidak jujur; proses ini tidak perlu diindustrikan untuk efektif.

 

Dipublikasikan pertama kali pada hari Kamis, 14 Mei 2026

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.