Sudut Anderson
Polusi AI dalam Hasil Pencarian Risiko ‘Keruntuhan Pencarian’

Ketika konten AI mempolusi web, vektor serangan baru terbuka di medan pertempuran untuk konsensus budaya.
Penelitian yang dipimpin oleh sebuah perusahaan pencarian Korea berargumen bahwa ketika halaman yang dihasilkan AI merambah ke hasil pencarian, mereka melemahkan stabilitas pipa pencarian dan peringkat, serta melemahkan sistem – seperti Retrieval-Augmented Generation (RAG) – yang bergantung pada peringkat tersebut untuk memutuskan apa informasi yang akan ditampilkan dan dipercaya, sehingga meningkatkan risiko bahwa materi yang menyesatkan atau tidak akurat akan dianggap sebagai sumber yang berwenang.
Istilah yang diciptakan untuk sindrom ini oleh peneliti adalah Keruntuhan Pencarian, sebagai lawan dari ancaman keruntuhan model (di mana AI yang dilatih pada outputnya sendiri menjadi semakin buruk).
Dalam skenario Keruntuhan Pencarian, konten yang dihasilkan AI secara progresif mendominasi hasil pencarian mesin, sehingga bahkan ketika jawaban tetap akurat secara superficial, basis bukti yang mendasarinya akan terputus dari sumber asli manusia. Namun, data “tanpa akar” ini tampaknya akan mencapai posisi tinggi dalam hasil pencarian*:
‘Dengan proliferasi teks yang dihasilkan AI, tantangan dalam atribusi dan kualitas data pra-pelatihan telah intensif. Tidak seperti spam kata kunci tradisional spam, konten sintetis modern semantis koheren, memungkinkan untuk menyatu ke dalam sistem peringkat dan menyebar melalui pipa sebagai bukti yang berwenang.’
Makalah tersebut menyatakan bahwa ini akan menciptakan lingkungan yang ‘rapuh secara struktural’ di mana sinyal peringkat mendukung halaman yang dihasilkan AI, yang dioptimalkan untuk SEO, menggantikan sumber yang ditulis oleh manusia dari waktu ke waktu dengan cara yang tidak jelas, yaitu tanpa memicu penurunan kualitas jawaban yang jelas:
‘Pertumbuhan konten yang dihasilkan AI di Web menyajikan risiko struktural bagi pencarian informasi, karena mesin pencari dan sistem RAG semakin mengonsumsi bukti yang dihasilkan oleh Model Bahasa Besar (LLM).’
‘Kami menggambarkan mode kegagalan tingkat ekosistem ini sebagai Keruntuhan Pencarian, proses dua tahap di mana (1) konten yang dihasilkan AI mendominasi hasil pencarian, mengikis keanekaragaman sumber, dan (2) konten berkualitas rendah atau bersifat adversatif meresap ke dalam pipa pencarian.’
Peneliti tersebut berpendapat bahwa sekali ‘tahap dominasi’ terbentuk, pipa pencarian yang sama menjadi lebih rentan terhadap polusi yang disengaja, karena halaman yang bersifat adversatif dapat mengeksploitasi mekanisme optimasi yang sama untuk mendapatkan visibilitas*:
‘Dengan membangun kerangka Keruntuhan Pencarian, pekerjaan ini meletakkan dasar untuk memahami bagaimana konten sintetis mengubah pencarian informasi. Untuk memitigasi risiko ini, kami mengusulkan peralihan ke Strategi Peringkat Defensif yang secara bersamaan mengoptimalkan relevansi, faktualitas, dan provenansi.’
Keruntuhan Pencarian secara nyata akan memperburuk keruntuhan model, karena menambahkan lapisan niat jahat pada ‘efek fotokopi’ entropi, di mana AI semakin memakan output yang dihasilkan AI. Selain memengaruhi kesepakatan yang tampak pada ‘kebenaran’ dalam hasil pencarian waktu nyata, ketidakakuratan dan serangan dapat kemudian dikanonkan dalam model LLM yang dilatih sebagai sumber yang berwenang.
Pekerjaan baru tersebut berjudul Keruntuhan Pencarian Ketika AI Mempolusi Web, dan berasal dari tiga peneliti di Naver Corporation.
Metode
Untuk menguji bagaimana konten yang dihasilkan AI menyebar melalui sistem pencarian, peneliti tersebut secara acak memilih 1000 pasang pertanyaan/jawaban dari dataset dan benchmark MS MARCO, yang terdiri dari pertanyaan domain terbuka yang dipasangkan dengan jawaban referensi yang divalidasi oleh manusia. Ini digunakan baik untuk membangun pencarian dan untuk mengevaluasi kesesuaian faktual dari respons yang dihasilkan.
Untuk setiap pertanyaan MS MARCO dalam tes, sepuluh dokumen web diperoleh dari Google Search, berdasarkan hasil SEO teratas untuk setiap istilah, akhirnya menghasilkan kumpulan 10.000 dokumen.
Kesahihan faktual dokumen tersebut dinilai dengan membandingkan masing-masing dokumen dengan kebenaran dasar MS MARCO, menggunakan GPT-5 Mini sebagai hakim.
Simulasi Peternakan Konten
Untuk mensimulasikan tingkat kualitas (dari artikel normal, non-adversatif) yang terkait dengan peternakan konten, penulis menggunakan model GPT-5 Nano OpenAI yang ekonomis untuk menghasilkan artikel sintetis baru, karena ini adalah tingkat AI yang mungkin digunakan oleh pabrik konten. GPT-5 Mini, yang digunakan untuk menilai output, adalah model yang sedikit lebih mampu.
Sebaliknya, untuk mensimulasikan posting adversatif (yaitu konten yang dirancang untuk menyebarkan informasi yang salah atau yang lainnya yang menampilkan informasi yang salah), tidak ada referensi dunia nyata yang digunakan. Sebaliknya, draf pertama sampel dibuat dengan generator clickbait/SEO konvensional, dan kemudian diteruskan ke GPT-5 Nano, yang ditugaskan untuk menggantikan sejumlah fakta dengan alternatif yang masuk akal tetapi tidak benar. GPT-5 Nano juga melakukan re-peringkat semantik untuk tujuan konteks eksperimental.
Untuk mensimulasikan kejenuhan AI dari waktu ke waktu, proses pencemaran 20 putaran dijalankan, di mana satu dokumen sintetis ditambahkan per pertanyaan ke kumpulan dokumen asli yang tetap, meningkatkan bagian AI dari 0% menjadi 66,7%.
Untuk kumpulan gaya SEO, generator diprompt untuk ‘bertindak sebagai spesialis SEO’, dan untuk mengintegrasikan kata kunci IDF tinggi dari dokumen asli untuk meningkatkan kemungkinan pencarian.
Untuk kumpulan adversatif, prompt dirancang untuk mempertahankan prosa yang lancar dan alami, sambil mengubah entitas yang dinamai dan detail numerik, menciptakan dokumen yang tidak akan memicu filter statistik, sambil diam-diam mengikis kesesuaian faktual.










