Anderson’un Açısı

AI Kirliliği Arama Sonuçlarında ‘Çıkarma Çökmesi’ Riskini Taşıyor

Published February 19, 2026

Updated April 1, 2026

Martin Anderson

AI-generated image (GPT-1.5) depicting sewer workers shining their torches on a huge fatberg blocking the sewer, in which is embedded multiple extruded texts saying 'AI'.

AI içeriği web’i kirlettiği medida, bir yeni saldırı vektörü kültür uzlaşması için savaş alanında açılır.

Koreli bir arama şirketi tarafından yürütülen bir araştırma, AI tarafından oluşturulan sayfaların arama sonuçlarına girdikçe, arama ve sıralama boru hatlarının istikrarını bozar ve Retrieval-Augmented Generation (RAG) gibi sıralamalara dayalı sistemlerin güvenliğini zayıflatır ve yanlış veya yanlış bilgilerin güvenilir olarak kabul edilme riskini artırır.

Araştırmacılar tarafından bu sendrom için kullanılan terim Çıkarma Çökmesi, bilinen model çökmesi tehdidinden (AI kendi çıktısına dayalı olarak eğitildiğinde giderek daha kötü hale gelir) farklıdır.

Bir Çıkarma Çökmesi senaryosunda, AI tarafından oluşturulan içerik arama motoru sonuçlarını dần dần domine eder, öyle ki cevaplar yüzeyde doğru kalmasına rağmen, altta yatan kanıtlar insan kaynaklarından kopmuş olur. Buna rağmen, bu ‘köksüz’ veri arama sonuçlarında yüksek bir yere ulaşmaya hazır görünüyor:

‘AI tarafından oluşturulan metinlerin çoğalması ile, atıf ve ön eğitim veri kalitesi sorunları yoğunlaşmıştır. Geleneksel anahtar kelime spamın aksine, modern sentetik içerik anlamsal olarak tutarlıdır ve bu nedenle sıralama sistemlerine karışabilir ve boru hatları aracılığıyla yetkili kanıt olarak yayılabilir.’

Makale, bu durumun ‘yapısal olarak kırılgan’ bir ortam yaratığını iddia eder, bu ortamda sıralama sinyalleri AI tarafından üretilen, SEO optimize edilmiş sayfaları tercih eder ve insan tarafından yazılmış kaynakları zaman içinde kurnazca bir şekilde yerinden eder, yani açık cevap kalitesi düşüşüne neden olmadan:

‘Web’de AI tarafından oluşturulan içeriğin büyümesi, arama motorları ve Retrieval-Augmented Generation (RAG) sistemlerinin giderek daha fazla Large Language Models (LLM) tarafından üretilen kanıtları tüketmesi nedeniyle bilgi geri çağırma için yapısal bir risk oluşturur.’

‘Bu ekosistem düzeyindeki başarısızlık modunu Çıkarma Çökmesi olarak karakterize ediyoruz, bu iki aşamalı bir süreçtir: (1) AI tarafından oluşturulan içerik arama sonuçlarını domine eder, kaynak çeşitliliğini erozyona uğratır ve (2) düşük kaliteli veya düşmanca içerik geri çağırma boru hattına sızar.’

Araştırmacılar, bir kez ‘baskın’ aşaması kurulduktan sonra, aynı geri çağırma boru hattının kasıtlı olarak kirlenmeye daha fazla açık hale geldiğini iddia eder, çünkü düşmanca sayfalar aynı optimize etme mekanizmalarını kullanarak görünürlük kazanabilir:

‘Çıkarma Çökmesi çerçevesini kurarak, bu çalışma sentetik içeriğin bilgi geri çağırmasını nasıl yeniden şekillendirdiğini anlamak için temel oluşturur. Bu riskleri azaltmak için, ilgili, gerçeklik ve köken konusunda ortak olarak optimize edilen Savunma Sıralama stratejilerine doğru bir kayma öneriyoruz.’

Çıkarma Çökmesi, model çökmesini muhtemelen artırır, çünkü ‘fotokopi etkisi’ olan entropi üzerine kasıtlı bir niyet katmanı ekler, burada AI giderek AI tarafından oluşturulan çıktıya beslenir. Gerçek zamanlı arama sonuçlarında ‘gerçek’ konusunda görünür uzlaşmayı etkilemenin yanı sıra, yanlışlıklar ve saldırılar daha sonra eğitimli LLM’lerde yetkili kaynaklar olarak kutsanabilir.

Yeni çalışma AI Web’i Kirlettiğinde Çıkarma Çökmesi başlığını taşır ve Naver Corporation’dan üç araştırmacının eseridir.

Yöntem

Araştırmacılar, AI tarafından oluşturulan içeriğin geri çağırma sistemlerine nasıl yayıldığını test etmek için, MS MARCO veri kümesi ve referans cevapları ile eşleştirilmiş açık alan sorularından oluşan 1000 soru/cevap çiftini rastgele örneklediler. Bunlar hem geri çağırma için temel olarak hem de oluşturulan cevapların gerçeklik doğruluğunu değerlendirmek için kullanıldı.

Her bir MS MARCO sorgusu için, Google Arama’dan en üst sıradaki SEO sonuçlarına dayalı olarak on web belgesi alındı, sonunda 10.000 belge havuzu üretildi.

Belgelerin gerçeklik geçerliliği, her birini MS MARCO temel gerçeğine karşılaştırarak ve GPT-5 Mini‘yi yargıç olarak kullanarak değerlendirildi.

İçerik Çiftliği Simülasyonu

İçerik çiftlikleriyle ilişkili (normal, düşmanca olmayan) makalelerin kalite seviyesini simüle etmek için, araştırmacılar GPT-5 Nano OpenAI modelini kullanarak yeni sentetik makaleler oluşturdular, çünkü bu, içerik değirmenlerinin kullanacağı muhtemel ‘ucuz’ AI seviyesidir. GPT-5 Mini, çıktıyı değerlendirmek için kullanıldı ve bu, slightly daha yetenekli bir modeldir.

Öte yandan, düşmanca gönderileri (yani yanlış bilgi yaymak üzere tasarlanmış veya yanlış bilgi içeren içerik) simüle etmek için, gerçek dünya referansları kullanılmadı. Bunun yerine, örneklerin ilk taslakları, bir geleneksel tık-bait/SEO jeneratörü ile oluşturuldu ve ardından GPT-5 Nano’ya verildi, bu, belirli sayıda gerçeğin yanlış ancak inandırıcı alternatiflerle değiştirilmesini görevlendirdi. GPT-5 Nano ayrıca deneysel bağlam için anlamsal yeniden sıralama gerçekleştirdi.

AI doygunluğunu zaman içinde simüle etmek için, bir sentetik belge her sorgu için sabit on orijinal belge kümesine eklendi, AI payını %0’dan %66,7’ye çıkaran 20 turda bir kirlenme işlemi çalıştırıldı.

SEO tarzı havuzu için, jeneratör, ‘SEO uzmanını taklit et’ ve orijinal belgelerden yüksek-IDF anahtar kelimelerini entegre ederek geri çağırma olasılığını artırmak için yönlendirildi.

Düşmanca havuz için,.prompt, akıcı, doğal görünen nesirleri korurken, adlandırılmış varlıkları ve sayısal ayrıntıları değiştirmek üzere tasarlandı, bu da istatistiksel filtreleri tetiklemeyen, ancak sessizce gerçeklik doğruluğunu erozyona uğratan belgeler oluşturdu.

Metrikler

Üç metrik, deneyler için benimsendi: Havuz Kirlenme Oranı (HKO), tüm belge havuzunun ne kadarının AI tarafından oluşturulduğunu belirlemek için; Maruz Kalma Kirlenme Oranı (MKO), arama sonuçlarının ilk onuna giren AI kaynaklı içerik miktarını ölçmek için (geri çağırma boru hattına giren içeriği gösteren); ve Alıntı Kirlenme Oranı (AKO), nihai cevabın dayandığı kanıtların ne kadarının sentetik olduğunu kaydetmek için.

Pratik etkisini incelemek için, hem alınan kaynakların kalitesi hem de nihai cevabın bütünlüğü test edildi. Doğruluk@10 (D@10) ilk on sonuçtan kaçının MS MARCO temel gerçeğine karşı kontrol edildiğinde gerçekten doğru olduğunu yakaladı; ve Cevap Doğruluğu (CD) oluşturulan cevabın aynı referans cevabına karşılık olup olmadığını ölçtü, GPT-5 Mini’nin anlamın tutarlı olup olmadığını belirlemek için kullanıldı.

Testler

İlk olarak, araştırmacılar yöntemlerini, sentetik veri oluşturulmadan önce kullanılan orijinal belge havuzuna karşı test etti ve LLM sıralayıcının ‘güçlü geri çağırma kalitesi’ elde ettiğini, BM25 Sıralayıcı temelini aşarak belirttiler.

İki ana senaryo testinin ilki, Baskın ve Homojenleşme olarak adlandırıldı ve SEO şekilli sentetik belgelerin geri çağırma sonuçlarını nasıl etkilediğini inceledi:

Sol: kirlenme eğrileri Senaryo 1 için BM25 ve LLM sıralayıcılar altında, Havuz Kirlenme Oranının (HKO) turdan tura yükseldiğini, Maruz Kalma Kirlenme Oranının (MKO) ve Alıntı Kirlenme Oranının (AKO) sentetik belgeler ilk sonuçlara girerken daha dik bir şekilde arttığını, Cevap Doğruluğunun (CD) genel olarak kararlı kaldığını gösterir. Sağ, aynı ilerlemeyi BM25 ve LLM sıralayıcılar için numaralarla sunan tablo.

Daha fazla AI tarafından oluşturulan sayfa test ortamına eklendikçe, bunlar beklenenden daha hızlı bir şekilde ilk arama sonuçlarını domine etmeye başladı. AI içeriği tüm mevcut belgelerin %50’sini oluşturduğunda, BM25’in ilk on resultadosunun %68’den fazlası zaten AI tarafından oluşturulmuştu; ve AI materyalinin payı %67’ye çıktığında, ilk sonuçlarının %80’den fazlası AI kaynaklıydı.

LLM tabanlı sıralayıcı, bu yöndeki eğilimini daha güçlü bir şekilde gösterdi, AI tarafından oluşturulan sayfaların yaklaşık %76’sı, bu sayfaların genel havuzun sadece yarısını oluşturduğu zaman ilk sonuçlarına çekildi – ve AI tarafından oluşturulan sayfaların varlığı arttıkça onlara daha fazla güvendi.
Araştırmacılar, bu kalıbın ‘her iki modelin de sentetik kanıtlara hızla yaklaştığını’ ve ‘SEO optimize edilmiş içeriğin sıralama sinyallerini orantısız bir şekilde aktive ettiğini’ belirttiler.
Gerçeklik istikrarı ve çeşitlilik çökmesi arasındaki gerilime ilişkin olarak, makale, ‘dramatik’ değişikliklere rağmen Cevap Doğruluğunun kararlı kaldığını veya hatta iyileştiğini belirtir:

‘Çünkü SEO belgeleri yüksek kalitede ve konuya uygun, geri çağırma görünüşte sağlıklı. Ancak, neredeyse tüm alınan kanıt sentetiktir, bu da kaynak çeşitliliğinde ciddi bir çöküşü gösterir.

‘Bu ayrılık, karakterizedir, kararlı doğruluk rağmen, çeşitlilik çöküşü ile: sistem topluca iyi performans gösterirken, sessizce insan tarafından yazılmış içerikten kopuyor.

‘Genel olarak, yüksek kaliteli sentetik içerik, sadece geri çağırma boru hatlarına sorunsuz bir şekilde entegre olmakla kalmaz, aynı zamanda sıralama sinyallerini aktif olarak ezerek, her iki BM25 ve LLM Sıralayıcıların neredeyse yalnızca AI tarafından oluşturulan kanıtlara güvenmesine neden olur.’

İkinci senaryo, Kirlenme ve Sistem Kusuru olarak adlandırıldı ve ilk senaryoya kıyasla sıralayıcı davranışında önemli bir ayrılık gösterdi:

Sol, Senaryo 2 sonuçları, kasıtlı olarak yanlış bilgi içeren sayfaların sisteme eklendiğinde neler olduğu gösterir. Daha fazla böyle sayfalar eklendikçe, BM25 bazılarını ilk sonuçlarına koyar – ancak sadece yaklaşık çeyrek oranında ve几乎 hiçbiri nihai cevaba gerçekten kullanılmaz. Genel cevap kalitesi slightly düşer. Sağ, aynı kalıpyı BM25 ve LLM sıralayıcılar için numaralarla sunan tablo.

LLM tabanlı sıralayıcı, kasıtlı olarak yanlış bilgi içeren sayfaları tanımlama ve filtreleme konusunda genel olarak başarılı oldu, bu tür içeriğin payını ilk sonuçlarında neredeyse sıfıra indirgedi; ancak BM25, bazı düşmanca sayfaların ilk on resultadosuna girmesine izin verdi, belirli aşamalarda yaklaşık %19 ile %24 arasında değişen oranlarda.
Araştırmacılar, LLM tabanlı sıralama sistemlerinin daha fazla hesaplama gücü gerektirdiğini ve bu nedenle büyük ölçekli dağıtımın pratik olmayabileceğini belirttiler. BM25 daha basit ve daha ucuzken, yaygın olarak kullanılan geri çağırma sistemleri, düşmanca içeriğe karşı daha açık olabilir.
Araştırmacılar, bu durumun ‘önemli bir yapısal risk’ olduğunu karakterize etti.
Görünür istikrar ve temel bozulma arasındaki karşıtlıkla ilgili olarak, araştırmacılar, AA’nın nispeten kararlı kalmasının, LLM yargıcının alıntı kirlenmesini bastırması ve bu nedenle son anda düşmanca içeriğe karşı bir tür yangın duvarı gibi davranması nedeniyle olduğunu belirttiler.

Ancak, Cevap Doğruluğu bu方面te ilk senaryodan daha düşük oldu:

‘Senaryo 1’de AA, SEO içeriğinin yüksek kalitesi nedeniyle korunmuş veya hatta iyileşmiştir (LLM Sıralayıcılar ile %70’e kadar ulaşmıştır). Senaryo 2’de, AA, SEO ayarlarına kıyasla düşüktür […]

‘Bu, düşmanca kirlenmenin, geri çağırma aşamasında, özellikle hafif geri çağırıcılar kullanıldığında, sonuçta performansı olumsuz yönde etkilediğini doğrular. ‘

Araştırmacılar, geri çağırma aşamasında yeniden sıralamanın слишком geç bir yaklaşım olduğunu ve ‘alma aşamasında’ filtrelerin dikkate alınması gerektiğini önerirler, ‘köken grafikleri’ ve ‘perpleksite filtreleri’ nin kullanılabileceğini öne sürerler.

Sonuçta, temel tehdidin, yüksek akıcılığa sahip ancak düşük atıf yoğunluğuna sahip, esasen güvenilir zincirlerden kopmuş içerik olduğunu vurgularlar ve gözlemirler:

‘[İçerik] Agentic AI tarafından otomatik olarak yayımlanmaya başladığında, savunma mekanizmaları, statik metin analizinden davranışsal parmak izleme yöntemlerine evrimleşmelidir, yüksek entropi, düşük gerçeklik akışlarını üretmek için sistematik olarak çalışan ajanları tanımlamak ve izole etmek için.’

Sonuç

Bilgi kökeni için yeni veya geliştirilmiş metodolojilerin kurulması, 2026’nın en kritik gereksinimlerinden biri olabilir. Karmaşık kimlik şemaları gibi C2PA, yayıncılar için altyapı değişiklikleri gerektirir ve bunların ne anlama geldiğini, nasıl veya neden kullanılacağını açıklamak için kamu eğitimi gerektirir, görünüşe göre başarısızlığa mahkûmdur.

Daha basit bir şey gerekli ve henüz bulunmadı. Bu, acil bir görevdir, çünkü bu çağ, gerçeklik konusunda kamu uzlaşması için 1822’de fotoğrafın icadından ve II. Dünya Savaşı öncesindeki on yıllarda propaganda yükselişinden bu yana en kritik dönemeç olabilir.

* Yazarların satır içi alıntılarını, gerektiğinde seçici olarak, hiperlinklere dönüştürme işim.

İlk olarak 19 Şubat 2026 Perşembe günü yayımlandı.

Related Topics:Advanced LLMs Large Language Models (LLMs)model collapse