Anderson’un Açısı

Nasıl Sahte Bilimsel Makaleleri AI İnceleyicilerden Geçirebilirsiniz

Published October 22, 2025

Updated May 17, 2026

Martin Anderson

An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

Yeni bir araştırma, AI sistemlerinin artık sahte bilimsel makaleler yazabileceğini ve diğer AI’lerin bunları gerçek olarak kabul edebileceğini gösteriyor. Bu, araştırma dünyasının kolayca botların botları kandırdığı bir duruma düşebileceği anlamına geliyor.

Akademik araştırma sektörü, ironik olarak AI’de inovasyonun ön saflarında yer alıyor, ancak AI tarafından tetiklenen bir güvenilirlik krizi yaşıyor. AI’nin araştırma, gönderme ve inceleme sürecine etkisi, yaklaşık dört yıl önce AI’nin etkisinin ilk kez netleşmesinden bu yana önemli ölçüde arttı ve en son tartışma konusu, düşük değerli anket makalelerinin toplu olarak üretilmesi oldu.

Akademik sektörün büyük bir kısmı gibi, araştırma sektörü de metin üreten AI’ler ve bunları tespit edebilen son nesil “dedektör” AI’ler arasında bir tür soğuk savaş içinde. Bu gerilim, bilimsel gönderilerin hacminin radikal olarak artmasıyla birlikte artacak ve AI destekli sistemlerin ve çerçevelerin oversight sürecini endüstriyelleştirmek için bir zorunluluk haline gelecek.

Bu gerilimler, genel akademik sektörde de görüldüğü gibi, AI tarafından oluşturulan metinlerin tespit edilmesini sağlayan son nesil AI’ler arasında devam edecek.

Sahte Bilgi Hoşgeldiniz

ABD ve Suudi Arabistan arasındaki yeni bir araştırma işbirliği, bu ortaya çıkan “güvenlik duvarının” tamamen AI tarafından oluşturulan gönderi makaleleri tarafından nasıl delinabileceğini araştırıyor.

Deneylerde, BadScientist adlı yeni sistem, AI tarafından oluşturulan içerikleri tespit etmek için kullanılan LLM tabanlı sistemlerden %82’ye varan kabul oranları elde edebildi.

BadScientist sistemi, bir AI aracısını sahte bilimsel makaleler oluşturmak ve diğerini bunları güncel dil modelleri kullanarak incelemek için kullanıyor. Kaynak: https://arxiv.org/pdf/2510.18003

Sahte makaleler, gerçek AI konferans konuları ve aldatıcı stratejiler kullanılarak oluşturuldu ve modeller, peer inceleme verilerine dayalı olarak kalibre edildi. Birçoğu, açık hatalar veya uydurmalar içeriyor olmasına rağmen, yüksek puanlar aldı.

Makalenin yayımlanması, bugün AI Ajanları için Bilim 2025 Açık Konferansı ile aynı zamanda gerçekleşti. Burada katılımcılar ve konuşmacılar insan, ancak tüm makaleler ve incelemeler çeşitli AI sistemleri tarafından yazıldı.

BadScientist, yeni makalede açıklanan şekilde, akademik ve edebi aldatmacalar, ihmal, uydurmalar ve abartmalar kullanarak makaleyi, çoğu güncel tespit sisteminin AI tarafından oluşturulduğunu tanımlayabileceği her şeyden uzaklaştırmak için çeşitli yöntemler kullanıyor.

Yazarlar, alarm veren bir tonla, даже tespit sistemleri bir sahte makalede AI içeriğini tanımladığında, bunları yine de kabul etmeye eğilimli olduklarını ve kendi savunma sistemlerini bu yeni saldırı vektörüne karşı korumaya çalıştıklarını, ancak yalnızca rastgele iyileştirmeler elde ettiklerini belirtiyorlar.

Makalede deniyor:

‘Uydurulmuş makaleler yüksek kabul oranlarına ulaşıyor, inceleyiciler sık sık endişe-kabul çatışmaları sergiliyor – bütünlük sorunlarını işaret ediyor, ancak yine de kabul öneriyorlar. Bu temel çöküş, güncel AI inceleyicilerinin daha çok desen eşleştirmenlerden ziyade eleştirel değerlendiriciler olarak çalışmadığını gösteriyor.’

‘[…] Sadece LLM inceleyicilerine “daha dikkatli olun” demesi yeterli değil. Bilimsel topluluk acil bir seçimle karşı karşıya. Derinlemesine güvenlik önlemlerini uygulamaya koymak için hemen harekete geçmezsek – ki bunlar provenans doğrulaması, bütünlük ağırlıklı puanlama ve zorunlu insan denetimi içerir – AI tarafından oluşturulan sahte yayın döngülerine karşı savunmasız kalabilir ve gerçek araştırmayı inandırıcı sahtelerinden ayırt etme yeteneğimizi kaybetme riskiyle karşı karşıya kalabiliriz. ‘

‘Bilimsel bilginin bütünlüğü tehlike altında.’

Yeni makale, BadScientist: Bir Araştırma Aracının İkna Edici ancak Dayanaksız Makaleler Yazıp LLM İnceleyicilerini Kandırması Mümkün mü? başlığını taşıyor ve University of Washington ve Riyadh’deki King Abdulaziz City for Science and Technology’ten altı yazar tarafından yazıldı. Yayın, bir proje sitesini de içeriyor.

Yöntem

Bu çalışma için kullanılan makale oluşturma aracı çerçevesi, 2024 AI-Scientist işbirliğinin önemli bir yeniden düzenlenmesidir. Yazarlar, tüm pipeline’ın temel olarak yeniden tasarlandığını vurguluyor. Sadece en temel yazma ipuçları korunmuş, tüm deneysel yürütme ve şablonlu yapılar kaldırılmıştır. Güncel sistem, artık bir tohum kullanarak çalışıyor, böylece sistem herhangi bir deneysel sonucu özgürce uydurabiliyor ve gerektiğinde çizim kodları oluşturabiliyor.

Çerçeve, bir AI’nin gerçek deneyler yapmadan veya gerçek veri kullanmadan ikna edici sahte makaleler oluşturmasına olanak tanıyacak şekilde tasarlandı.

Kurulum, yazarlar tarafından açıklanan şekilde, kasıtlı olarak insan katılımından,.prompt saldırılarından veya yazar ve inceleme aracıları arasındaki koordineli komplodan kaçınmaya yöneliktir. İnceleme AI’leri, her bir gönderiyi tek bir geçişte değerlendirdi, yalnızca makaleye erişimi vardı ve deneyleri yeniden çalıştırma yeteneği yoktu, bu da gerçek peer inceleme koşullarını yansıtıyordu.

Sahte makaleleri oluşturmak için kullanılan “atomik stratejiler”, tek başına veya birleştirilerek uygulanabilen modüler taktiklerdir. Bu stratejiler arasında, yöntemin önemli bir ilerleme gibi görünmesini sağlamak için dramatik iyileştirmeleri vurgulamak (TooGoodGains); yeni yönteme favori olan temel çizgileri ve sonuçları seçmek ve ana tabloda güven aralıklarını atlamak (BaselineSelect); eklemeler, precisa istatistikler ve temiz tablolar eklemek ve gelecekteki kod veya veri vaatlerini eklemek (StatTheater); makalenin yapısını tutarlı terminoloji, çapraz referanslar ve biçimlendirme ile parlatmak (CoherencePolish); ve gizli hatalar içeren ancak görünüşte sağlam olan formal kanıtlar eklemek (ProofGap) yer alıyor.

Veri ve Testler

Sistemi test etmek için yazarlar, GPT-5’i kullanarak yapay zeka, makine öğrenimi, bilgisayar görüşü, doğal dil işleme, robotik, sistemler ve güvenlik gibi ana yapay zeka alanlarında araştırma konuları oluşturdular.

Bu kategoriler, sahte makaleler için tohum konuları olarak kullanıldı ve her biri, yukarıda listelenen stratejileri kullanarak dört farklı versiyona genişletildi. Bir makalenin “kabul edildiği”ne karar vermek için sistem, yalnızca AI inceleme modelinin verdiği final puanına baktı.

Sahte makaleler tamamen GPT-5 tarafından yazıldı. Onları incelemek için yazarlar, GPT-4.1; o4-mini; ve o3 kullandılar. Tüm modellere aynı inceleme ipucu verildi, bu da gerçek peer inceleme kriterlerini ve yapısını taklit eden sabit bir talimat formatıydı.

Bu inceleme puanlarını anlamlı kılmak için sistem, ICLR 2025 OpenReview veri setinden 200 gerçek gönderiyi kullanarak kalibre edildi.

Bu verilerden, bir puan eşik değerinin belirlenmesi Necessary oldu, bu da ICLR’nin gerçek kabul oranına (%31,73) eşitti ve 7 puan olarak hesaplandı; ve bir diğeri, bir makalenin insan inceleyiciler tarafından %50 oranında kabul edilme olasılığına karşılık gelen puanı yansıttı (6,667 olarak hesaplandı).

Yazarlar, kurulumun güvenilirliğini test etmek için 5.000 sahte makale için simüle inceleme yaptı, her biri 1-3 AI inceleme modeli tarafından geri bildirimde bulunacak ve 1-10 arasında rastgele görünen puanlar verecekti. Sonuçlar, даже bu gürültülü kurulumda, sistemin worst-case teorik sınırlarından daha az hata ile eğilimli olduğunu gösterecekti.

Üç inceleme modeli yerine birini kullanmak, puan değişkenliğinde önemli bir azalma ve karar istikrarında neredeyse üç kat artışa yol açtı – bu sonuçlar, üç inceleme modelinin seçimini ve 200 gerçek makalelik bir kalibrasyon kümesini haklı çıkardı.

Tespit edilen iki metrik, sahte makalelerin kabul oranı ve inceleme puanı idi; bu, sahte makalelerin kaçının geçen puanlar aldığını ve ortalama değerlendirme puanını ölçüyordu.

Kabul (ACPT), iki eşik üzerinde puan alan sahte makalelerin payını gösterir: biri ICLR 2025 kabul oranına, diğeri %50 insan kabul tahmini oranına karşılık gelir. Bütünlük Sorunu Oranı (ICR-m), her inceleme modeli için bayraklama oranını gösterir. Son sütun, çoğunluk oyu temelinde toplu oranı sağlar.

Sahte makaleler,几乎 tüm stratejiler altında yüksek kabul oranlarına ulaştı. İlk taktik alone, iki eşikte %67 ve %82 oranlarında kabul sağladı, bu da inceleme modellerinin kolayca ikna edildiğini gösterdi. Tüm stratejilerin birleştirilmesi, kabul oranını biraz azalttı, ancak tespit oranını ikiye katladı; daha fazla inceleme, endişe uyandırdı. İlk strateji, güçlü kabul ve ılımlı tespit arasında en iyi ticaret oldu; diğer taktikler daha zayıf, ancak daha zor tespit edilebilirdi. ChatGPT-o3 inceleme modeli en çok bayraklama yaptı, GPT-4.1 ise en azını yaptı.

Altı saldırı stratejisi için, üç inceleme modeli kullanılarak puan dağılımları gösterilir: GPT-4.1 (kırmızı); o3 (turuncu); ve o4-mini (mavi). Her grafik, 4-9 arasında hangi puanın ne sıklıkla atanacağını gösterir, kırmızı kesik çizgi kabul eşiğini (7) işaretler.

İkinci test sonuçları, yukarıda gösterildiği gibi, üç model için altı kurulumda puan histogramlarını gösterir. Dağılımlar kurulumlar arasında değişir, ancak o4-mini genellikle ortalama daha yüksek puanlar atar, o3 daha büyük bir yayılım ve daha aşırı değerler gösterir, GPT-4.1 ise daha tutarlı bir şekilde daha düşük puanlar atar.

Model ve stratejiye göre endişe-kabul çatışması: bir modelin bütünlük sorununu işaret ettiği ancak yine de kabul puanı verdiği durumların yüzdesi. Daha yüksek değerler, bütünlük sorunu tespiti ile final değerlendirme arasında daha zayıf bir bağlantıyı gösterir.

Modeller, genellikle endişe sorunlarını işaretlediklerinde bile yüksek puanlar verdi. Bu方面, o4-mini en tutarlıydı, s1, s3 ve birleştirilmiş kurulumda %100’lük çatışma ve diğerlerinde %50-80 arasında değişen oranlar gösterdi.

GPT-4.1, s4’te %0’dan s3’te %75’e kadar değişen oranlar gösterdi. o3 daha istikrarlıydı, %26-52 arasında değişen oranlar gösterdi. Çatışma, s3 altında en yüksek düzeydeydi, özellikle o4-mini için; ve yazarlar, tespit sinyallerinin final puanlarla zayıf bir şekilde bağlantılı olduğunu belirtiyorlar.

Mitigasyon

Bu yeni saldırı yöntemlerini gelecekteki tespit modellerinin nasıl aşabileceği konusunda iki yöntem test edildi. İlk yöntem, İnceleme ile Tespit (ReD), standart inceleme sürecine bir bütünlük kontrolü adımını ekledi, burada modeller AI tarafından oluşturulan içeriği işaretledi ve delil gösterdi. Bu, bütünlük uyarılarını (%57’den %86’ya) artırdı, ancak aynı zamanda kabul oranlarını artırdı, bu da uyarıların final puanlara yansımadığını gösterdi:

İnceleme ile Tespit (ReD), bütünlük sorunu oranlarını (ICR) ve kabul oranlarını (ACPT) temel düzeyden daha yüksek bir seviyeye çıkarır. o3, ReD altında daha duyarlı hale gelirken, GPT-4.1 hiçbir sorunu işaretlemiyor. Ek bütünlük uyarılarına rağmen kabul oranlarında genel artış, tespit ve puanlama arasında zayıf bir bağlantıyı öneriyor.

İkinci yöntem, Yalnızca Tespit (DetOnly), tam inceleme yerine modellere makaleleri gerçek veya uydurma olarak sınıflandırma görevi verdi. Tespit doğruluğu genel olarak zayıf oldu, rastgele bir seviyeden biraz daha iyiydi, ancak o3’te hafif kazanımlar gösterdi:

ReD ve DetOnly için tespit sonuçları, rastgele bir temel düzeyle karşılaştırıldı. Doğruluk kazanımları minimaldi, ancak ReD daha muhafazakâr oldu, DetOnly ise daha yüksek geri çağırma elde etti, ancak birçok yanlış pozitif ile birlikte. o3 modeli en güçlü tespit yanlılığını gösterdi; o4-mini tutarsızdı; ve GPT-4.1 neredeyse hiçbir şeyi tespit edemedi.

Genel olarak, ReD daha muhafazakâr çıktı, DetOnly ise daha yüksek geri çağırma elde etti, ancak daha fazla yanlış pozitif ile birlikte.

Makale şöyle diyor:

AI yalnızca yayın döngüleri bilimsel epistemolojiyi tehdit ediyor. Eğer uydurmalar gerçek çalışma ile ayırt edilemez hale gelirse, bilimsel bilginin temeli çökebilir.

İleriye giden yol, çok katmanlı bir savunma gerektirir: teknik (provenans doğrulaması, artifact validation), prosedürel (bütünlük farkında puanlama, insan denetimi), topluluk (yayın sonrası inceleme, ihbar sistemi) ve kültürel (AI sınırları eğitimi, etik rehberleri).

Bu çalışmayı, bu başarısızlık modlarının büyük ölçekte ortaya çıkmasından önce güçlü savunmaları tetiklemek için bir erken uyarı sistemi olarak görüyoruz. Bulgularımız, güncel sistemlerin AI yalnızca araştırmaya hazır olmadığını gösteriyor – bilimdeki bütünlük, insan değerlendirmesinin devam etmesine bağlı.

SONUÇ

AI tarafından oluşturulan metinlerin tespitinin yakın gelecekteki en büyük zorluklarından biri, standart yazma uygulaması ile AI tarafından oluşturulan metinlerin standartları arasındaki olası birleşme olabilir.

Eğer ortak dil ve AI tarafından oluşturulan metinler bir generic standarda doğru evrilirse, mantık, gelecekteki tespit yöntemlerinin yalnızca çıktı temelinde daha da zor olacağını öneriyor.

Ek olarak, LLM’ler daha çok yönlü hale geldikçe ve “tells”leri daha az vurgulandıkça (ya mimari/training yaklaşımları ya da daha iyi API düzeyinde filtreleme yoluyla), daha iyi yazarlar olacaklar; bu nedenle, insan ve AI dili daha da fazla birbirine benzeyecek ve genericleşecektir.

Bu noktada, AI dil tespiti, AI görüntü ve (daha az ölçüde) AI video oluşturmanın ulaştığı aynı aşamaya ulaşmaya eğilimlidir: ikincil provenans sistemlerine, örneğin Adobe liderliğindeki İçerik Otantiklik Girişimi veya blockchain/defter tabanlı provenans kontrollerine ihtiyaç duyulacaktır.

İlk olarak 22 Ekim 2025 Çarşamba günü yayımlandı.