Refresh

This website www.unite.ai/tr/yapay-zeka-taraf%C4%B1ndan-%C3%BCretilen-dil%2C-bilimsel-literat%C3%BCr%C3%BC-kirletmeye-ba%C5%9Fl%C4%B1yor/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

saplama Yapay Zeka Tarafından Oluşturulan Dil, Bilimsel Literatürü Kirletmeye Başlıyor - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

Yapay Zeka Tarafından Oluşturulan Dil, Bilimsel Literatürü Kirletmeye Başlıyor

mm
Güncellenmiş on

Fransa ve Rusya'dan araştırmacılar, GPT-3 gibi yapay zeka güdümlü olasılıksal metin oluşturucuların kullanımının 'işkence edilmiş dil', var olmayan literatürden alıntılar ve ad hoc, itibarsız görüntülerin daha önce saygın kanallara yeniden kullanımını getirdiğini gösteren bir çalışma yayınladılar. yeni bilimsel literatürün yayınlanması.

Belki de en endişe verici olan, incelenen makalelerin nesnel ve sistematik araştırmanın meyveleri olarak sunulan bilimsel olarak yanlış veya tekrarlanamayan içerik içermesidir; ama aslında işin gerektirdiği zor işi yapmak (ve her zaman bunu kötü yapmak).

The raporbaşlıklı İşkence gören ifadeler: Bilimde ortaya çıkan şüpheli bir yazı stili, Toulouse Üniversitesi Bilgisayar Bilimleri Bölümü'nden araştırmacılar ve şu anda Tel Aviv Üniversitesi'nde Yandex araştırmacısı Alexander Magazinov tarafından derlendi.

Çalışma, özellikle Elsevier Journal'da yapay zeka tarafından üretilen saçma sapan bilimsel yayınların büyümesine odaklanıyor. Mikroişlemciler ve Mikrosistemler.

Başka Adlara Göre

GPT-3 gibi otoregresif dil modelleri, yüksek hacimli veriler üzerinde eğitilir ve orijinali korurken doğal konuşma ve yazma kalıplarını yeniden üretebilen uyumlu üretken dil modellerine katkıda bulunan verileri başka sözcüklerle ifade etmek, özetlemek, harmanlamak ve yorumlamak üzere tasarlanmıştır. eğitim verilerinin amacı.

Bu tür çerçeveler, orijinal verilerin doğrudan ve 'özümsenmemiş' bir şekilde geri getirilmesini sunduğu için model eğitim aşamasında sıklıkla cezalandırıldığından, kaçınılmaz olarak eşanlamlı sözcükler ararlar – yerleşik ifadeler için bile.

Araştırmacılar tarafından ortaya çıkarılan yapay zeka tarafından yaratılmış/desteklenmiş gibi görünen bilimsel sunumlar, bilinen ifadeler için yaratıcı eşanlamlılara yönelik olağanüstü sayıda başarısız girişim içeriyor. makine öğrenme sektör:

derin sinir ağı: 'derin sinirsel organizasyon'
yapay sinir ağık: '(sahte | sahte) sinirsel organizasyon'
mobil ağ: 'çok yönlü organizasyon'
ağ saldırısı: 'organizasyon (pusu | saldırı)'
ağ bağlantısı: 'organizasyon derneği'
Büyük veri: '(muazzam | devasa | muazzam | muazzam) bilgi'
Veri deposu: "bilgi (depo | dağıtım merkezi)"
yapay zeka (AI): "(sahte | insan yapımı) bilinç"
yüksek performanslı bilgi işlem: 'seçkin figür'
sis/pus/bulut bilgi işlem: 'puslu şekil'
grafik işlem birimi (GPU): 'tasarım hazırlama birimi'
Merkezi İşlem Birimi (CPU): 'odak hazırlama birimi'
iş akışı motoru: 'iş süreci motoru'
yüz tanıma: 'yüz tanıma'
ses tanıma: 'söylem onayı'
ortalama kare hatası: "ortalama kare (hata | gaf)"
mutlak hata demek: "ortalama (kesinlikle | yüce) (hata | gaf)"
gürültü sinyali: '(hareket | bayrak | gösterge | işaret | sinyal) ila (yaygara | kargaşa | gürültü)'
genel parametreler: "dünya çapında parametreler"
rasgele erişim: '(keyfi | düzensiz) geçiş hakkını elde et'
rastgele orman: "(keyfi | düzensiz) (ormanlık | ormanlık alan | yemyeşil bölge)'
rastgele değer: "(keyfi | düzensiz) saygı"
karınca kolonisi: "yeraltı böceği (eyalet | il | alan | bölge | yerleşim)"
karınca kolonisi: "yeraltı tüyler ürpertici sürüngen (eyalet | il | alan | bölge | yerleşim yeri)"
kalan enerji: 'artık canlılık'
kinetik enerji: "motor canlılığı"
naif bayanlar: "(inanılmaz | masum | saf) Bayes"
kişisel dijital asistan (PDA): 'bireysel bilgisayarlı işbirlikçi'

Mayıs 2021'de araştırmacılar boyutlar Bu tür karışık, otomatikleştirilmiş bir dil arayan akademik arama motoru, 'muazzam bilgi' (geçerli bir ifadedir ve 'büyük veri' için başarısız bir eşanlamlı değildir) gibi meşru ifadeleri hariç tutmaya özen gösterir. Bu noktada şunu gözlemlediler: Mikroişlemciler ve Mikrosistemler en çok yanlış kullanılan başka sözcüklerle ifade etme olaylarının olduğu yer.

Şu anda, hala mümkün geri almak (arşiv anlık görüntüsü, 15/07/2021) 'derin nöral organizasyon' (yani 'derin nöral ağ') saçma ifadesiyle ilgili bir dizi bilimsel makale ve yukarıdaki listedeki diğerleri benzer isabetler veriyor.

Dimensions'ta "derin nöral organizasyon" ("derin nöral ağ") için arama sonuçları. Kaynak: https://app.dimensions.ai/

Dimensions'ta "derin nöral organizasyon" ("derin nöral ağ") için arama sonuçları. Kaynak: https://app.dimensions.ai/

The Mikroişlemciler dergi 1976'da kuruldu ve adını şu şekilde değiştirdi: Mikroişlemciler ve Mikrosistemler iki yıl sonra.

Saçma Dilin Büyümesi

Araştırmacılar, Şubat 2018'den Haziran 2021'e kadar olan bir dönemi incelediler ve son iki yılda, özellikle de son 6-8 ayda başvuru hacminde büyük bir artış gözlemlediler:

Korelasyon mu yoksa nedensellik mi? Microprocessors and Microsystems dergisine yapılan gönderilerdeki artış, görünüşte saygın gönderilerdeki 'saçma' metin ve eşanlamlıların büyümesiyle aynı zamana denk geliyor gibi görünüyor. Kaynak: https://arxiv.org/pdf/2107.06751.pdf

Korelasyon mu yoksa nedensellik mi? Microprocessors and Microsystems dergisine yapılan gönderilerdeki artış, görünüşte saygın gönderilerdeki 'saçma' metin ve eşanlamlıların büyümesiyle aynı zamana denk geliyor gibi görünüyor. Kaynak: https://arxiv.org/pdf/2107.06751.pdf

Ortak çalışanlar tarafından toplanan nihai veri seti, Toulouse Üniversitesi'nin Elsevier aboneliği aracılığıyla elde edilen 1,078 tam uzunlukta makaleyi içeriyor.

Çin Bilimsel Makaleleri İçin Azalan Editöryel Gözetim

Makale, işaretlenen başvuruların editoryal değerlendirmesi için ayrılan sürenin 2021'de radikal bir şekilde kısaldığını ve 40 günün altına düştüğünü gözlemliyor; Şubat 2021'den itibaren akran değerlendirmesi için standart sürenin altı kat azalması.

İşaretlenen makalelerin çoğu, anakara Çin ile bağlantılı yazarlardan gelmektedir: 404 günden kısa sürede kabul edilen 30 makalenin %97.5'i Çin ile ilgilidir. Tersine, redaksiyon sürecinin 40 günü aştığı durumlarda (615 makale), Çin bağlantılı gönderimler bu kategorinin yalnızca %9.5'ini temsil ediyordu - on kat dengesizlik.

Rapor, işaretli makalelerin sızmasını redaksiyon sürecindeki eksikliklere ve artan sayıda sunum karşısında olası kaynak eksikliğine bağlıyor.

Araştırmacılar, işaretli makalelerdeki metnin çoğunu üretmek için GPT tarzı üretici modellerin ve benzer türde dil oluşturma çerçevelerinin kullanıldığını varsayıyorlar; ancak, üretken bir modelin kaynaklarını soyutlama biçimi bunu kanıtlamayı zorlaştırır ve başlıca kanıt, zayıf ve gereksiz eşanlamlıların sağduyuyla değerlendirilmesinde ve sunumun mantıksal tutarlılığının titiz bir incelemesinde yatar.

Araştırmacılar ayrıca, bu saçmalık seline katkıda bulunduğuna inandıkları üretici dil modellerinin, yalnızca sorunlu metinleri yaratmakla kalmayıp, aynı zamanda araştırmacıların kendilerinin yürüttüğü şekilde, onları tanıyıp sistematik olarak işaretleme yeteneğine de sahip olduğunu gözlemliyorlar. manuel olarak. Çalışma, GPT-2 kullanarak böyle bir uygulamayı detaylandırıyor ve sorunlu bilimsel sunumları belirlemek için gelecekteki sistemler için bir çerçeve sunuyor.

Elsevier dergisinde 'kirletilmiş' gönderilerin insidansı (%72.1), incelenen diğer dergilere kıyasla (maksimum %13.6) çok daha yüksektir.

Sadece Semantik Değil

Araştırmacılar, söz konusu dergilerin birçoğunun yalnızca yanlış dili kullanmadığını, bilimsel olarak yanlış ifadeler içerdiğini vurgulayarak, üretken dil modellerinin yalnızca katkıda bulunan bilim adamlarının sınırlı dil becerilerini geliştirmek için kullanılmadığını, hatta gerçekten kullanılabileceğini gösteriyor. makaledeki temel teoremlerin ve verilerin en azından bazılarını formüle etmek için kullanılıyor.

Diğer durumlarda araştırmacılar, "yayınla ya da yok ol" akademik araştırma kültürlerinin baskısını karşılamak ve muhtemelen küresel ön araştırma için ulusal sıralamaları iyileştirmek amacıyla, soyutlanmış (ve üstün) önceki çalışmaların etkili bir "yeniden sentezini" veya "döndürmesini" varsayarlar. yapay zeka araştırmasında saygınlık, tam hacim sayesinde.

Gönderilen bir makaledeki anlamsız içerik. Bu durumda, araştırmacılar metnin ad hoc olarak bir EDN makalesinden türetildiğini ve beraberindeki resmin de atıf yapılmadan çalındığını keşfettiler. Orijinal içeriğin yeniden yazılması, onu anlamsız kılacak kadar aşırıdır.

Gönderilen bir makaledeki anlamsız içerik. Bu durumda, araştırmacılar metnin ad hoc olarak bir kaynaktan türetildiğini bulmuşlardır. EDN makalesi, eşlik eden çizimin de atıfta bulunulmadan çalındığı yer. Orijinal içeriğin yeniden yazılması, onu anlamsız kılacak kadar aşırıdır.

Gönderilen Elsevier makalelerinden birkaçını inceleyen araştırmacılar, herhangi bir anlam çıkaramadıkları cümleler buldular; var olmayan literatüre referanslar; destekleyici materyalde gerçekte yer almayan formüllerdeki değişkenlere ve teoremlere yapılan atıflar (dile dayalı soyutlamayı düşündüren veya 'sanrı' görünüşte olgusal veriler); ve görüntülerin kaynakları belirtilmeden yeniden kullanılması (araştırmacılar bunu telif hakkı açısından değil, yetersiz bilimsel titizliğin bir göstergesi olarak eleştiriyor).

Atıf Hataları

Bilimsel bir makaledeki argümanları desteklemeyi amaçlayan alıntıların, işaretlenen örneklerin çoğunda 'ya bozuk veya ilgisiz yayınlara yol açtığı' bulundu.

Ek olarak, 'ilgili çalışmaya' yapılan atıflar, görünüşe göre, araştırmacıların GPT tarzı bir sistem tarafından 'halüsinasyon gördüğüne' inandıkları yazarları da içeriyor.

dikkat dağınıklığı

GPT-3 gibi en son teknolojiye sahip dil ​​modellerinin bile bir başka eksikliği, uzun bir konuşma üzerinde odaklarını kaybetme eğilimleridir. Araştırmacılar, işaretli makalelerin genellikle makalenin başlarında bir konuyu gündeme getirdiğini ve aslında ön notlarda veya başka bir yerde başlangıçta ele alındıktan sonra asla geri dönülmediğini keşfettiler.

Ayrıca, en kötü örneklerden bazılarının, her biri anlamı daha da bozan bir dizi çeviri motoru aracılığıyla kaynak metnin birden çok yolculuğundan kaynaklandığını da teorize ediyorlar.

Kaynaklar ve Nedenler

Makalenin yazarları, bu fenomenin arkasında ne olduğunu anlamaya çalışırken bir dizi olasılık öne sürüyor: kağıt fabrikaları kaçınılmaz olarak daha fazla yanlışlığa yol açacak bir süreçte çok erken yanlışlıklar getirerek kaynak malzeme olarak kullanılıyor; Spinbot gibi makale döndürme araçlarının intihali maskelemek için kullanıldığını; ve düzenli olarak yayınlamaya yönelik ezici baskının, kaynakları yetersiz araştırmacıları yeni akademik makaleleri çoğaltmak veya tamamen oluşturmak için GPT-3 tarzı sistemler kullanmaya yönelttiği.

Araştırmacılar, görünüşe göre kendi konusu olan makine öğrenimi sistemleri için yem haline geldiğini kanıtlayan bir akademik yayıncılık alanında daha fazla gözetim ve gelişmiş standartlar için bir eylem çağrısı ile kapanışı yapıyor. Ayrıca, Elsevier ve diğer yayıncılara daha titiz tarama ve inceleme prosedürleri uygulamalarını ve bu bağlamda mevcut standartları ve uygulamaları geniş çapta eleştirmelerini tavsiye ederek, "Sentetik metinlerle yapılan aldatma bilimsel literatürün bütünlüğünü tehdit etmektedir.'