Anderson’un Açısı

Yapay Zeka Tarihi Dili Taklit Etmekte Zorlanıyor

Published May 2, 2025

Updated April 3, 2026

Martin Anderson

Amerika Birleşik Devletleri ve Kanada’daki araştırmacılar arasında bir işbirliği, ChatGPT gibi büyük dil modellerinin (LLM’ler), geniş çaplı ön eğitim olmadan tarihi deyimleri yeniden üretmekte zorlandığını keşfetti – bu, çoğu akademik veya eğlence girişiminin ötesinde olan pahalı ve emek yoğun bir süreçtir ve bu nedenle, yapay zeka aracılığıyla Charles Dickens’ın son, bitmemiş romanını tamamlandırma gibi projeler pratikte imkansızdır.

Araştırmacılar, basit olarak 20. yüzyılın başlarından kalma nesir kullanarak metin oluşturma yöntemlerini keşfetmeye başladı ve daha sonra o döneme ait kitapların küçük bir koleksiyonunda ticari bir modeli ince ayarlamaya (fine-tuning) geçti.

Ayrıca, 1880 ile 1914 arasında yayımlanmış kitaplarla tamamen eğitilmiş ayrı bir modelin sonuçlarıyla karşılaştırdılar.

İlk testte, ChatGPT-4o’ya fin-de-siècle dilini taklit etmesini istemek, o döneme ait literatürde ince ayarlanmış daha küçük bir GPT2 tabanlı modelin sonuçlarından oldukça farklı sonuçlar üretti:

Gerçek bir tarihi metni tamamlamaya çalışırken, hatta iyi hazırlanmış bir ChatGPT-4o (alt sol) 'blog' moduna geri dönmekten ve istenen deyimi temsil edememektedir. Karşılaştırıldığında, ince ayarlanmış GPT2 modeli dil stilini iyi yakalar, ancak diğer yönlerden o kadar doğru değildir. Kaynak: https://arxiv.org/pdf/2505.00030

Gerçek bir tarihi metni tamamlamaya çalışırken (orta-üst), hatta iyi hazırlanmış bir ChatGPT-4o (alt sol) ‘blog’ moduna geri dönmekten ve istenen deyimi temsil edememektedir. Karşılaştırıldığında, ince ayarlanmış GPT2 modeli (alt sağ) dil stilini iyi yakalar, ancak diğer yönlerden o kadar doğru değildir. Kaynak: https://arxiv.org/pdf/2505.00030

İnce ayar, çıktıyı orijinal stile yaklaştırır, ancak insan okuyucular hala sık sık modern dil veya fikir izleri tespit edebiliyor, bu da özenle ayarlanmış modellerin bile çağdaş eğitim verilerinin etkisini yansıtmaya devam ettiğini gösteriyor.

Araştırmacılar, makine tarafından üretilen, idiyomatik olarak doğru tarihi metin veya diyalog oluşturmak için ekonomik kısa yolların olmadığını belirten hayal kırıklığına uğradılar. Ayrıca, zorluğun kendisinin yanlış konumlandırılmış olabileceğini varsayarlar:

‘Ayrıca, anakronizmin bir anlamda kaçınılmaz olabileceğini düşünmeliyiz. Geçmişi, tarihi modelleri talimatlarla eğittiğimiz şekilde veya çağdaş modelleri daha eski bir döneme ventriloquize öğreterek temsil ediyoruz, kimlik ve konuşma akıcılığı hedefleri arasında bir uzlaşma gerekli olabilir.

‘Aslında, 21. yüzyıldan bir soru soran ve 1914’ten bir cevaplayan arasında gerçek bir sohbet örneği yoktur. Böyle bir sohbeti yaratmaya çalışan araştırmacılar, yorumun her zaman şimdi ve geçmiş arasında bir müzakere içerdiğini düşünmelidir.’

Yeni çalışma yayımlandı ve adını Yapay Zeka Modelleri Anakronizmi Olmadan Geçmişi Temsil Edebilir mi? koydu ve bu çalışma Illinois Üniversitesi, British Columbia Üniversitesi ve Cornell Üniversitesi’nden üç araştırmacıdan oluşuyor.

Tam Bir Felaket

İlk olarak, üç parçalı bir araştırma yaklaşımında, yazarlar modern dil modellerinin basit bir şekilde tarihi dili taklit edebileceğini test etti. 1905 ile 1914 arasında yayımlanmış kitapların gerçek alıntılarını kullanarak, ChatGPT‑4o’ya bu pasajları aynı deyimle devam ettirmesini istediler.

Orijinal dönem metni:

‘Bu son durumda, her dakika yaklaşık beş veya altı dolar ekonomi sağlanır, çünkü bir dakika boyunca bir kişi veya manzara dinleniyorken yirmi yardadan fazla film sarılması gerekir. Böylece, sabit ve hareketli resimlerin pratik bir kombinasyonu elde edilir ve en sanatsal etkiler üretilir.

‘Ayrıca, iki sinematografu alternatif olarak çalıştırmak veya aynı anda kırmızı ve yeşil görüntüler projekte etmek ve doğal renkleri yeniden üretmek için soğuk ışığın anlık fotoğrafçılığa uygulanmasını sağlar, böylece insan gözü, temel renkleri aynı anda alışık olduğu şekilde, tüm fizyolojik yorgunluktan kurtulur. Anlık fotoğrafçılığa soğuk ışığın uygulanması hakkında bir kelime.’

Üretilen metnin amaçlanan tarihi stile uyup uymadığını değerlendirmek için, ve insanların bir metnin yazıldığı tarihi tahmin etmekte özellikle yetenekli olmadıklarının farkında olarak, araştırmacılar bir RoBERTa modelini, 1810’dan 2009’a kadar materyali kapsayan Tarihsel Amerikan İngilizcesi Korpusu‘ndan bir alt küme kullanarak yayımlanma tarihlerini tahmin etmek için ayarladılar.

RoBERTa sınıflandırıcı daha sonra, 1905 ile 1914 arasında yayımlanmış kitapların gerçek pasajlarıyla yönlendirilen ChatGPT‑4o tarafından üretilen devamı değerlendirmek için kullanıldı.

Sistem ipucu (yani, ChatGPT’ye görevi nasıl yaklaşacağına ilişkin bağlamsal talimatlar):

‘Göreviniz, erken 20. yüzyıldan kitapların pasajlarını tamamlamaktır. 1913’te yayımlanmış bir kitabın pasajı verilecektir. Bu pasajı aynı tarzda en az 200 kelimeyle devam ettirin. Sadece bu devamı sağlayın; ‘devamı burada:’ gibi çerçeveleyici yorumlar yapmayın.’

Hem tek atışlı ve 20 atışlı yönlendirmeye rağmen, ChatGPT-4o’nun çıktıları tutarlı olarak 21. yüzyıla ait bir stil kaydına kaydı.

Kağıdın verdiği örnek, ChatGPT-4o’nun blog benzeri bir girişiminin, gerçek dönem metnini fotoğrafçılık hakkında devam ettirmeye çalışması:

‘Anlık fotoğrafçılıkta soğuk ışığın kullanımı, görüntü yakalama yaklaşımını değiştirdi. Geleneksel olarak fotoğrafçılar, doğal ışığın veya flaş fotoğrafçılığının kabalığı ve değişkenliği veya sahnenin atmosferini veya yabani ve insan fotoğrafçılığında konuların doğal davranışını rahatsız edebilecek şekilde müdahaleci doğası ile mücadele etti.

‘Soğuk ışık, daha yumuşak ve daha dağınık doğası… renklerin ve dokuların daha doğal bir temsilini sağlar, bu genellikle sert yapay aydınlatma altında kaybolur.’

Gördüğümüz gibi, bu genel, Vikipedi tarzı metin, orijinal dönem metnine uymuyor ve aslında orijinal içeriğin devamı değil, bir alt konuya ilişkin soyut bir düşünceye giriyor.

Ekibin ayrıca GPT‑1914 adlı bir modeli test etti, bu model 1880 ile 1914 arasında yayımlanmış 26.5 milyar tokenlik literatürden sıfırdan eğitildi.

Çıktısı ChatGPT‑4o’dan daha az tutarlı olmasına rağmen, dönem stilinin daha tutarlıydı. Kağıdın verdiği tek örnek, yine gerçek dönem metninin fotoğrafçılık hakkındaki devamı:

‘İlkemin prensibi zaten açıklanmıştır (s. 4). Burada sadece, kolodyon ile kaplı kağıtlarda veya jelatin plakalarıyla yapılan çok hızlı fotoğrafların elde edilmesinde avantajlı bir şekilde uygulanabileceğini söyleyeceğiz.

‘Böyle durumlarda, pozlama en az bir saniyeyi aşmamalıdır; ancak resim geliştirme süresini yarım saniyeye indirmek istenirse, sıcaklık 20° C’nin altına düşmemelidir, aksi takdirde görüntü geliştirme sonrasında quá koyu olur; ayrıca, bu koşullar altında plaka duyarlılığını kaybeder.’

‘Ancak normal amaçlar için, genellikle sadece duyarlı yüzeyi düşük bir ısı derecesine maruz bırakmak ve özel önlemler almaktan başka bir şey gerekmez; yalnızca yüzeyi…’ [sic]

Gerçek ve orijinal materyalin oldukça karmaşık ve zor takip etmesi nedeniyle, GPT-1914’ün orijinalinden ne kadar doğru bir şekilde aldığını anlamak zor.

Ancak yazarlar, bu deneğin sonuçlarını analiz ettikten sonra, basit yönlendirmenin, büyük ön eğitimli bir modelin çağdaş önyargılarını aşmaya yetmediğini kếtülediler.

Öyleyse

Model çıktılarının ne kadar tarihi yazının gerçekçi bir taklidi olduğunu ölçmek için, araştırmacılar bir istatistiksel sınıflandırıcı kullandılar ve her metin örneğinin muhtemel yayımlanma tarihini tahmin ettiler. Ardından, sonuçları çekirdek yoğunluk plotu kullanarak görselleştirdiler, bu, modelin her geçişin tarihi zaman çizelgesinde nereye düştüğünü gösterir.

Gerçek ve üretilen metin için tahmini yayımlanma tarihleri, tarihi stili tanımaya eğitilmiş bir sınıflandırıcıya dayanarak (1905–1914 kaynak metinleri ile GPT‑4o ve GPT‑1914 tarafından üretilen devamı karşılaştırmaktadır).

İnce ayarlanmış RoBERTa modeli, bu görev için kullanılan, mükemmel değil, ancak genel stil eğilimlerini vurgulamak için yeterliydi. GPT‑1914 tarafından yazılan pasajlar, erken 20. yüzyılda toplanmış – orijinal kaynak materyaliyle benzer.

Öte yandan, ChatGPT-4o’nun çıktıları, yönlendirme örneklerinin sayısına bakılmaksızın, 21. yüzyıla ait yazılara benziyordu, bu da orijinal olarak eğitildiği verilere yansıyan bir durumdu.

Araştırmacılar, bu uyumsuzluğu Jensen-Shannon divergence kullanarak ölçtüler, bu, iki olasılık dağılımının ne kadar farklı olduğunu ölçen bir ölçüttür. GPT‑1914, gerçek tarihi metne göre 0.006’ya yakın bir puan alırken, ChatGPT‑4o’nun tek atışlı ve 20 atışlı çıktıları çok daha geniş açıklarla, sırasıyla 0.310 ve 0.350 puan aldı.

Yazarlar, bu bulguların, yönlendirme tek başına, hatta çoklu örneklerle bile, tarihi bir stili inandırıcı bir şekilde simüle etmekte güvenilir bir yol olmadığını gösterdiğini savunuyorlar.

Geçişin Tamamlanması

Kağıt, ince ayarın daha iyi bir sonuç üretip üretmeyeceğini araştırmaya devam ediyor, çünkü bu süreç, modelin kullanılabilir ağırlıklarını kullanıcı tarafından belirtilen verilerle ‘devam ettirerek’ eğitimini etkiler – bu, orijinal temel işlevini etkileyebilir, ancak belirli bir alanda performansı önemli ölçüde iyileştirebilir.

İlk ince ayar deneyinde, ekip GPT‑4o‑mini‘yi, 1905 ile 1914 arasında yayımlanmış kitapların yaklaşık iki bin geçiş çiftinden oluşan bir veri kümesiyle eğitti, amacını, küçük ölçekli bir ince ayarın modelin çıktısını daha tarihi bir stile kaydırıp kaydıramayacağını görmekti.

Aynı RoBERTa tabanlı sınıflandırıcı, daha önceki testlerde bir yargıç olarak görev yaptı, her bir çıktının stil ‘tarihini’ tahmin etmek için.

Araştırmacılar, bu yeni deneyde, ince ayarlanmış modelin, gerçek metinlerle uyumlu bir şekilde yazılmış metinler ürettiğini buldu. Stil sapması, Jensen-Shannon divergence tarafından ölçüldü, ve orijinal metinlere göre 0.002’ye düştü, genel olarak GPT‑1914 ile aynı düzeyde:

1905 ile 1914 arasında yayımlanmış kitapların stilini, GPT‑1914 ve GPT‑4o‑mini’nin ince ayarlanmış bir versiyonunun ne kadar iyi yakaladığını gösteren, gerçek ve üretilen metin için tahmini yayımlanma tarihleri.

Ancak araştırmacılar, bu ölçütün yalnızca tarihi stilin yüzey özelliklerini yakalayabileceğini, daha derin kavramsal veya olgu anachronizmlerini yakalayamayabileceğini uyarıyorlar.

‘Bu, çok duyarlı bir test değildir. Burada yargıç olarak kullanılan RoBERTa modeli, yalnızca bir tarih tahmini yapmak için eğitildi, otantik pasajları anakronistik olanlardan ayırt etmek için değil. Muhtemelen bu tahmini yapmak için kaba stil kanıtlarını kullanıyor. İnsan okuyucular veya daha büyük modeller, yüzeyde ‘dönem içinde’ görünen pasajlarda masih anakronistik içerik tespit edebilir.’

İnsan Dokunuşu

Son olarak, araştırmacılar, insan değerlendirmesi testleri yaptı, 1905 ile 1914 arasında yayımlanmış kitapların 250 el ile seçilen pasajını kullandılar ve bu metinlerin çoğunun bugün yazıldığından farklı bir şekilde yorumlanacağına dikkat çektiler:

‘Listemiz, örneğin o zamanlar Almanya’nın bir parçası olan Alsace hakkında bir ansiklopedi girişi ve beri-beri hakkında bir girişi (o zamanlar genellikle bir fungal hastalık olarak değil, bir besin eksikliği olarak açıklanıyordu) içeriyordu. Bu, olgu farklılıklarıdır, ancak aynı zamanda daha ince tutum, retorik veya hayal gücü farklılıkları gösteren pasajları da seçtik.

‘Örneğin, 20. yüzyılın başındaki Avrupalı olmayan yerlerin tanımları ırksal genelleştirmelere kayabilir. 1913’te yazılmış bir ay doğuşu tasviri, o zamanlar henüz ayın fotoğraflarını görmemiş olan zengin kromatik fenomenleri canlandırır.’

Araştırmacılar, her tarihi pasajın plausibly cevaplayabileceği kısa sorular oluşturdular, sonra GPT‑4o‑mini’yi bu soru-cevap çiftleriyle eğitti. Değerlendirmeyi güçlendirmek için, her seferinde test için farklı bir veri kümesini ayıran beş ayrı model versiyonunu eğittiler.

Sonra, varsayılan GPT-4o ve GPT-4o‑mini’nin yanı sıra ince ayarlanmış varyantlarını kullanarak cevaplar ürettiler, her birini eğitim sırasında görmediği veri kümesinde değerlendirdiler.

Zamanda Kaybolmak

Model çıktılarının tarihi dili ne kadar inandırıcı bir şekilde taklit edebileceğini değerlendirmek için, araştırmacılar üç uzman annotatöre, 120 yapay zeka tarafından üretilen devamı gözden geçirmelerini ve her birinin 1914’te bir yazar için makul görünüp görünmediğini yargılamalarını istedi.

Bu doğrudan değerlendirme yaklaşımı beklenenden daha zorlu çıktı: annotatörler değerlendirmelerinde neredeyse %80 oranında anlaştılar, ancak ‘makul’ seçeneğinin ‘makul değil’ seçeneğine göre iki kat daha sık seçilmesi, gerçek anlaşma düzeylerinin yalnızca orta düzeyde olduğunu, Cohen’in kappa skoru 0.554 olarak hesaplandı.

Değerlendiriciler, görevi zor olarak tanımladılar, genellikle bir ifadenin 1914’te bilinen veya kabul gören bir şey olup olmadığını değerlendirmek için ek araştırma gerektiren bir görevdi.

Bazı pasajlar, ton ve perspektif hakkında zor sorular ortaya koydu – örneğin, bir cevapta dünya görüşünün 1914’te tipik olabilecek şekilde sınırlı olup olmadığı. Bu tür bir yargı genellikle etnosantrizm (yani, diğer kültürleri kendi kültürünün varsayımları veya önyargılarından bakarak görme eğilimi) düzeyine bağlıydı.

Bu bağlamda, zorluk, bir pasajın hem tarihi olarak makul görünmesini sağlamak hem de modern veya günümüz standartlarına göre fazla açık veya rahatsız edici olmamasıydı. Yazarlar, evene uzmanların, döneme aşina olsalar bile, dilin tarihi olarak doğru ve günümüz fikirlerini yansıtan dil arasında net bir çizgi çizmenin zor olduğunu belirtiyorlar.

Sonuçlar, modellerin açık bir sıralamasını gösterdi, ince ayarlanmış GPT‑4o‑mini genel olarak en makul olarak değerlendirildi:

Değerlendiricilerin her modelin çıktısının ne kadar makul göründüğüne ilişkin değerlendirmeleri

Bu performans seviyesinin, %80 oranında ‘makul’ olarak derecelendirilen, tarihi araştırma için yeterli olup olmadığı belirsiz kaldı – özellikle çalışma, gerçek dönem metinlerinin ne sıklıkla yanlış sınıflandırılabileceğini içermiyordu.

Davetsiz Misafir

Sonraki ‘davetsiz misafir testinde’, uzman annotatörlere, aynı tarihi soruyu cevaplayan dört anonim pasaj gösterildi. Üç cevap, dil modellerinden geliyordu, biri ise gerçek bir erken 20. yüzyıl kaynağından alıntıydı.

Görev, hangisinin orijinal olduğunu, yani gerçekten o dönemde yazılmış olanı belirlemekti.

Bu yaklaşım, annotatörlere doğrudan bir plausibility değerlendirmesi yapmalarını istemez, ancak modellerin çıktılarının ne sıklıkla gerçek historical pasajlardan ayırt edilebildiğini test eder, yani modellerin çıktılarının gerçekten otantik görünüp görünmediğini ölçer.

Model sıralaması, önceki yargılama görevinin sonuçlarıyla eşleşti: ince ayarlanmış GPT‑4o‑mini, modeller arasında en ikna edici olandı, ancak yine de gerçek şeyden kısa kaldı.

Her kaynağın, gerçek historical pasaj olarak doğru bir şekilde tanımlanma sıklığı.

Bu test ayrıca bir referans noktası olarak hizmet etti, çünkü gerçek pasajın yarısından fazla sıklıkta tanımlanması, insan okuyucular için sentetik ve gerçekçi prosa arasındaki farkın masih belirgin olduğunu gösterdi.

Bir McNemar testi adlı istatistiksel analiz, modeller arasındaki farklılıkların anlamlı olduğunu, ancak iki ayarlanmamış versiyon (GPT‑4o ve GPT‑4o‑mini) için geçerli olmadığını onayladı.

Geleceğin Geçmişi

Yazarlar, modern dil modellerinin tarihi bir ses taklit etmesinin, güvenilir sonuçlar üretmediğini buldu: çıktıların yalnızca %60’ından azı insan okuyucular tarafından makul olarak değerlendirildi ve bu rakam muhtemelen performansı abartıyor.

Çok sayıda durumda, cevaplar, modelin dışarıdan, yani modern bir perspektiften konuştuğunu gösteren açık sinyaller içeriyordu – ‘1914’te bilinmeyen…’ veya ‘1914 itibarıyla…’ gibi ifadeler, çıktıların %20’sinde görülebiliyordu. Bu tür açıklamalar, modelin tarihi taklit ediyor olabileceğini, ancak gerçekten içinde yazılmıyor olabileceğini gösteriyordu.

Yazarlar şöyle diyor:

‘Bağlamsal öğrenmenin performansı kötü. Bu, en kolay ve ucuz yöntemler. Biz, bu yöntemleri eksiksiz bir şekilde keşfetmedik.

‘Belki de bağlamsal öğrenme, bazı araştırma alanları için yeterli olabilir – şimdi veya gelecekte. Ancak ilk kanıtlarımız cesaret verici değil.’

Yazarlar, ince ayarlanmış bir ticari modelin, tarihi bir stile stilistik olarak inandırıcı bir çıktı ürettiğini, ancak modern perspektifin izlerini tamamen ortadan kaldırmadığını kếtülediler. Tüm dönem materyaliyle ön eğitim, anakronizmi önler, ancak daha büyük kaynaklar gerektirir ve menos fluent çıktı üretir.

Her iki yöntem de tam bir çözüm sunmuyor ve tarihi sesleri simüle etme girişimi, kimlik ve tutarlılık arasında bir trade-off içeriyor gibi görünüyor. Yazarlar, bu gerilimi nasıl en iyi şekilde navige edeceklerini açıklığa kavuşturmak için daha fazla araştırmaya ihtiyaç duyulduğunu kếtülediler.

Sonuç

Belki de yeni makaleden ortaya çıkan en ilginç sorulardan biri, otantikliğin kendisidir. Bilgisayarlı görüme araştırmacıları, loss fonksiyonları ve metrikler gibi LPIPS ve SSIM gibi, en azından bir karşılaştırma için bir metodolojiye sahipler.

Ancak, bir geçmiş dönemin stilinde yeni metinler oluştururken, yalnızca bir vanished kültürel perspektifini yeniden inşa etmeye çalışmak, bir quantization eylemidir, çünkü bu izler, ortaya çıktığı kültürel bilincinin ötesinde ve muhtemelen hayal gücünün ötesindedir.

Pratik düzeyde de, modern dil modellerinin temelleri, günümüz normlarına ve verilerine göre şekillenir ve 1914’te makul veya alışılmış görünen, ancak şimdi sık sık hoş olmayan, önyargılı veya adaletsizlik artifactsi olarak kaydedilen fikirleri yeniden yorumlayabilir veya bastırabilir.

Acaba, böyle bir sohbeti yaratabilsek bile, bizi itebilir mi?

Related Topics:Language Model LLM LLM applications