Anderson’un Açısı

AI’nin Eski Çağlarda iPhone’ları Göstermesini Nasıl Önlersiniz

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

AI görüntü oluşturucuları geçmiş nasıl resmeder? Yeni araştırmalar, bunların 18. yüzyılda akıllı telefonları düşürdüğünü, 1930’lu yıllarda sahnelerine dizüstü bilgisayarlar eklediğini ve 19. yüzyıl evlerine elektrik süpürgeleri yerleştirerek bu modellerin tarihi nasıl hayal ettiğini ve是否 historical bağlamlarında tamamen doğru olup olmadığını sorgulayarak ortaya koyuyor.

2024’ün başlarında, Google’ın Gemini çok modelli AI modelinin görüntü oluşturma yetenekleri, uygun olmayan bağlamlarda demografik adaleti dayatması nedeniyle eleştirilere maruz kaldı, Örneğin, II. Dünya Savaşı’nda Alman askerlerini muhtemel kökenleriyle birlikte oluşturuyor:

Demographically improbable Alman askeri personeli, Google’ın Gemini çok modelli modelinin 2024’te hayal ettiği gibi. Kaynak: Gemini AI/Google via The Guardian

Bu, AI modellerindeki bias‘ı giderme girişimlerinin historical bağlamı dikkate almadığı bir örnektir. Bu durumda, sorun kısa süre sonra çözüldü. Ancak, difüzyon tabanlı modeller, modern ve historical yönleri ve artefaktları birleştiren tarihin sürümlerini oluşturmaya eğilimlidir.

Bu kısmen entanglement nedeniyle oluşur, burada eğitim verisinde birlikte sıkça görünen nitelikler modelin çıktısında birleştirilir. Örneğin, modern nesnelerin seperti akıllı telefonların konuşma veya dinleme eylemiyle birlikte sıkça ortaya çıkması durumunda, model bu eylemleri modern cihazlarla ilişkilendirmeyi öğrenebilir, hatta historical bir bağlam belirtildiğinde bile.

Bir İsviçre’den yeni bir makale, latent difüzyon modellerindeki historical nesil olgusunu inceliyor ve AI çerçevelerinin insanları fotogerçekçi bir şekilde oluşturmak için oldukça yetenekli olduğunu, ancak historical figürleri historical bir şekilde resmetmeyi tercih ettiğini gözlemliyor:

Yeni makaledeki, LDM aracılığıyla, ‘Bir arkadaşla [historical dönem] döneminde gülen bir kişinin fotogerçekçi bir görüntüsü’ prompt’ının çeşitli temsilleri, her bir çıktı için belirtilen her bir dönemle birlikte. Gördüğümüz gibi, o dönemin ortamı içeriğe bağlı hale gelmiştir. Kaynak: https://arxiv.org/pdf/2505.17064

‘Bir arkadaşla [historical dönem] döneminde gülen bir kişinin fotogerçekçi bir görüntüsü’ prompt’ı için, üç test edilen modelden biri sık sık ‘monochrome’ negative prompt’ı görmezden gelerek, belirtilen dönemin görsel medyasının tonlarını taklit eder, örneğin 1950’ler ve 1970’lerden celluloid filminin soluk tonlarını taklit eder.

Testlerde, modellerin anakronizm (hedef döneme ait olmayan veya ‘zamansal olarak yanlış’ olan şeyler – bunlar hedef dönemin geleceği kadar geçmişinden de olabilir) oluşturma yetenekleri için, modellerin zamanless aktiviteleri (örneğin ‘şarkı söylemek’ veya ‘yemek pişirmek’) modern bağlamlar ve ekipmanlarla birleştirmeye eğilimlidir:

Geçmiş yüzyıllar için tamamen geçerli olan çeşitli aktiviteler, current veya daha recent teknoloji ve aksesuarlarla resmediliyor, taleple istenen görüntünün ruhuna karşı.

Önemli olan, akıllı telefonların fotoğraf idiomundan ve birçok historical bağlamdan ayrılmalarının özellikle zor olmasıdır, çünkü bunların yaygınlaştırılması ve temsili Common Crawl gibi etkili hyperscale veri setlerinde iyi bir şekilde temsil edilmektedir:

Flux generatif metin-görüntü modelinde, iletişim ve akıllı telefonlar sıkı bir şekilde ilişkili kavramlardır – historical bağlamı izin vermediğinde bile.

Sorunun kapsamını belirlemek ve bu particular soruna yönelik gelecekteki araştırma çabalarına bir yol göstermek için, makalenin yazarları, generatif sistemleri test etmek için özel bir veri seti geliştirdiler. Birazdan, yeni çalışmayı inceleyeceğiz, bu çalışma Sentetik Tarih: Difüzyon Modellerindeki Geçmişin Görsel Temsillerinin Değerlendirilmesi adlı ve Zürih Üniversitesi’nden iki araştırmacı tarafından yapılmıştır. Veri seti ve kod kamuoyuna açık olarak sunulmaktadır.

Kırılgan ‘Gerçeklik’

Makalenin bazı temaları, historical temsillerde ırkların ve cinsiyetin az temsil edilmesi gibi kültürel olarak duyarlı konulara değiniyor. Gemini’nin Üçüncü Reich’ta ırksal eşitlik dayatması, bir historical revizyon olarak saçma ve hakaretamizdir, ancak ‘geleneksel’ ırksal temsilleri (difüzyon modellerinin ‘güncellemeleri’ durumunda) geri yüklemek, tarihi thường ‘beyazlatmak’ anlamına gelecektir.

Son zamanlarda popüler historical şovlar, seperti Bridgerton, historical demografik doğruluğu, gelecekteki eğitim veri setlerini etkileyebilecek şekilde bulanıklaştırıyor, LLM tarafından üretilen dönem görsellerini geleneksel standartlarla uyumlu hale getirme çabalarını karmaşıklaştırıyor. Ancak, bu bir kompleks konudur, çünkü (Batı) tarihinin zenginlik ve beyazlığa eğilim göstermesi ve birçok ‘daha az’ hikayeyi anlatmaması nedeniyle.

Bu zor ve değişen kültürel parametreleri dikkate alarak, araştırmacıların yeni yaklaşımına bakalım.

Yöntem ve Testler

Generatif modellerin historical bağlamı nasıl yorumladığını test etmek için, yazarlar HistVis adlı, 30.000 görüntü içeren bir veri seti oluşturdular. Bu görüntüler, insan aktiviteleri gösteren 100 promtten üretilmiştir ve her biri 10 farklı zaman diliminde temsil edilmiştir:

HistVis veri setinden bir örnek, yazarlar tarafından Hugging Face’de sunulmuştur. Kaynak: https://huggingface.co/datasets/latentcanon/HistVis

Aktiviteler, zoals yemek pişirmek, dua etmek veya müzik dinlemek, evrenselliği nedeniyle seçilmiştir ve tarafsız bir formatta ifade edilmiştir, böylece model herhangi bir belirli estetikte sabitlenmez. Veri setindeki zaman dilimleri 17. yüzyıldan günümüze kadar uzanmaktadır ve 20. yüzyıldan beş ayrı on yıl üzerinde ek bir odaklanma yapılmıştır.

30.000 görüntü, üç yaygın olarak kullanılan açık kaynaklı difüzyon modeli kullanılarak oluşturulmuştur: Stable Diffusion XL; Stable Diffusion 3; ve FLUX.1. Zaman dilimini tek değişken olarak izole ederek, araştırmacılar bu sistemlerin historical ipuçlarını görsel olarak nasıl kodladıklarını veya görmezden geldiklerini değerlendirmek için yapılandırılmış bir temel oluşturdular.

Görsel Stil Baskınlığı

Yazarlar ilk olarak, generatif modellerin historical dönemleri resmederken belirli görsel stiller için varsayılan bir değer kullanıp kullanmadıklarını incelediler; çünkü görünüşe göre, promtlerde medium veya estetikten bahsetmese bile, modeller belirli yüzyılları karakteristik stillerle ilişkilendirmeye eğilimlidir:

Promt “Bir kişi [historical dönem] döneminde bir başka kişiyle dans ediyor” için öngörülen görsel stiller (sol) ve “monochrome picture” negative promt ile “fotogerçekçi bir görüntü” modified promt (sağ).

Bu eğilimi ölçmek için, yazarlar bir convolutional neural network (CNN) eğitimini, HistVis veri setindeki her bir görüntüyü beş kategoriye ayırarak gerçekleştirdiler: çizim; oyma; resim; ressam; veya fotografi. Bu kategoriler, zaman dilimlerinde ortaya çıkan ortak kalıpları yansıtmak ve yapılandırılmış karşılaştırmayı desteklemek amacıyla tasarlanmıştır.

Sınıflandırıcı, VGG16 modeline dayanıyordu ve ImageNet ve fine-tuning ile 1.500 örnekten oluşan bir WikiArt türetilen veri setiyle eğitilmiştir. WikiArt, monochrome ve renkli fotoğrafileri ayırt etmediğinden, bir renklilik puanı kullanılarak düşük doygunluklu görüntüler monochrome olarak etiketlendi.

Eğitilen sınıflandırıcı, tüm veri setine uygulandı ve sonuçlar, tüm modellerin historical dönemlere göre tutarlı stil varsayılanları uyguladığını gösterdi: SDXL, 17. ve 18. yüzyılları oymalarla ilişkilendirirken, SD3 ve FLUX.1 resimlere eğilimlidir. 20. yüzyılın on yıllarında, SD3 monochrome fotoğrafçılığa yönelirken, SDXL daha fazla varyasyon gösterir, ancak genellikle modern illüstrasyonlara başvurur.

Bu tercihler, promt ayarlamalarına rağmen devam etmektedir, bu da modellerin stil ve historical bağlam arasındaki ilişkilerin derinlemesine kodlandığını göstermektedir.

Her model ve historical dönem için 1.000 örnek başına öngörülen görsel stiller.

Yazarlar, bir modelin bir historical döneme bir particular görsel stili ile nasıl güçlü bir şekilde bağlantılı olduğunu量amak için Visual Style Dominance (VSD) adlı bir metrik geliştirdiler. Her model ve zaman dilimi için VSD, belirli bir stilin en yaygın stil olarak öngörülen oran olarak tanımlanır:

Modellerdeki stilistik önyargı örnekleri.

Daha yüksek bir puan, bir stilin belirli bir dönemin çıktıları için baskın olduğunu gösterir, जबकi daha düşük bir puan, daha fazla varyasyon olduğunu gösterir. Bu, her modelin historical bağlamlarında belirli stil kurallarına ne kadar sıkı bir şekilde uyduğunu karşılaştırmayı sağlar.

Tüm HistVis veri setine uygulandığında, VSD metriği, her modelin historical yorumunun ne kadar güçlü bir şekilde stil kurallarına bağlı olduğunu açıklar:

Sonuç tablosu, her model için historical dönemlere göre VSD puanlarını gösterir. 17. ve 18. yüzyıllarda, SDXL yüksek tutarlılık ile oymaları üretme eğilimindedir, जबकi SD3 ve FLUX.1 resimlere yönelir. 20. ve 21. yüzyıllarda, SD3 ve FLUX.1 fotoğrafçılığa kayarken, SDXL daha fazla varyasyon gösterir, ancak genellikle modern illüstrasyonlara başvurur.

Tüm modeller, 20. yüzyılın erken on yıllarında, özellikle 1910’lar, 1930’lar ve 1950’lerde monochrome görüntülere güçlü bir eğilim gösterir.

Bu kalıpları azaltmak için, yazarlar prompt mühendisliği kullanarak, photorealismi açıkça talep ederek ve negative promt kullanarak monochrome çıktısını engellemeye çalıştılar. Bazı durumlarda, baskınlık puanları azaldı ve önde gelen stil değişti, örneğin 17. ve 18. yüzyıllarda monochrome’den resim‘e kaydı.

Ancak bu müdahaleler, genellikle真正 photorealistic görüntüler üretmedi, bu da modellerin stil varsayılanlarının derinlemesine kodlandığını gösterdi.

Historical Uygunluk

Sonraki analiz, historical uygunluk üzerine odaklandı: üretilen görüntülerin historical döneme uygun olmayan nesneleri içerip içermediğini değerlendirdi. Sabit bir yasaklanmış öğe listesi kullanmak yerine, yazarlar büyük dil modelleri (LLM) ve görüntüleme-dil modellerini (VLM) kullanarak historical bağlamda yerinden edilmiş öğeleri tespit etmek için esnek bir yöntem geliştirdiler.

Tespit yöntemi, HistVis veri setinin aynı formatını takip etti, her promt bir historical dönem ile bir insan aktivitesini birleştirdi. Her promt için, GPT-4o, historical döneme uygun olmayan bir liste oluşturdu ve her önerilen nesne için, görüntüde bu nesnenin görünüp görünmediğini kontrol etmek için bir evet-hayır sorusu üretti.

Örneğin, promt ’18. yüzyılda bir kişi müzik dinliyor’ için, GPT-4o modern audio cihazlarını historical olarak yanlış olarak tanımlayabilir ve modern audio cihazlarını veya akıllı telefonları kullanıyor mu? sorusunu üretebilir.

Bu sorular, görüntüye bakmak için GPT-4o’ya geri gönderildi ve her bir nesne için evet veya hayır cevabı verildi. Bu pipeline, historical olarak yanlış içeriklerin tespitini, önceden tanımlanmış bir modern nesne taksonomisine bağlı kalmadan sağladı:

Anakronistik öğeleri gösteren üretilen görüntülerin örnekleri: 18. yüzyılda kulaklıklar; 19. yüzyılda elektrik süpürgesi; 1930’larda dizüstü bilgisayar; ve 1950’lerde akıllı telefon.

Anakronizmlerin sıklığını ölçmek için, yazarlar basit bir yöntem geliştirdiler. İlk olarak, GPT-4o’nun aynı nesneyi tanımlamak için kullandığı farklı söz dizimi farklılıklarını hesaba kattılar.

Örneğin, modern audio cihazı ve dijital audio cihazı, aynı kavram olarak kabul edildi. Çift sayımı önlemek için, fuzzy matching sistemi kullanılarak, yüzeydeki varyasyonlar,真正 farklı kavramlardan ayırt edilmeden gruplandırıldı.

Tüm önerilen anakronizmler normalize edildikten sonra, iki metrik hesaplandı: sıklık, bir nesnenin belirli bir zaman diliminde ve modelde nasıl sıkça ortaya çıktığını ölçer; ve şiddet, bir nesnenin önerildikten sonra ne kadar tutarlı bir şekilde ortaya çıktığını ölçer.

Eğer bir modern telefon on kez önerildi ve on görüntüde ortaya çıkarsa, şiddet puanı 1.0 olur. Eğer beş görüntüde ortaya çıkarsa, şiddet puanı 0.5 olur. Bu puanlar, anakronizmlerin yalnızca ortaya çıkıp çıkmadıklarını değil, aynı zamanda modelin çıktısında belirli bir dönemde ne kadar güçlü bir şekilde yer aldıklarını da gösterir:

Her model için en sık anakronistik öğelerin sıklık ve şiddet puanlarına göre dağılımı.

Üstte, her model için en sık anakronizmlerin sıklık ve şiddet puanlarına göre dağılımını görüyoruz.

Giysi sık ortaya çıkıyor, ancak dağınık bir şekilde dağılıyor, enquanto öğeler zoals audio cihazları ve ütü ekipmanları daha az ortaya çıkıyor, ancak tutarlılık açısından daha yüksek puan alıyor – bu, modellerin promt’taki aktiviteye rather historical döneme odaklandığını gösteren kalıplardır.

SD3, anakronizmlerin en yüksek oranına sahipken, özellikle 19. yüzyıl ve 1930’larda görüntülerde anakronizmler daha sık ortaya çıkıyor, Bunu FLUX.1 ve SDXL izliyor.

Tespit yönteminin insan yargısına ne kadar uyduğunu test etmek için, yazarlar SD3’ten (anakronizmin en yüksek olduğu model) 1.800 rastgele örnekten oluşan bir kullanıcı çalışması gerçekleştirdiler. Her görüntü, üç crowd-worker tarafından değerlendirildi ve güvenilir cevaplar için filtreleme yapıldı. 2.040 yargı, 234 kullanıcıdan alındı ve yöntem, çoğunluk oyu ile %72 oranında anlaşmaya vardı:

Kullanıcı çalışması için arayüz, görev talimatları, doğru ve anakronistik görüntülerin örnekleri ve üretilen çıktılardaki zaman uyumsuzluklarını belirlemek için evet-hayır sorularını gösteriyor.

Demografik Özellikler

Son analiz, modellerin ırk ve cinsiyetin historical dönemler boyunca nasıl temsil edildiğini inceledi. HistVis veri setini kullanarak, yazarlar model çıktılarını bir dil modeli tarafından oluşturulan temel tahminlerle karşılaştırdı. Bu tahminler kesin değildi, ancak historical plausibility hakkında bir fikir verdi ve modellerin historical bağlamda temsil edilen demografik özellikleri adapte edip edemediğini gösterdi.

Modellerin demografik özellikleri büyük ölçekte değerlendirmek için, yazarlar bir pipeline inşa ettiler. Model tarafından üretilen görüntülerin demografik özelliklerini, historical dönem ve aktiviteye göre temel tahminlerle karşılaştırdılar. İlk olarak, FairFace sınıflandırıcısını, bir ResNet34 tabanlı aracı kullanarak, üretilen görüntülerdeki yüzleri cinsiyet ve ırk olarak sınıflandırmak için kullandılar.

Düşük güven düzeyindeki sonuçlar filtrelenerek gürültü azaltıldı ve tahminler, her bir görüntüye bağlı historical dönem ve aktivite için ortalama alındı. FairFace okumalarının güvenilirliğini kontrol etmek için, 5.000 görüntüden oluşan bir örnek için DeepFace tabanlı bir sistem kullanıldı. İki sınıflandırıcı, demografik okumalar için güçlü bir anlaşma gösterdi.

Modellerin çıktılarını historical plausibility ile karşılaştırmak için, yazarlar GPT-4o’ya her aktivite ve historical dönem için beklenen cinsiyet ve ırk dağılımını tahmin ettirdi. Bu tahminler, rough bir temel olarak kullanıldı. İki metrik kullanıldı: az temsil ve fazla temsil, modellerin çıktılarının GPT-4o’nun beklentilerinden ne kadar saptığını ölçer.

Sonuçlar, net kalıplar gösterdi: FLUX.1 genellikle erkekleri fazla temsil eder, özellikle yemek pişirme gibi senaryolarda, kadınların beklendiği durumlarda; SD3 ve SDXL, çalışma, eğitim ve din gibi kategorilerde benzer eğilimleri gösterir; beyaz yüzler genel olarak beklenenden daha fazla temsil edilir, ancak bu önyargı daha recent dönemlerde azalır; ve bazı kategoriler, historical bağlamdan ziyade veri seti ilişkilerine bağlı olarak beklenmedik şekilde non-beyaz temsil gösterir:

FLUX.1 çıktılarında, yüzyıllar ve aktiviteler boyunca cinsiyet ve ırk az temsil ve fazla temsilinin mutlak farkları, GPT-4o demografik tahminlerine göre.

Yazarlar şöyle kếtüller:

‘Analizimiz, [Text-to-image/TTI] modellerinin historical dönemleri resmederken sınırlı stil kodlamalarına güvendiğini ve historical bağlamların nüanslı anlaşılmalarına sahip olmadığını ortaya koyuyor. Her dönem, belirli bir görsel stile güçlü bir şekilde bağlıdır, bu da tarihin bir boyutlu betimlemelerine yol açar.

‘Önemli olarak, sık anakronizmler, historical dönemlerin bu modellerin latent uzaylarında temiz bir şekilde ayrılmadığını gösterir, çünkü modern artifacts sık sık pre-modern ayarlarında ortaya çıkar, bu da TTI sistemlerinin eğitim ve kültürel miras bağlamlarındaki güvenilirliğini zayıflatır.’

Sonuç

Difüzyon modelinin eğitimi sırasında, yeni kavramlar temiz bir şekilde önceden tanımlanmış slotlara latent uzayda yerleşmez. Bunun yerine, ortaya çıkan ilişkiler ve sıklıklar tarafından şekillendirilen kümeler oluşturur. Bu, historical bağlamlarının temiz bir şekilde ayrıldığı büyük, genel amaçlı bir veri setinde neyin ‘historical’ olduğunu belirlemeyi zorlaştırır.

Yeni makaledeki bulgular, birçok historical dönemin, daha derin historical detaylardan ziyade, o dönemi temsil eden medya türünün görünümü tarafından temsil edildiğini gösteriyor.

Bu, 2025 kalitesinde fotogerçekçi bir 19. yüzyıl karakterinin görüntüsünü üretmenin neden zor olduğu konusunda bir ipucu veriyor; çoğu durumda, model film ve televizyonun görsel kalıplarına başvuracaktır. Bu boşluğu kapatmak, gelecekteki gelişmelerin, kavramların birbirine dolanmasını önlemek için gerekli olacak gibi görünüyor.

İlk olarak 26 Mayıs 2025’te yayınlandı

Related Topics:AI image image classification image generation latent diffusion

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]