Bizimle iletişime geçin

Anderson'ın Açısı

Yapay Zekanın Geçmiş Dönemlerdeki iPhone'ları Tasvir Etmesini Nasıl Durdurabiliriz?

mm
'Sentetik Tarih: Yayılma Modellerinde Geçmişin Görsel Temsillerinin Değerlendirilmesi' (https://arxiv.org/abs/2505.17064) adlı makaleden seçilmiş çeşitli çizimlerin bir montajı

Yapay zeka görüntü oluşturucuları geçmişi nasıl resmediyor? Yeni araştırmalar, akıllı telefonları 18. yüzyıla düşürdüklerini, dizüstü bilgisayarları 1930'ların sahnelerine yerleştirdiklerini ve 19. yüzyıl evlerine elektrikli süpürgeler yerleştirdiklerini gösteriyor ve bu modellerin tarihi nasıl hayal ettiği ve bağlamsal tarihsel doğruluk sağlayıp sağlayamayacakları konusunda sorular ortaya çıkıyor.

 

2024'ün başlarında, Google'ın görüntü oluşturma yetenekleri İkizler burcu Çok modlu AI modeli, empoze ettiği için eleştirilere maruz kaldı uygunsuz bağlamlarda demografik adaletÖrneğin, kökeni pek olası olmayan II. Dünya Savaşı Alman askerleri üretmek gibi:

Google'ın Gemini multimodal modelinin 2024'te öngördüğü gibi demografik olarak olası olmayan Alman askeri personeli. Kaynak: The Guardian aracılığıyla Gemini AI/Google

Google'ın Gemini multimodal modelinin 2024'te öngördüğü gibi demografik olarak pek mümkün olmayan Alman askeri personeli. Kaynak: Gemini AI/Google aracılığıyla Guardian

Bu, telafi çabalarının bir örneğiydi önyargı AI modellerinde tarihsel bağlamı hesaba katmada başarısız olundu. Bu durumda, sorun kısa bir süre sonra ele alındı. Ancak, difüzyon tabanlı modeller, modern ve tarihsel yönleri ve eserleri birbirine karıştıran tarih versiyonları üretmeye meyilli olmaya devam ediyor.

Bunun nedeni kısmen dolaşıklık, eğitim verilerinde sıklıkla birlikte görünen niteliklerin modelin çıktısında birleştiği yer. Örneğin, akıllı telefonlar gibi modern nesneler veri kümesinde konuşma veya dinleme eylemiyle sıklıkla birlikte ortaya çıkarsa, model bu etkinlikleri modern cihazlarla ilişkilendirmeyi öğrenebilir, hatta komut istemi tarihsel bir ortam belirtse bile. Bu ilişkiler modelin iç temsiller, faaliyeti güncel bağlamından ayırmak zorlaşmakta ve bu da tarihsel açıdan yanlış sonuçlara yol açmaktadır.

Gizli yayılma modellerinde birbirine bağlı tarihsel nesiller olgusunu inceleyen İsviçre'den yeni bir makale, yapay zeka çerçevelerinin fotogerçekçi insanlar yaratma konusunda oldukça yetenekli yine de tarihi figürleri tarihi yollarla tasvir etmeyi tercih ediyorlar:

Yeni makaleden, her çıktıda her dönemin belirtildiği '[Tarihsel dönemde] bir arkadaşıyla gülen bir kişinin fotogerçekçi görüntüsü' isteminin LDM aracılığıyla çeşitli temsilleri. Gördüğümüz gibi, dönemin ortamı içerikle ilişkilendirilmiştir. Kaynak: https://arxiv.org/pdf/2505.17064

Yeni makaleden, her çıktıda her dönemin belirtildiği '[Tarihsel dönemde] bir arkadaşıyla gülen bir kişinin fotogerçekçi görüntüsü' isteminin LDM aracılığıyla çeşitli temsilleri. Gördüğümüz gibi, dönemin ortamı içerikle ilişkilendirilmiştir. Kaynak: https://arxiv.org/pdf/2505.17064

İstem için '[Tarihsel dönemde] bir kişinin arkadaşıyla gülüştüğünü gösteren fotogerçekçi bir görüntü', test edilen üç modelden biri genellikle olumsuz uyarıyı görmezden geliyor 'tek renkli' ve bunun yerine, örneğin 1950'ler ve 1970'lerdeki selüloit filmin soluk tonlarını taklit ederek, belirtilen dönemin görsel medyasını yansıtan renk düzenlemeleri kullanır.

Üç modeli yaratma kapasiteleri açısından test ederken anakronizmler (hedef dönemde olmayan veya 'zaman dışı' olan şeyler - hedef döneminin zamanına ait olabilir) gelecek (geçmişinin yanı sıra) zamansız aktiviteleri (örneğin 'şarkı söylemek' veya 'yemek pişirmek') modern bağlamlar ve ekipmanlarla birleştirme yönünde genel bir eğilim buldular:

Talep edilen görselin ruhuna aykırı olarak, önceki yüzyıllarda geçerliliği olan çeşitli faaliyetler güncel veya daha yeni teknoloji ve araç gereçlerle tasvir edilmektedir.

Talep edilen görselin ruhuna aykırı olarak, önceki yüzyıllarda geçerliliği olan çeşitli faaliyetler güncel veya daha yeni teknoloji ve araç gereçlerle tasvir edilmektedir.

Dikkat çekici olan, akıllı telefonların fotoğrafçılık dilinden ve diğer birçok tarihsel bağlamdan ayrılmasının özellikle zor olmasıdır, çünkü bunların yaygınlaşması ve tasviri, aşağıdaki gibi etkili hiper ölçekli veri kümelerinde iyi bir şekilde temsil edilmektedir: Ortak Tarama:

Flux'un üretken metin-görüntü modelinde, iletişim ve akıllı telefonlar sıkı bir şekilde ilişkilendirilmiş kavramlardır; tarihsel bağlam buna izin vermese bile.

Flux'un üretken metin-görüntü modelinde, iletişim ve akıllı telefonlar sıkı bir şekilde ilişkilendirilmiş kavramlardır; tarihsel bağlam buna izin vermese bile.

Sorunun kapsamını belirlemek ve gelecekteki araştırma çabalarına bu belirli sorunla ilgili bir yol sunmak için, yeni makalenin yazarları, üretken sistemleri test etmek için özel bir veri seti geliştirdiler. Bir dakika içinde buna bir göz atacağız yeni işbaşlıklı Sentetik Tarih: Yayılma Modellerinde Geçmişin Görsel Temsillerinin Değerlendirilmesive Zürih Üniversitesi'ndeki iki araştırmacıdan geliyor. Veri seti ve kod herkese açıktır.

Kırılgan Bir 'Gerçek'

Makaledeki bazı temalar, ırkların yeterince temsil edilmemesi gibi kültürel açıdan hassas konulara değiniyor. ve cinsiyet Tarihsel temsillerde. Gemini'nin aşırı derecede adaletsiz Üçüncü Reich'ta ırksal eşitlik dayatması saçma ve aşağılayıcı bir tarihsel revizyon olsa da, 'geleneksel' ırksal temsilleri (yayılma modellerinin bunları 'güncellediği' yerlerde) geri getirmek, çoğu zaman tarihi etkili bir şekilde 'yeniden beyazlatmak' olurdu.

Son zamanlarda çok sayıda hit olan tarihi dizi, örneğin köprücük, gelecekteki eğitim veri kümelerini etkileme olasılığı olan yollarla tarihi demografik doğruluğu bulanıklaştırarak, LLM tarafından oluşturulan dönem görüntülerini geleneksel standartlarla uyumlu hale getirme çabalarını karmaşıklaştırır. Ancak, bu karmaşık bir konudur, çünkü tarihsel eğilim (Batı) tarihinin zenginliği ve beyazlığı kayırması ve pek çok 'küçük' hikayeyi anlatılmamış bırakması.

Bu zorlu ve sürekli değişen kültürel parametreleri göz önünde bulundurarak araştırmacıların yeni yaklaşımına bir göz atalım.

Yöntem ve Testler

Yazarlar, üretken modellerin tarihsel bağlamı nasıl yorumladığını test etmek için GeçmişGörüntüleme, her biri on farklı zaman diliminde oluşturulan, ortak insan aktivitelerini tasvir eden yüz komuttan üretilen 30,000 görüntüden oluşan bir veri kümesi:

Yazarların Hugging Face'te kullanıma sunduğu HistVis veri setinden bir örnek. Kaynak: https://huggingface.co/datasets/latentcanon/HistVis

Yazarların Hugging Face'te erişime açtığı HistVis veri setinden bir örnek. Kaynak: https://huggingface.co/datasets/latentcanon/HistVis

Faaliyetler, örneğin: yemek pişirme, yalvarma or müzik dinlemek, evrensellikleri için seçildi ve modeli herhangi bir belirli estetiğe bağlamamak için tarafsız bir biçimde ifade edildi. Veri kümesi için zaman dilimleri on yedinci yüzyıldan günümüze kadar uzanıyor ve yirminci yüzyıldan beş ayrı on yıla daha fazla odaklanılıyor.

Yaygın olarak kullanılan üç açık kaynaklı yayılma modeli kullanılarak 30,000 görüntü oluşturuldu: Kararlı Difüzyon XL; Kararlı Difüzyon 3; Ve AKı.1Araştırmacılar, zaman dilimini tek değişken olarak izole ederek, tarihsel ipuçlarının bu sistemler tarafından görsel olarak nasıl kodlandığını veya göz ardı edildiğini değerlendirmek için yapılandırılmış bir temel oluşturdular.

Görsel Stil Hakimiyeti

Yazar başlangıçta üretken modellerin belirli bir varsayıma sahip olup olmadığını inceledi görsel stiller tarihi dönemleri tasvir ederken; çünkü istemlerde herhangi bir ortam veya estetikten bahsedilmese bile, modeller sıklıkla belirli yüzyılları karakteristik stillerle ilişkilendiriyordu:

“[Tarihsel dönemde] bir başkasıyla dans eden bir kişi” (sol) ve “[Tarihsel dönemde] bir başkasıyla dans eden bir kişinin fotogerçekçi görüntüsü” (sağ) komutlarından oluşturulan görseller için öngörülen görsel stiller, “tek renkli resim” olumsuz komut olarak ayarlanmıştır.

'[Tarihsel dönemde] bir başkasıyla dans eden bir kişi' (sol) ve '[Tarihsel dönemde] bir başkasıyla dans eden bir kişinin fotogerçekçi görüntüsü' isteminden oluşturulan görseller için öngörülen görsel stiller, 'tek renkli resim' olumsuz istem olarak ayarlandığında (sağ).

Bu eğilimi ölçmek için yazarlar bir evrişimli sinir ağı (CNN) HistVis veri setindeki her görüntüyü beş kategoriden birine sınıflandırmak için: çizim; gravür; resim; boyamaYa da fotoğrafçılıkBu kategorilerin, zaman dilimleri boyunca ortaya çıkan ve yapılandırılmış karşılaştırmaları destekleyen ortak kalıpları yansıtması amaçlanmıştır.

Sınıflandırıcı bir temele dayanıyordu VGG16 model önceden eğitildi IMAGEnet ve ince ayar sınıf başına 1,500 örnekle VikiArt-türetilmiş veri kümesi. WikiArt, monokrom fotoğrafçılığı renkli fotoğrafçılıktan ayırmadığından, ayrı bir renklilik puanı Düşük doygunluktaki görüntüleri monokrom olarak etiketlemek için kullanıldı.

Eğitilmiş sınıflandırıcı daha sonra tam veri setine uygulandı ve sonuçlar üç modelin de döneme göre tutarlı stilistik varsayılanlar uyguladığını gösterdi: SDXL 17. ve 18. yüzyılları gravürlerle ilişkilendirirken, SD3 ve FLUX.1 resimlere yöneliyor. Yirminci yüzyıl onyıllarında, SD3 monokrom fotoğrafçılığı tercih ederken, SDXL genellikle modern çizimleri döndürüyor.

Bu tercihlerin, anında yapılan ayarlamalara rağmen devam ettiği görüldü; bu da modellerin, stil ile tarihsel bağlam arasında yerleşik bağlantıları kodladığını gösteriyor.

Her bir yayılma modeli için, her bir model için dönem başına 1,000 örnek baz alınarak, tarihsel dönemler boyunca üretilen görüntülerin öngörülen görsel stilleri.

Her bir yayılma modeli için, her bir model için dönem başına 1,000 örnek baz alınarak, tarihsel dönemler boyunca üretilen görüntülerin öngörülen görsel stilleri.

Bir modelin belirli bir tarihi dönemi ne kadar güçlü bir şekilde bağladığını ölçmek için görsel stilYazarlar, başlıklarını koydukları bir metrik geliştirdiler Görsel Stil Hakimiyeti (VSD). Her model ve zaman periyodu için VSD, en yaygın stili paylaşacağı tahmin edilen çıktıların oranı olarak tanımlanır:

Modeller arasında üslup önyargılarına dair örnekler.

Modeller arasında üslup önyargılarına dair örnekler.

Daha yüksek bir puan, tek bir stilin o dönem için çıktıları domine ettiğini gösterirken, daha düşük bir puan daha fazla varyasyona işaret eder. Bu, her modelin zaman içinde belirli stilistik kurallara ne kadar sıkı bir şekilde uyduğunu karşılaştırmayı mümkün kılar.

Tüm HistVis veri setine uygulandığında, VSD metriği farklı yakınsama düzeylerini ortaya koyarak, her modelin geçmişe ilişkin görsel yorumunu ne kadar daralttığını netleştirmeye yardımcı olur:

Yukarıdaki sonuç tablosu, her model için tarihsel dönemlere göre VSD puanlarını gösterir. 17. ve 18. yüzyıllarda, SDXL yüksek tutarlılığa sahip gravürler üretme eğilimindeyken, SD3 ve FLUX.1 boyama tercih eder. 20. ve 21. yüzyıllarda, SD3 ve FLUX.1 fotoğrafa doğru kayarken, SDXL daha fazla çeşitlilik gösterir, ancak genellikle varsayılan olarak çizime geçer.

Her üç model de 20. yüzyılın ilk onyıllarında, özellikle 1910'lar, 1930'lar ve 1950'lerde monokrom görüntülere yönelik güçlü bir tercihi ortaya koyuyor.

Bu kalıpların hafifletilip hafifletilemeyeceğini test etmek için yazarlar şunları kullandı: hızlı mühendislik, açıkça fotogerçekçilik talep ederek ve olumsuz bir istem kullanarak monokrom çıktıyı engelleyerek. Bazı durumlarda, baskınlık puanları azaldı ve öncü stil örneğin monokromdan boyama17. ve 18. yüzyıllarda.

Ancak bu müdahaleler nadiren gerçek anlamda fotogerçekçi görüntüler üretti; bu da modellerin stilistik varsayılanlarının derinlere yerleşmiş olduğunu gösteriyor.

Tarihsel Tutarlılık

Bir sonraki analiz hattı şu şekildeydi: tarihsel tutarlılık: Oluşturulan görsellerin zaman dilimine uymayan nesneler içerip içermediği. Yazarlar, yasaklı öğelerden oluşan sabit bir liste kullanmak yerine, tarihsel bağlama göre yersiz görünen öğeleri tespit etmek için büyük dil (LLM) ve görme-dil modelleri (VLM) kullanan esnek bir yöntem geliştirdiler.

Algılama yöntemi, her bir istemin tarihsel bir dönemi bir insan etkinliğiyle birleştirdiği HistVis veri kümesiyle aynı formatı izledi. Her bir istem için GPT-4o, belirtilen zaman diliminde yerinde olmayacak nesnelerin bir listesini oluşturdu; ve önerilen her nesne için GPT-4o, Evet veya hayır Oluşturulan görüntüde o nesnenin görünüp görünmediğini kontrol etmek için tasarlanmış soru.

Örneğin, verilen komut verildiğinde '18. yüzyılda müzik dinleyen bir kişi', GPT-4o tanımlanabilir modern ses cihazları tarihsel olarak yanlış olarak nitelendirir ve şu soruyu ortaya çıkarır: 18. yüzyılda var olmayan bir kulaklık veya akıllı telefon kullanan kişi mi var?.

Bu sorular, modelin görüntüyü incelediği ve bir sonuç döndürdüğü görsel bir soru-cevap kurulumunda GPT-4o'ya geri iletildi. Evet or yok hayır her biri için cevap. Bu boru hattı, modern nesnelerin önceden tanımlanmış herhangi bir sınıflandırmasına güvenmeden tarihsel olarak mantıksız içeriğin tespit edilmesini sağladı:

İki aşamalı algılama yöntemiyle işaretlenen ve anakronistik öğeler gösteren üretilen görüntü örnekleri: 18. yüzyılda kulaklık; 19. yüzyılda bir elektrikli süpürge; 1930'larda bir dizüstü bilgisayar; ve 1950'lerde bir akıllı telefon.

İki aşamalı algılama yöntemiyle işaretlenen ve anakronistik öğeler gösteren üretilen görüntü örnekleri: 18. yüzyılda kulaklık; 19. yüzyılda bir elektrikli süpürge; 1930'larda bir dizüstü bilgisayar; ve 1950'lerde bir akıllı telefon.

Oluşturulan görüntülerde anakronizmlerin ne sıklıkla göründüğünü ölçmek için yazarlar, sıklık ve ciddiyet puanlaması için basit bir yöntem sundular. İlk olarak, GPT-4o'nun aynı nesneyi nasıl tanımladığına ilişkin küçük kelime farklılıklarını hesaba kattılar.

Örneğin, modern ses aygıtı ve dijital ses aygıtı eşdeğer olarak ele alındı. Çift sayımı önlemek için, bir bulanık eşleştirme sistemi Gerçekten farklı kavramları etkilemeden bu yüzeysel değişiklikleri gruplandırmak için kullanıldı.

Önerilen tüm anakronizmler normalleştirildiğinde iki ölçüm hesaplandı: Sıklık belirli bir nesnenin belirli bir zaman dilimi ve model için görüntülerde ne sıklıkla göründüğünü ölçtü; ve şiddet Model tarafından önerildikten sonra nesnenin ne kadar güvenilir bir şekilde göründüğünü ölçtü.

Modern bir telefon on kez işaretlendiyse ve on oluşturulan görüntüde göründüyse, 1.0'lık bir önem puanı aldı. Sadece beşinde göründüyse, önem puanı 0.5'ti. Bu puanlar, yalnızca anakronizmlerin olup olmadığını değil, aynı zamanda her dönem için modelin çıktısına ne kadar sıkı bir şekilde yerleştiğini belirlemeye yardımcı oldu:

Her model için en iyi on beş anakronistik öğe, x ekseninde sıklığa ve y ekseninde ciddiyete göre çizilmiştir. Daireler, sıklığa göre ilk on beşte sıralanan öğeleri, üçgenler ciddiyete göre ve elmaslar her ikisine göre sıralanmış öğeleri işaretler.

Her model için en iyi on beş anakronistik öğe, x ekseninde sıklığa ve y ekseninde ciddiyete göre çizilmiştir. Daireler, sıklığa göre ilk on beşte sıralanan öğeleri, üçgenler ciddiyete göre ve elmaslar her ikisine göre sıralanmış öğeleri işaretler.

Yukarıda her model için en yaygın on beş anakronizmi, ne sıklıkta göründüklerine ve komutlarla ne kadar tutarlı bir şekilde eşleştiklerine göre sıralanmış olarak görüyoruz.

Giysiler sık ​​ama dağınıktı, ses cihazları ve ütü ekipmanları gibi ürünler daha az sıklıkta ama yüksek tutarlılıkla ortaya çıktı - modeller genellikle tepki veriyor gibi görünüyor istemdeki etkinlik zaman diliminden daha fazla.

Özellikle 3. yüzyıl ve 19'lu yıllara ait görüntülerde en yüksek anakronizm oranını SD1930 gösterdi, bunu FLUX.1 ve SDXL izledi.

Algılama yönteminin insan yargısıyla ne kadar iyi eşleştiğini test etmek için yazarlar, her bir görüntünün üç kalabalık çalışanı tarafından derecelendirildiği SD1,800'ten (en yüksek anakronizm oranına sahip model) 3 rastgele örneklenmiş görüntü içeren bir kullanıcı çalışması yürüttüler. Güvenilir yanıtlar için filtreleme yapıldıktan sonra, 2,040 kullanıcıdan 234 yargı dahil edildi ve yöntem vakaların %72'sinde çoğunluk oyu ile uyumluydu.

İnsan değerlendirme çalışması için görev talimatlarını, doğru ve anakronistik görüntü örneklerini ve üretilen çıktılardaki zamansal tutarsızlıkları belirlemek için evet-hayır sorularını gösteren GUI.

İnsan değerlendirme çalışması için görev talimatlarını, doğru ve anakronistik görüntü örneklerini ve üretilen çıktılardaki zamansal tutarsızlıkları belirlemek için evet-hayır sorularını gösteren GUI.

Demografi

Son analiz, modellerin ırk ve cinsiyeti zaman içinde nasıl tasvir ettiğine baktı. Yazarlar, HistVis veri setini kullanarak model çıktılarını bir dil modeli tarafından üretilen temel tahminlerle karşılaştırdı. Bu tahminler kesin değildi ancak tarihsel makul olma konusunda kaba bir fikir sunarak, modellerin tasvirleri amaçlanan döneme uyarlayıp uyarlamadığını ortaya koymaya yardımcı oldu.

Bu tasvirleri ölçekte değerlendirmek için yazarlar, model tarafından oluşturulan demografileri her zaman ve etkinlik için kaba beklentilerle karşılaştıran bir boru hattı oluşturdular. İlk olarak, adil yüz sınıflandırıcı, bir ResNet34Yüz binden fazla görüntü üzerinde eğitilen, üretilen çıktılardaki cinsiyet ve ırkı tespit eden, her sahnedeki yüzlerin ne sıklıkla erkek veya kadın olarak sınıflandırıldığını ölçen ve dönemler arasında ırksal kategorilerin izlenmesini sağlayan bir araç.

Farklı modeller, zaman dilimleri ve aktiviteler arasında demografik aşırı temsili gösteren oluşturulmuş görsel örnekleri.

Farklı modeller, zaman dilimleri ve aktiviteler arasında demografik aşırı temsili gösteren oluşturulmuş görsel örnekleri.

Gürültüyü azaltmak için düşük güvenilirlikli sonuçlar filtrelendi ve tahminler belirli bir zamana ve aktiviteye bağlı tüm görüntüler üzerinden ortalama alındı. FairFace okumalarının güvenilirliğini kontrol etmek için, Derin Yüz 5,000 görüntüden oluşan bir örneklemde kullanıldı. İki sınıflandırıcı, çalışmada kullanılan demografik okumaların tutarlılığını destekleyerek güçlü bir uyum gösterdi.

Yazarlar, model çıktılarını tarihsel makullükle karşılaştırmak için GPT-4o'dan her aktivite ve zaman periyodu için beklenen cinsiyet ve ırk dağılımını tahmin etmesini istediler. Bu tahminler, temel gerçek yerine kabaca temel çizgiler olarak hizmet etti. Daha sonra iki ölçüm kullanıldı: yetersiz temsil ve aşırı temsilModelin çıktılarının LLM beklentilerinden ne kadar saptığını ölçen bir çalışmadır.

Sonuçlar net kalıplar gösterdi: FLUX.1 sıklıkla erkekleri aşırı temsil ediyordu, hatta şu senaryolarda bile: yemek pişirmekadınların beklendiği; SD3 ve SDXL gibi kategorilerde benzer eğilimler gösterdi , eğitim ve din; genel olarak beklenenden daha fazla beyaz yüz görüldü, ancak bu önyargı daha yakın dönemlerde azaldı; ve bazı kategorilerde beyaz olmayanların temsilinde beklenmedik artışlar görüldü, bu da model davranışının tarihsel bağlamdan ziyade veri kümesi korelasyonlarını yansıtabileceğini düşündürüyor:

Yüzyıllar ve aktiviteler boyunca FLUX.1 çıktılarındaki cinsiyet ve ırka dayalı aşırı temsil ve yetersiz temsil, GPT-4 demografik tahminlerinden mutlak farklılıklar olarak gösterilmiştir.

Yüzyıllar ve aktiviteler boyunca FLUX.1 çıktılarındaki cinsiyet ve ırka dayalı aşırı temsil ve yetersiz temsil, GPT-4 demografik tahminlerinden mutlak farklılıklar olarak gösterilmiştir.

Yazarlar şu sonuca varıyor:

'Analizimiz, [Metin-görüntü/TTI] modellerinin tarihsel dönemlerin nüanslı anlayışlarından ziyade sınırlı üslup kodlamalarına dayandığını ortaya koyuyor. Her dönem belirli bir görsel stile güçlü bir şekilde bağlı ve bu da tarihin tek boyutlu tasvirleriyle sonuçlanıyor.

'Önemli olarak, insanların fotogerçekçi tasvirleri yalnızca 20. yüzyıldan itibaren ortaya çıkıyor ve FLUX.1 ve SD3'te sadece nadir istisnalar var. Bu da modellerin tarihsel bağlamlara esnek bir şekilde uyum sağlamak yerine öğrenilmiş ilişkileri güçlendirdiğini ve gerçekçiliğin modern bir özellik olduğu fikrini sürdürdüğünü gösteriyor.

'Ayrıca, sık sık yapılan anakronizmler, bu modellerin gizli alanlarında tarihsel dönemlerin net bir şekilde ayrılmadığını, çünkü modern eserlerin sıklıkla modern öncesi ortamlarda ortaya çıktığını ve bu durumun TTI sistemlerinin eğitim ve kültürel miras bağlamlarındaki güvenilirliğini zayıflattığını göstermektedir.'

Sonuç

Bir yayılma modelinin eğitimi sırasında, yeni kavramlar gizli uzaydaki önceden tanımlanmış yuvalara düzgün bir şekilde yerleşmez. Bunun yerine, ne sıklıkta göründüklerine ve ilgili fikirlere yakınlıklarına göre şekillenen kümeler oluştururlar. Sonuç, kavramların herhangi bir temiz veya ampirik ayrımdan ziyade sıklıklarına ve tipik bağlamlarına göre var olduğu gevşek bir şekilde organize edilmiş bir yapıdır.

Bu, büyük, genel amaçlı bir veri kümesinde neyin 'tarihsel' sayıldığını izole etmeyi zorlaştırır. Yeni makaledeki bulguların da önerdiği gibi, birçok zaman dilimi daha çok bak onları tasvir etmek için kullanılan medyanın daha derin tarihsel ayrıntılarından yararlanıyorlar.

Bu, (örneğin) 2025. yüzyıldan bir karakterin 19 kalitesinde fotogerçekçi bir görüntüsünü üretmenin zor olmasının bir nedenidir; çoğu durumda, model film ve televizyondan alınan görsel kalıplara dayanacaktır. Bunlar talebi karşılamadığında, telafi etmek için verilerde başka pek bir şey yoktur. Bu boşluğu kapatmak muhtemelen çakışan kavramların çözülmesinde gelecekteki gelişmelere bağlı olacaktır.

 

İlk yayın tarihi Pazartesi, 26 Mayıs 2025