Connect with us

Yapay Zekanın Analog Saatleri Okuma Mücadelesi Daha Derin Anlama Kaynağı Olabilir

Anderson’un Açısı

Yapay Zekanın Analog Saatleri Okuma Mücadelesi Daha Derin Anlama Kaynağı Olabilir

mm
ChatGPT-4o and Adobe Firefly.

Çin ve İspanya’dan araştırmacıların yeni bir makalesi, GPT-4.1 gibi gelişmiş çok modelli AI modellerinin bile analog saatlerin resimlerinden saati söylemekte zorlandığını buldu. Saatlerde küçük görsel değişiklikler büyük yorum hatalarına neden olabilir ve fine-tuning sadece tanıdık örneklerle yardımcı olur. Sonuçlar, bu modellerin gerçek dünya görevlerinde tanımadıkları görsellerle karşılaştıklarında güvenilirlik konusunda endişeler yaratır.

 

İnsanlar bir alan hakkında yeterli derinlikte anlama geliştirdiklerinde, yerçekimi veya diğer temel fiziksel prensipler gibi, belirli örneklerin ötesine geçer ve altta yatan soyutlamaları kavrarız. Bu, o bilgiyi yaratıcı bir şekilde çeşitli bağlamlarda uygulamamızı ve daha önce hiç görmediğimiz yeni örnekleri, işlev halinde olan prensibi tanımlayarak tanımamızı sağlar.

Bir alan yeterli önem taşıyorsa, onu var olmadığı yerlerde bile algılayabiliriz, pareidolia gibi, gerçek bir örneği tanımamak için yüksek maliyet nedeniyle. Bu kalıp tanıma hayatta kalma mekanizması o kadar güçlüdür ki, aslında hiçbirinin olmadığı yerde daha geniş bir dizi kalıp bulmamıza neden olur: apophenia.

Bir alan ne kadar erken ve tekrarlı bir şekilde bize öğretilirse, daha derin bir şekilde kazınır ve yaşam boyu sürer; ve çocuklar olarak maruz kaldığımız ilk görsel veri setlerinden biri, saat öğretme saatlerinde gelir, burada basılı materyal veya etkileşimli analog saatler saat söylemeyi öğretmek için kullanılır:

Çocuklara saat söylemeyi öğretmeye yardımcı olan eğitim materyalleri. Kaynak: https://www.youtube.com/watch?v=IBBQXBhSNUs

Çocuklara saat söylemeyi öğretmeye yardımcı olan eğitim materyalleri. Kaynak: https://www.youtube.com/watch?v=IBBQXBhSNUs

Saat tasarımı modalarının değişmesi bazen bizi zorlayabilir, ancak bu erken alan hakimiyetinin dayanıklılığı oldukça etkileyicidir ve bizi karmaşık veya ‘eksantrik’ tasarım seçimlerine rağmen analog saat yüzlerini ayırt etmeye olanak tanır:

Saat couture'den bazı zorlu yüzler. Kaynak: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/

Saat couture’den bazı zorlu yüzler. Kaynak: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/

İnsanların saatlerin nasıl çalıştığını öğrenmek için binlerce örneğe ihtiyacı yoktur; bir kez temel kavram anlaşılırsa,几乎 her şekilde tanınabilir, hatta bozulmuş veya soyutlanmış olsa bile.

AI modellerinin bu görevle karşılaştığı zorluk, daha derin bir sorunu vurgular: görünürdeki güçleri, anlayıştan çok yüksek hacimli maruziyete bağlı olabilir.

Taklit Oyununun Ötesinde?

Yüzey düzeyindeki performans ile gerçek ‘anlama’ arasındaki gerilim, büyük modellerin recent araştırmalarında defalarca ortaya çıktı. Geçen ay Zhejiang Üniversitesi ve Westlake Üniversitesi, bir makale ile soruyu yeniden formüle etti: PhD düzeyindeki LLM’ler Gerçekten Temel Toplama Anlıyor mu? (bu makale bu yazıda odaklanılan konu değil), aşağıdaki sonuca varıldı:

‘Gösterişli benchmark’lerine rağmen, modeller desen eşleştirmeye değil,真正 anlama bağımlı olduklarını gösteriyor, sembolik temsillerdeki ve temel özelliklerin ihlallerindeki başarısızlıklarla kanıtlanıyor.

‘Açık kural sağlamanın performansı bozduğu, iç mimari kısıtlamaları olduğunu gösteriyor. Bu bilgiler, değerlendirme açıklarını ortaya koyuyor ve真正 matematiksel akıl yürütme için desen tanıma ötesinde mimarilere ihtiyaç duyulduğunu vurguluyor.’

Bu hafta, soru tekrar gündeme geliyor, şimdi Çin’in Nanjing Havacılık ve Uzay Üniversitesi ile İspanya’daki Universidad Politécnica de Madrid arasındaki bir işbirliği ile. Analog Saatlerde Multimodal Büyük Dil Modelleri (MLLM’ler) Gerçekten Saati Ögrenmiş midir? adlı yeni makale, multimodal modellerin saat söylemeyi ne kadar iyi anladığını araştırıyor.

Araştırmanın ilerlemesi, makalede sadece genel olarak ele alınıyor, ancak araştırmacıların ilk testleri, OpenAI’nin GPT-4.1 multimodal dil modelinin çeşitli saat resimlerinden saati doğru olarak söylemekte zorlandığını kurdu, basit durumlarda bile yanlış cevaplar verdi.

Bu, modelin eğitim verisinde olası bir boşluğu işaret ediyor ve daha dengeli bir veri setine ihtiyaç duyuluyor, modelin gerçekten altta yatan kavramı öğrenebileceğini test etmek için. Bu nedenle yazarlar, her olası saati eşit olarak kapsayan ve internet resimlerinde genellikle bulunan önyargılardan kaçınan sentetik bir analog saat veri seti oluşturdular:

Araştırmacıların sentetik analog saat veri setinden bir örnek, yeni çalışmada bir GPT modelini fine-tune etmek için kullanıldı. Kaynak: https://huggingface.co/datasets/migonsa/analog_watches_finetune

Araştırmacıların sentetik analog saat veri setinden bir örnek, yeni çalışmada bir GPT modelini fine-tune etmek için kullanıldı. Kaynak: https://huggingface.co/datasets/migonsa/analog_watches_finetune

Fine-tuning’den önce, GPT-4.1 bu saatleri okumakta tutarlı olarak başarısız oldu. Yeni koleksiyona maruz kaldıktan sonra performansı iyileşti – ancak yalnızca yeni görüntüler tanıdık örnekler gibi görünüyordu.

Saat şekli veya el stilinin değiştiğinde, doğruluk keskin bir şekilde düştü; hatta küçük değişiklikler, daha ince eller veya ok uçları (sağdaki resim), onu atlatmak için yeterliydi; ve GPT-4.1, Dali-esque ‘eriyen saatler’ yorumlamakta da zorluk çekti:

Standart tasarım (sol), bozulmuş şekil (orta) ve değiştirilmiş eller (sağ) saat resimleri, GPT-4.1 tarafından döndürülen zamanlar ile birlikte, fine-tuning'den önce ve sonra. Kaynak: https://arxiv.org/pdf/2505.10862

Standart tasarım (sol), bozulmuş şekil (orta) ve değiştirilmiş eller (sağ) saat resimleri, GPT-4.1 tarafından döndürülen zamanlar ile birlikte, fine-tuning’den önce ve sonra. Kaynak: https://arxiv.org/pdf/2505.10862

Yazarlar, mevcut modellerin seperti GPT-4.1’in saat söylemeyi主要 olarak görsel desen eşleştirmesi yoluyla öğrendiğini, zamanın daha derin bir kavramını öğrenmediğini iddia ediyor, şöyle diyor:

‘[GPT 4.1] saat bozulmuş veya eller inceltilip ok ucu şeklinde olduğunda başarısız oluyor. 150 rastgele zamanda Ortalama Mutlak Hata (MAE) saat tahmini, ilk saatler için 232.48s, şekil bozulmuşsa 1380.69s ve eller değiştirilirse 3726.93s.

‘Bu sonuçlar, MLLM’nin saati söylemeyi öğrenmediğini, ancak desenleri ezberlediğini gösteriyor.’

Yeterince Zaman

Çoğu eğitim veri seti, genellikle belirli saatleri tekrarlayan internet resimlerine dayanır – özellikle saat 10:10, saat reklamlarında popüler bir ayar:

Yeni makaleden, analog saat resimlerinde 'on past ten' zamanının yaygınlığına bir örnek.

Yeni makaleden, analog saat resimlerinde ‘on past ten’ zamanının yaygınlığına bir örnek.

Bu saatlerin sınırlı aralığı, modelin yalnızca dar bir saat konfigürasyonu yelpazesi görmesine neden olur, bu da onun bu tekrarlanan desenlerin ötesine genellemesini sınırlar.

Bozulmuş saatleri doğru olarak yorumlayamama nedenlerine ilişkin makale, şöyle diyor:

‘GPT-4.1 standard saat resimlerinde istisnai bir şekilde performans gösterir, ancak saat ellerini incelterek ve ok ucu ekleyerek, doğruluğunda önemli bir düşüşe neden olur.

‘İntuitif olarak, birinin daha görsel olarak karmaşık değişikliklerin – bir dialin bozulması – daha büyük bir etkiye sahip olacağını bekleyebilirsiniz, ancak bu değişiklik nispeten daha küçük bir etkiye sahip gibi görünüyor.

‘Bu, MLLM’lerin saatleri nasıl yorumladığını ve neden başarısız olduklarını sorgulamaya yol açar. Bir olasılık, daha ince ellerin modelin yönü algılama yeteneğini zayıflatması, mekansal yönelim anlayışını zayıflatmasıdır.

‘Alternatif olarak, modelin doğru saat okumalarını birleştirmeye çalışırken başka faktörler de karışıklığa neden olabilir.’

Yazarlar, bu başarısızlıkların temel nedenini belirlemenin, multimodal modelleri ilerletmek için anahtar olduğunu iddia ediyorlar: eğer sorun modelin mekansal yönü algılamasında ise, fine-tuning basit bir çözüm olabilir; ancak sorun, bu sistemlerin bilgiyi işleme şeklindeki daha temel bir zayıflıktan kaynaklanıyorsa, bu daha temel bir zayıflık olduğunu gösteriyor.

Fine-Tuning Testleri

Modelin başarısızlıklarının, maruz kalma yoluyla aşılabileceğini test etmek için, GPT-4.1, yukarıda bahsedilen ve kapsamlı sentetik veri setine fine-tune edildi. Fine-tuning’den önce, tahminleri geniş çapta dağılmıştı ve tüm saat tiplerinde önemli hatalar vardı. Veri setine fine-tuning’den sonra, standard saat yüzleri üzerindeki doğruluk keskin bir şekilde arttı ve biraz da bozulmuş saatlerde.

Ancak, ince eller veya ok uçları gibi değiştirilmiş saatler, hala büyük hatalar üretmeye devam etti.

İki ayrı başarısızlık modu ortaya çıktı: normal ve bozulmuş saatlerde, model genellikle ellerin yönünü yanlış hesaplıyordu; ancak el stillerinin değiştirildiği saatlerde, genellikle saat, dakika veya saniye ellerinin fonksiyonlarını karıştırıyordu.

Modelin ilk zayıflığını ve sentetik bir veri setine fine-tuning yoluyla kısmen kazanılan kazançları gösteren bir karşılaştırma, 150 rastgele seçilen saat için predicted vs. actual zaman, saniyede. Solda, fine-tuning'den önce, GPT-4.1'in tahminleri dağınık ve genellikle doğru değerlerden uzak, kırmızı çizgi ile gösterilen. Sağda, dengeli sentetik bir veri setine fine-tuning'den sonra, tahminler gerçek değerlerle çok daha yakın, ancak bazı hatalar kalıyor.

Modelin ilk zayıflığını ve sentetik bir veri setine fine-tuning yoluyla kısmen kazanılan kazançları gösteren bir karşılaştırma, 150 rastgele seçilen saat için predicted vs. actual zaman, saniyede.

Bu, modelin görsel özelliklerle belirli roller arasında ilişki kurduğunu, ancak bu ipuçlarının değiştiğinde mücadele ettiğini gösteriyor.

Tanıdık olmayan tasarımlar上的 sınırlı gelişme, modelin soyut zaman söyleme kavramını öğrenip öğrenmediği konusunda daha fazla şüphe yaratıyor.

El İşaretleri

GPT-4.1’in standard analog saatlerdeki performansı fine-tuning’den sonra iyileşti, ancak ince eller veya ok uçları olan saatlerdeki performansı çok daha az etkilenmişti, bu da modelin başarısızlıklarının, soyut akıl yürütmeden çok, elin hangi el olduğu konusundaki karışıklıktan kaynaklanabileceği olasılığını ortaya koyuyor.

Modelin tahminlerini, ‘değiştirilmiş-el’ veri setindeki ‘el işlevi karıştırma’ durumlarıyla karşılaştırmak için yeni bir analiz yapıldı. Çıktılar iki gruba ayrıldı: GPT-4.1’in saat, dakika ve saniye ellerini doğru olarak tanıdığı durumlar ve tanımadığı durumlar.

Tahminler, fine-tuning’den önce ve sonra Ortalama Mutlak Hata (MAE) için değerlendirildi ve standard saatlerle karşılaştırıldı; her el için dial pozisyonu temelinde açısal hata da ölçüldü:

Değiştirilmiş-el veri setinde el işlevi karıştırma durumuyla ve olmadan hata karşılaştırması, fine-tuning'den önce ve sonra.

Değiştirilmiş-el veri setinde el işlevi karıştırma durumuyla ve olmadan hata karşılaştırması, fine-tuning’den önce ve sonra.

El rollerinin karıştırılması en büyük hatalara neden oldu. GPT-4.1 saat elini dakika eli ile veya tersi ile karıştırdığında, ortaya çıkan zaman tahminleri genellikle çok uzaklarda oldu. Buna karşılık, doğru tanımlanmış bir elin yönünü yanlış hesaplamak, daha küçük hatalara neden oldu.

El türüne göre açısal hata, fine-tuning’den önce ve sonra:

Değiştirilmiş-el veri setinde el işlevi karıştırma durumuyla ve olmadan el türü tarafından açısal hata, fine-tuning'den önce ve sonra.

Değiştirilmiş-el veri setinde el işlevi karıştırma durumuyla ve olmadan el türü tarafından açısal hata, fine-tuning’den önce ve sonra.

Yalnızca yön hatalarını incelemek için, analiz, modelin her elin fonksiyonunu doğru olarak tanımladığı durumlara sınırlı tutuldu. Model gerçekten zaman söyleme kavramını içselleştirmiş olsaydı, bu örneklerdeki performansı, standard saatlerdeki performansı ile eşdeğer olmalıydı. Ancak öyle değildi ve doğruluk hala daha düşük kaldı.

El şeklinin modelin yön algısını bozup bozmadığını incelemek için ikinci bir deney yapıldı: iki yeni veri seti oluşturuldu, her biri 60 sentetik saat içeriyordu, sadece bir saat eli farklı dakika işaretlerine işaret ediyordu. Bir set orijinal el tasarımını, diğeri değiştirilmiş versiyonunu kullandı. Model, elin hangi dakika işaretine işaret ettiğini söylemesi istendi.

Sonuçlar, değiştirilmiş ellerle biraz doğruluk düşüşü gösterdi, ancak modelin genel başarısızlıklarını açıklamak için yeterli değildi. Tek bir tanımadık görsel özellik, modelin genel yorumunu bozabilecek gibi görünüyordu, hatta daha önce iyi performans gösterdiği görevlerde bile.

GPT-4.1'in performansı, fine-tuning'den önce ve sonra, standard, bozulmuş ve değiştirilmiş-el saatleri üzerinden, düzensiz kazançlar ve kalıcı zayıflıklar gösteriyor.

GPT-4.1’in performansı, fine-tuning’den önce ve sonra, standard, bozulmuş ve değiştirilmiş-el saatleri üzerinden, düzensiz kazançlar ve kalıcı zayıflıklar gösteriyor.

Sonuç

Makalenin odak noktası ilk bakışta önemsiz gibi görünse de, aslında daha derin, tekrar eden bir soruyu vurguluyor: daha fazla (ve daha çeşitli) veri ile doygunluk, insanlarda soyutlama ve genelleme yoluyla kazanılan alan anlama düzeyine ulaşabilir mi, yoksa bu sistemlerin bilgiyi işleme şeklindeki temel zayıflıklar nedeniyle, yalnızca her olası varyasyonu anticipasyonu için domaine örneklerleflooding etmek mi gerekir?

Her iki yol da, mevcut mimarilerin真正 olarak ne öğrenebileceği konusunda şüpheler yaratır.

 

İlk olarak 19 Mayıs 2025’te yayımlandı

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]