Bizimle iletişime geçin

Yapay Zeka

Yapay Zeka Modelleri Temel Saat Okuma Konusunda Tökezlerken İnsanlar Başarıyor

mm

A Kapsamlı çalışma Analog saatleri okumada 11 önde gelen yapay zeka modelinin insanlara karşı test edilmesi, mevcut yapay zeka sistemlerindeki şaşırtıcı bir zayıflığı ortaya çıkardı. İnsanlar saati okumada %89.1 doğruluk oranına ulaşırken, Google'ın en iyi performans gösteren modeli aynı testte yalnızca %13.3 doğruluk oranına ulaştı.

Araştırmacı Alek Safar tarafından yürütülen ClockBench araştırması, en gelişmiş yapay zeka sistemlerinin bile çoğu insanın çocukken ustalaştığı görsel görevlerde zorlandığını gösteriyor. Google'ın kıyaslama testindeki sistemler, OpenAI, Antropikve diğer büyük yapay zeka laboratuvarları 180 adet özel tasarımlı analog saat kullanıyor.

Bu, saatlerin ötesine geçiyor. Sonuçlar, yapay zeka sistemlerinin görsel bilgileri nasıl işleyip akıl yürüttüğüne dair temel sınırlamaları vurguluyor. Safar, araştırma makalesinde "Analog saatleri okumak, görsel alanda akıl yürütme için çıtayı yükseltiyor," diyor. Görev, modellerin saat kollarını tanımlamasını, aralarındaki ilişkileri anlamasını ve görsel konumlandırmayı sayısal zamana çevirmesini gerektiriyor.

Hata kalıpları incelendiğinde performans farkı daha da çarpıcı hale geliyor. İnsanlar hata yaptığında, ortalama hata sadece üç dakikaydı. Buna karşılık, yapay zeka modelleri hedefi bir ila üç saat arasında kaçırdı; bu da kabaca 12 saatlik bir zaman diliminde rastgele tahmin yapmaya eşdeğer.

Belirli Zayıflıklar Ortaya Çıktı

Yapay zeka sistemleri özellikle şu konularda zorluk çekiyordu:

  • Roma rakamları (%3.2 doğruluk)
  • Aynalı veya ters saat yüzleri
  • Renkli arka planlar veya karmaşık tasarımlar
  • Hassas okumalar gerektiren saniye kollarına sahip saatler

İlginçtir ki, yapay zeka modelleri bir saati başarıyla okuduğunda, saati ekleme veya zaman dilimlerini dönüştürme gibi takip görevlerinde de başarılı performans gösterdi. Bu da, asıl zorluğun matematiksel akıl yürütmeden ziyade ilk görsel tanımada yattığını gösteriyor.

Sektör Performans Dağılımı

Google'ın modelleri, İkizler 2.5 Pro %13.3 doğruluk oranına ulaşırken, Gemini 2.5 Flash ise %10.5'e ulaştı. OpenAI'nın GPT-5 %8.4 puan alırken, Anthropic'in Claude Modeller daha düşük performans gösterdi; Claude 4 Sonnet %4.2, Claude 4.1 Opus ise %5.6 oranında performans gösterdi.

xAI'nin Grok 4 modeli %0.7 doğruluk oranıyla şaşırtıcı derecede zayıf sonuçlar verdi; ancak bu durum, modelin tüm saatlerin %63'ünü imkansız süreler olarak işaretlemesinden ve aslında sadece %20.6'sının imkansız süreler gösterdiğinden kaynaklandı.

Kaynak: Alek Safar

Yapay Zeka Gelişimi İçin Daha Geniş Etkiler

Çalışma, ARC-AGI ve benzeri testlerde görülen "insanlar için kolay, yapay zeka için zor" kıyaslama yaklaşımına dayanmaktadır. BasitBenchYapay zeka sistemleri bilgi yoğunluklu görevleri hızla ele geçirmiş ve hatta birçok standart testte insan performansını geride bırakmış olsa da, temel görsel akıl yürütme hâlâ sorunlu.

Araştırma, mevcut ölçekleme yaklaşımlarının görsel muhakeme zorluklarını çözemeyebileceğini öne sürüyor. Safar, analog saatlerin eğitim verilerinde yeterince temsil edilmediğini ve görsel saat temsillerinin muhakeme için metne dönüştürülmesinin ek zorluklar yarattığını öne sürüyor.

ClockBench, geleneksel testlerdeki performanstan hemen belli olmayan yapay zeka sınırlamalarını tespit etmek için tasarlanmış, giderek büyüyen bir kıyaslama aracı koleksiyonuna katılıyor. Gelecekteki yapay zeka eğitimlerinin etkilenmesini önlemek için tüm veri seti gizli tutuluyor ve test için yalnızca küçük örnekler kamuya açıklanıyor.

Sonuçlar, mevcut yapay zeka geliştirme paradigmalarının bu görsel akıl yürütme boşluklarını giderip gideremeyeceği veya tıpkı test zamanı hesaplamalarının diğer alanlarda ilerlemeyi nasıl sağladığı gibi tamamen yeni yaklaşımlara ihtiyaç duyulacağı konusunda soruları gündeme getiriyor.

Şimdilik, mütevazı analog saat, yapay zekaya karşı beklenmedik bir kale olarak duruyor; neredeyse her insan tarafından okunabiliyor ama dünyanın en gelişmiş yapay zeka sistemlerini bile şaşırtıyor.

Alex McFarland, yapay zekadaki en son gelişmeleri araştıran bir yapay zeka gazetecisi ve yazarıdır. Dünya çapında çok sayıda yapay zeka girişimi ve yayınıyla işbirliği yaptı.