Yapay Zekâ
Hatta En Gelişmiş Dillerin Zustandını Anlamak için Çaba Sarf Eden Dil Modelleri Zaman Mantığını Anlamada Zorlanıyor

Gelecek durumları tahmin etmek, bilgisayar vizyonu araştırmalarında kritik bir görevdir – özellikle robotikte, gerçek dünya durumlarının dikkate alınması gerekir. Misyon açısından kritik görevlerle görevlendirilen makine öğrenimi sistemleri, fiziksel dünyanın anlaşılmasına uygun bir şekilde ihtiyaç duyar.
Ancak, bazı durumlarda, zaman gerçekliği hakkında görünen mükemmel bir bilgi aldatıcı olabilir: Birleşik Arap Emirlikleri’nden yeni bir makale, en gelişmiş Çok Modlu Büyük Dil Modellerinin (MLLM’ler), sektörün liderleri GPT-4o ve Google Gemini dahil, resimlerde zamanın nasıl temsil edildiğini yorumlamakta zorlandığını buldu.
İnsanların yanlış sırada bile zorlanmadan çözabileceği örnek sıralı çiftler (aşağıdaki resme bakın), gelişmiş MLLM’leri beklenmedik bağlamlarda veya yapılandırmalarda (örneğin, ikinci-resim-önce, tek resimlere eklenmiş, sıralı çoklu resimler vb.) yanıltabilir.

Araştırmacılar, sıralı olayları gösteren yeni çalışmada derlenen veri setlerinden örnekler. Araştırmacılar bu verileri https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer adresinde kullanıma sundu.
Araştırmacılar, modellere temel zaman mantığı zorlukları verdi, chẳng hạn olay sırasını belirleme veya zaman aralıklarını tahmin etme, ve yedi MLLM’nin test edildiğini ve insanların doğruluğundan önemli ölçüde düşük performans gösterdiğini buldu:
‘Genel olarak, [sonuçlar] tüm geçerli MLLM’lerin, değerlendirmemizdeki en gelişmiş model olan GPT-4o dahil, önerilen benchmark ile mücadele ettiğini ortaya koyuyor. GPT-4o, diğer modellere göre üstün performans göstermesine rağmen, farklı ayarlamalar boyunca tutarlı olarak doğru zaman mantığını göstermede başarısız oluyor.
‘Tüm modeller için tutarlı doğruluk puanları dikkat çekici derecede düşük, görsel girdilerden zaman dizilerini anlamak ve yorumlamak konusundaki önemli sınırlılıkları gösteriyor. Bu eksiklikler, modellere çoklu resim girdileri veya optimize edilmiş promt’lar sağlandığında bile açıkça görülüyor, bu da mevcut mimarilerin ve eğitim yöntemlerinin zaman sıralamasını anlamak için yeterli olmadığını gösteriyor.’
Makine öğrenimi sistemleri, en doğru ve aynı zamanda en verimli ve insanları memnun eden sonuçları optimize etmek için tasarlanmıştır*. Onlar açık bir şekilde nedenlerini açıklamadıkları için, zor olabilir när onlar aldatmak veya “kısayollar” kullanıyorlar.
Bu durumda, MLLM doğru cevapya yanlış yöntem ile ulaşabilir. Böyle bir cevap doğru olabileceği için, modelde yanlış bir güven duygusu yaratabilir ve aynı yöntemle daha sonra verilen görevlerde yanlış sonuçlar üretebilir.
Kötü durumda, bu yanlış yönlendirme, insanların etkileyici bulduğu ve deneme ve açıklama oturumlarında olumlu geri bildirim verdiği için geliştirme zincirine daha da derinlemesine gömülebilir.
Bu durumda, öneri, MLLM’lerin gerçek bir zaman ve zaman fenomeni anlayışını “sahte”lediğidir, ikincil göstergeleri gözlemleyerek ve bunları sabitleyerek (örneğin, video verisinde zaman damgaları, düzen中的 resim sırası veya hatta sıralı numaralı dosya adları).
Ayrıca, MLLM’lerin insanların yapabildiği kadar genelleştirilmiş bir zaman fenomeni kavramını karşılayamadığını gösterir – en azından, insanların yapabildiği kadar.
Yeni makale, Çok Modlu MLLM’ler Görsel Zaman Anlayışını ve Mantığını Yapabilir mi? Cevap Hayır! başlığını taşıyor ve Birleşik Arap Emirlikleri’ndeki Mohamed bin Zayed Üniversitesi ve Alibaba Uluslararası Dijital Ticaret’ten üç araştırmacı tarafından yazılmıştır.
Veri ve Testler
Yazarlar, önceki benchmark’lerin ve çalışmaların, chẳng hạn MMMU ve TemporalBench, tek resim girdilerine odaklandığını veya MLLM’ler için çok kolay cevaplar verebilecek sorular oluşturduğunu, bu da “kısayol” davranışını ortaya çıkarmayabileceğini belirtiyorlar.
Bu nedenle, yazarlar iki güncellenmiş yaklaşım sunuyor: Zaman Sırası Anlama (TOU) ve Zaman Aralığını Tahmin Etme (TLE). TOU yaklaşımı, modellerin video karelerinden olayların doğru sırasını belirleme yeteneklerini test ediyor; TLE yöntemi, MLLM’nin iki resim arasındaki zaman farkını, saniyelerden yıllara kadar değişen zaman aralıklarını tahmin etme yeteneğini değerlendiriyor.

Makaledeki iki ana görev: Temporal Order Understanding’de model, ilk olayın hangi resimde gerçekleştiğini belirler; Time-lapse Estimation’da model, iki resim arasındaki zaman farkını, saniye, dakika, gün veya yıl gibi seçeneklerden birini seçerek tahmin eder. Bu görevler, MLLM’lerin görsel olayların zamanlaması ve sırası hakkında nasıl düşündüğünü test etmeyi amaçlar. Source: https://arxiv.org/pdf/2501.10674
Araştırmacılar, TOU benchmark’i için 360 resim çifti oluşturdu, açık kaynaklı videoları Pixabay ve Pexels’den kullanarak, böylece veri setini GUI aracılığıyla kullanılabilir hale getirdi.
Videolar, günlük aktiviteler yapan insanlardan hayvanlara ve bitkilere kadar çeşitli konuları kapsıyordu. Bunlardan, olayların sırasını gösteren resim çiftleri seçildi, böylece başlangıç çerçevesi “açık” olacaktı.
İnsan seçimi, çerçevelerin kesin olarak sıralanabileceğini garantilemek için kullanıldı. Örneğin, derlenen çiftlerden biri, bir çerçevede kısmen dolu bir çay fincanını, diğer çerçevede ise aynı fincanı tam dolu olarak gösteriyor, böylece sıralama mantığı kolayca belirlenebiliyordu.

Bu iki resmin zaman mantığı kaçınılmazdır, çünkü çay fincanından geri emilemez.
Bu şekilde, 360 resim çifti elde edildi.
TLE yaklaşımı için, Google ve Flickr’dan telif hakkı olmayan resimler seçildi, ayrıca YouTube’daki telif hakkı olmayan videolardan seçilen kareler de kullanıldı. Bu videoların konusu, saniyelerden günler ve mevsimlere kadar değişen zaman aralıklarında değişen sahneler veya nesneleri içeriyordu.
Böylece, TLE yöntemi için 125 resim çifti derlendi.
Test edilen tüm MLLM’lerin çoklu resim işleme yeteneği yoktu, bu nedenle testler her modelin yeteneklerine göre farklılaştı.
Derlenen veri setlerinin birden fazla sürümü oluşturuldu, bazı çiftler dikey olarak, diğerleri ise yatay olarak birleştirildi. Ayrıca, bazı varyasyonlar çiftlerin doğru zaman sırasını değiştirdi.
İki tür promt geliştirildi. İlk promt aşağıdaki şablonu izledi:
İlk resimdeki olay ((sol / üst / ilk)) ikinci resimdeki olaydan ((sağ / alt / ikinci)) önce mi gerçekleşti? Doğru veya yanlış olarak cevaplayın ve nedeninizi belirtin.
İkinci promt aşağıdaki şemayı izledi:
İki resim arasındaki olayın hangisinin önce gerçekleştiğini belirleyin. (sol veya sağ / üst veya alt / ilk veya ikinci) olarak cevaplayın ve nedeninizi belirtin.
TLE için, modellere iki resim arasındaki zaman aralığını tahmin etmeleri için çoklu seçim soruları soruldu, seçenek olarak saniye, saat, dakika, gün, ay ve yıl sunuldu. Bu yapılandırmada, en son resim sağda sunuldu.
Burada kullanılan promt:
Verilen resimdeki ilk resim (sol) ve ikinci resim (sağ) arasındaki zaman aralığını tahmin edin.
Aşağıdaki seçeneklerden birini seçin:
-
15 saniyeden az
B. 2 dakika ile 15 dakika arasında
C. 1 saat ile 12 saat arasında
D. 2 gün ile 30 gün arasında
E. 4 ay ile 12 ay arasında
F. 3 yıldan fazla
Test edilen MLLM’ler ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; ve LLaVA-CoT idi.
Zaman Sırası Anlama: Sonuçlar

Farklı modeller ve girdi düzenleri boyunca Zaman Sırası Anlama sonuçları, çeşitli kurulumlar ve promt’lar için doğruluk ve tutarlılık gösteriyor.
Yukarıdaki sonuçlara göre, yazarlar, tüm test edilen MLLM’lerin, GPT-4o (en iyi genel performansı gösteren model) dahil, TemporalVQA benchmark’inde önemli ölçüde zorlandığını buldu. GPT-4o bile farklı yapılandırmalar boyunca tutarlı olarak güvenilir zaman mantığı göstermede başarısız oldu.
Yazarlar, tutarlı olarak düşük doğruluk puanlarının, modellerin görsel verilerden zaman dizilerini anlamak ve yorumlamak konusundaki önemli sınırlılıklarını vurguladığını belirtiyorlar. Araştırmacılar, bu zorlukların, çoklu resim girdileri ve optimize edilmiş promt’lar kullanıldığında bile devam ettiğini, bu da mevcut model mimarilerinin ve eğitim yöntemlerinin zaman sıralamasını anlamak için yeterli olmadığını gösterdiğini belirtiyorlar.
Testler, performansın promt stratejileri boyunca önemli varyasyonlar gösterdiğini ortaya koydu. GPT-4o, optimize edilmiş promt’lar ile (tek resim için %4, çoklu resim için %65,3’e ulaştı) iyileşti, ancak performans kabul edilebilir seviyelerin altında kaldı.
LlaVA-NeXT ve Qwen-VL gibi modeller, alternatif promt’lar kullanıldığında performansında düşme gösterdi, bu da MLLM’lerin temel zaman mantığı sınırlamalarının, promt mühendisliği ile alone giderilemeyeceğini öne sürdü.
Testler ayrıca, model performansı üzerinde görüntü düzeninin (dikey vs. yatay) önemli bir etkiye sahip olduğunu gösterdi. GPT-4o, dikey düzenlerde tutarlılığını artırdı, %39,2’den %52,8’e yükseldi; ancak, LLaVA varyantları gibi diğer modeller, güçlü yönsel önyargılara sahip olduğunu gösterdi, bir yönde mükemmelleştirdiler, ancak diğerinde başarısız oldular.
Makale, bu tutarsızlıkların, MLLM’lerin gerçek zaman mantığı yerine, uzaysal ipuçlarına (örneğin, resimlerin konumu veya hizalaması) dayandığını öne sürüyor.

Niteliksel testler, GPT-4o’nun farklı girdi sıralamalarına karşı tahminlerini vurguluyor. İlk sıralamada, resim çiftleri orijinal sıralarında sunuluyor, ikinci sıralamada ise sıralama tersine çevrilir. Doğru sınıflandırmalar yeşil, saf yanlış sınıflandırmalar kırmızı, hayal edilen nedenler turuncu ve mantıksız veya ‘geçersiz’ nedenler kahverengi olarak işaretlenmiştir, modelin farklı girdi yapılandırmalarındaki tutarsızlıklarını ortaya koyuyor.
Tek resim ve çoklu resim girdileri arasındaki karşılaştırmalar, sınırlı genel iyileşme gösterdi, GPT-4o çoklu resim girdilerinde biraz daha iyi performans gösterdi, %31,0’dan %43,6’ya (P1 ile) ve %46,0’dan %65,3’e (P2 ile) yükseldi.
Diğer modeller, chẳng hạn InternVL, stabil ancak düşük doğruluk gösterdi, Qwen-VL ise küçük kazançlar elde etti. Yazarlar, bu sonuçların, ek görsel bağlamın zaman mantığı yeteneklerini önemli ölçüde geliştirmediğini, modellerin zaman bilgisini etkili bir şekilde entegre edemediğini öne sürdü.
İnsan Çalışması
İnsan çalışmasında, üç anket, en iyi performans gösteren çok modlu MLLM’nin (GPT-4o) insan tahminleriyle karşılaştırılmasını değerlendirmek için yürütüldü.
İnsanlar %90,3’lük bir doğruluk oranıyla GPT-4o’nun %65,3’lük oranını %25 oranında aştı. Veri seti güvenilir olduğunu kanıtladı, insan hataları minimaldi ve doğru cevaplar üzerinde tutarlı bir anlaşma vardı.

İlk tur testler için insan kullanıcı çalışması sonuçları.
Zaman Aralığını Tahmin Etme: Sonuçlar

TLE sonuçları: zaman aralığını tahmin etme, modelin resim çiftleri arasındaki zaman aralığını, saniyelerden yıllara kadar olan ölçeklerde belirleme doğruluğunu değerlendirir. Görev, her modelin zaman aralığını doğru zaman ölçeğinde seçme yeteneğini değerlendirir.
Bu testlerde, MLLM’ler zaman aralığını tahmin etmekte yalnızca yeterli performans gösterdi: GPT-4o %70’lik bir doğruluk oranı elde etti, ancak diğer modeller önemli ölçüde daha kötü performans gösterdi (yukarıdaki tabloya bakın), ve performans ayrıca çeşitli zaman ölçeklerinde önemli ölçüde değişti.
Yazarlar şunları belirtiyorlar:
‘Zaman aralığını tahmin etme görevi, MLLM’lerin resim çiftleri arasındaki zaman aralığını çıkarma yeteneğini test ediyor. [Tüm] MLLM’ler, en iyi performans gösteren GPT-4o ve Gemini1.5-Pro dahil, bu görevde mücadele ediyor ve yalnızca %60-70’lik orta düzeyde doğruluk oranları elde ediyor. GPT-4o, saniye ve yıl gibi zaman ölçeklerinde güçlü performans gösteriyor, ancak saat gibi diğer zaman aralıklarında zayıf performans gösteriyor.’
‘Benzer şekilde, LLaVA-CoT saniye ve gün gibi zaman aralıklarında mükemmel performans gösteriyor, ancak diğer zaman aralıklarında önemli ölçüde zayıf performans gösteriyor.’
İnsan Çalışması
TLE için insan çalışmasında, ortalama insan performansı, en iyi model olan GPT-4o’nun üzerinde %12,3’lük bir iyileşme gösterdi.
Yazarlar, bazı zorlukların özellikle zor olduğunu ve bir durumda tüm insan katılımcıların yanı sıra tüm AI katılımcıların da yanlış cevap verdiğini belirtiyorlar.
Yazarlar, GPT-4o’nun sunulan resimlerin sırasına bakılmaksızın “makul derecede güçlü” bir zaman mantığı gösterdiğini kếtüller.
Sonuç
Eğer MLLM’ler sonunda, bu çalışmadaki yazarlar tarafından sunulan türdeki zorlu görevleri kapsayacak kadar çok “kısayol” verisi biriktirirse, bu tür bir alanda insan benzeri genelleme yetenekleri geliştirebilecekleri konusunda bir tartışma ortaya çıkabilir.
Ayrıca, kendi zaman mantığı yeteneklerimizi nasıl edindiğimiz tam olarak bilinmemektedir – acaba biz de benzer şekilde “aldatmak” mı yapıyoruz, yoksa öğrenilen deneyimlerin miktarı, bu tür testlerde “sezgi” olarak çalışan bir kalıp mı ortaya koyuyor?
* Modelerin, insan geri bildirimi katkıda bulunduğu ve etkili bir şekilde optimize edildiği kayıp fonksiyonları ile optimize edildiği görüş açısına göre.
Pazartesi, 27 Ocak 2025 tarihinde ilk kez yayımlanmıştır.












