Anderson'ın Açısı
Yapbozlar Yapay Zekanın Görsel Muhakemesini Geliştiriyor

Yeni bir araştırma, yapay zeka modellerinin yapboz bulmacalarını çözerek görme becerilerini geliştirebileceğini gösteriyor. Karmaşık görselleri, videoları ve 3B sahneleri yeniden düzenlemek, ekstra veri, etiket veya araçlara ihtiyaç duymadan görsel becerilerini geliştirmelerine yardımcı oluyor.
Çok Modlu Büyük Dil Modellerini yaygınlaştırmak için şu anki yarışta (MLLM'ler*) Rakiplerinin önünde olmak (ya da en yakın rakibinden en az üç sayı önde olmak), kolay galibiyet sayısı az ve bedava yemek yok.
2025'in etkileyici Çin FOSS yayınlarının çoğunun daha düşük geliştirme ve işletme maliyetleriBatılı yayınlar genellikle Daha sorun şu: daha fazla veri hacmi, daha fazla çıkarım gücü, daha fazla elektrik (her ne kadar olmasa da, yakın zamanda belirttiğimiz gibi, daha gerçek insan açıklayıcılar, çünkü bu çok pahalı (trilyon dolardan fazla ölçekli yapay zeka devrimi için bile).
Araştırma literatüründe, yapay zekâ mimarilerinin evrimine yönelik sözde "özgür" yaklaşımların çoğu, genellikle yalnızca küçük artımlı iyileştirmeler sunma eğilimindedir; ya da en fazla eleştirel olarak ele alınmayan alanlarda iyileştirmeler sunar. Yine de, geliştirme hızını artırabilecek, şimdiye kadar keşfedilmemiş "temel ilkeleri" aramaktan vazgeçmek çok cazip geliyor.
Parçaları toplamak
Tam olarak bu kategoride olmasa da, Çin kurumları arasındaki yeni bir akademik iş birliği, VLM'lerin yapımının yapboz bulmacalarını çözmek performanslarını önemli ölçüde artırır, buna rağmen takviye öğrenme Bu yaklaşım daha önce bu alanda zayıf bir performans gösterdi ve herhangi bir ek sistem, yardımcı model veya diğer 'eklenti' süreçleri gerektirmemesine rağmen:

Görsel Yapboz, çok modlu büyük dil modellerinde görme odaklı becerileri geliştiren, kendi kendini denetleyen bir eğitim sonrası çerçevesidir. Görüntüler, videolar ve 3B veriler arasında yapboz görevleri üzerinde eğitim alarak, modeller görüntülerde daha keskin ince taneli, uzamsal ve kompozisyonel algı, videolarda daha güçlü zamansal akıl yürütme ve 3B sahnelerde gelişmiş geometri farkındalığı kazanır. Yukarıdaki görüntüdeki radar grafikleri, her bir kıyaslama için netlik sağlamak amacıyla ayarlanmış değer ölçekleriyle, temel Qwen2.5-VL'ye göre tutarlı kazanımlar göstermektedir. Kaynak: https://arxiv.org/pdf/2509.25190
Araştırmacılar tarafından tasarlanan sistemin adı Görsel Yapbozve mevcut MLLM'lerin, bir yapboz gibi parçalanmış ve rastgele dağıtılmış materyal üzerinde eğitilmesini içerir. Yazarlar bu yaklaşım için üç yöntem geliştirdiler: görüntü, video ve 3B (yani CGI tarzı) kafesleri), ve aynı sürecin orta düzeyde uyarlanmasının üç alana da fayda sağladığını buldu:

Üç Görsel Yapboz görevinin bir temsili. Görüntü Yapbozunda, bir görüntü parçalara bölünür, karıştırılır ve model doğru düzeni tahmin eder; Video Yapbozunda, klipler karıştırılır ve model zaman içinde sıralarını geri yükler; 3B Yapbozda, farklı derinliklerdeki noktalar karıştırılır ve model bunları en yakından en uzağa doğru sıralar. Model çıktıları, temel gerçekliğe göre puanlanır ve kısmen doğru çözümlere kısmi puan verilir.
Visual Jigsaw'un eğitim yöntemi, yapay zeka modellerinin, bu karışık görüntüleri, video klipleri veya 3 boyutlu veri noktalarını yeniden bir araya getirerek görsel bilgileri anlama becerilerini geliştirmelerine yardımcı oluyor.
Süreç görseller yerine kelimelere dayandığından, modelin görseller oluşturmasına veya herhangi bir ek görsel bileşen kullanmasına gerek yoktur. Bu yöntem, Doğrulanabilir Ödüllerden Güçlendirme Öğrenmesi (Rlvr), modelin net, otomatik kurallara dayalı doğru cevaplar için ödüllendirildiği ve bu nedenle hiçbir insan etiketlemesinin gerekmediği bir sistemdir.
Yeni makaleden bu önemli gerçeği çıkarmak aslında zor: Sistem bulmacayı birleştiriyor semantik, açıklamalar yoluyla ve insanların bu tür bulmacaları çözmeyi öğrendiği şekil-temsili yolla değil:

Yeni makalenin ek materyalinden, bu ek öğrenme sürecinin metin tabanlı yapısını gösteren örnek bir RL görevi. MLLM'ye gösterilecek görseller burada gösterilmemiştir.
MLLM'ler vizyon merkezli görevlerle yoğun olarak ilgilenmelerine rağmen, dil tabanlı 3B ağlar gibi görüntü, video veya şekil gösterimleri üretmek için tasarlanmamış mimariler.

Resim yapboz görevinden örnekler. Her satır, modelin orijinal düzenine göre yeniden düzenlemesi gereken karıştırılmış yamaları gösterir; doğru düzenleme sağda gösterilmiştir.
Zaten bu tip eğitimler, esas öğrenme aşamasından sonra, modelin görüntüleri anlama becerisine sahip olduğu zaman yapılır.
2017 İsviçre gibi önceki yaklaşımlar kâğıt Bulmaca Çözerek Görsel Temsillerin Gözetimsiz Öğrenimi Bu tür bir güçlendirme yaklaşımını, modern bir MLLM'ye kıyasla oldukça farklı bir mimari türü olan evrişimli sinir ağları (CNN'ler) üzerinde daha az başarıyla kullandılar.

2017 yılında yayınlanan 'Yapboz Bulmacaları Çözerek Görsel Temsillerin Gözetimsiz Öğrenimi' adlı kitap, sinir sistemi için ödül tabanlı bir meydan okuma olarak parçalanmanın kullanımına dair erken bir örnektir. Kaynak: https://arxiv.org/pdf/1603.09246
Testlerde, Görsel Yapboz, yazarların iddia ettiği gibi geniş bir yelpazedeki kıyaslamalarda tutarlı ve ölçülebilir iyileştirmelere yol açtı: görüntü yapboz görevi, ince ayrıntılı algıyı, mekansal düzen anlayışını ve kompozisyonel akıl yürütmeyi geliştirdi; video yapboz görevi, modelin zamansal dizileri izleme ve olay sırası hakkında akıl yürütme yeteneğini geliştirdi; ve 3B yapboz görevi, yalnızca derinlik tabanlı anlayışı ve mekansal akıl yürütmeyi güçlendirdi RGB-D girişleri.
Makalede, her üç yöntemde de yeni yöntemin, mimari değişiklik, ekstra görsel modül veya ek denetlenen veri gerektirmemesine rağmen, birçok rekabetçi temel çizgiyi geride bıraktığı tekrarlanıyor:
'Kapsamlı deneyler, ince ayarlı algı, zamansal akıl yürütme ve 3 boyutlu uzamsal anlayışta önemli gelişmeler olduğunu göstermektedir. Bulgularımız, eğitim sonrası MLLM'lerde kendi kendini denetleyen görme merkezli görevlerin potansiyelini vurgulamakta ve görme merkezli metin tasarımları üzerine daha fazla araştırmaya ilham vermeyi amaçlamaktadır.'
Yeni kâğıt başlıklı Görsel Yapboz Eğitimi Sonrası MLLM'leri Geliştiriyorve Nanyang Teknoloji Üniversitesi, Linköping Üniversitesi ve SenseTime Araştırma'dan altı araştırmacının katkılarıyla hazırlanmıştır. Makaleye bir de şu eklenmiştir: proje sitesi canlı demolarla (ve hatta kendi resminizi resim tabanlı yapboz demosuna yükleyebilirsiniz). Kod ve ağırlıklar proje için olmuştur genel kullanıma sunuldu,
Yöntem
Üç test edilen modaliteye uyum sağlamak için bilginin nasıl bölündüğüne bakacağız ancak öncelikle yeni sistem için ödül tasarımını göz önünde bulundurmalıyız.
Görsel Bulmaca yaklaşımı, model yanıtlarını bir dereceli ödül, sadece basit bir geçme veya kalma durumu değil. Model, yapboz parçalarının tam olarak doğru sırasını tahmin ederse, tam bir ödül alır; cevap çoğunlukla doğruysa, ancak mükemmel değilse, modele kısmi bir puan verilir ve bu puan, indirim faktörü Kaçırılan tahminleri aşırı değerlendirmekten kaçınmak için (bu, modelin yalnızca kısmen doğru olan tahminleri tekrarlayarak sistemi kandırmasını önler).
Geçersiz cevaplar, örneğin: 'aldatmak' Aynı sayıyı tekrar tekrar kullananlar sıfır puan alır. Tutarlı biçimlendirmeyi teşvik etmek için, modelin akıl yürütmesini içine yerleştirmesi gerekir. etiketler ve içindeki son cevap etiketler. Bu format doğru kullanıldığında küçük bir bonus kazanır.
Fotoğraflar
Bir bulmaca oluşturmak için görüntüleri modalitede, bir resim ilk önce eşit büyüklükteki bloklara bölünerek bir yama ızgarasına bölünür:

Sistemin çözebileceği görüntü tabanlı yama örnekleri.
Yamalar, bir sayfadaki okuma sırasına benzer şekilde sol üstten sağ alta doğru sabit bir sırayla yerleştirilir ve ardından rastgele bir şekilde karıştırılır. Model daha sonra bu karıştırılmış yama kümesine maruz kalır ve orijinal düzeni geri yükleyen doğru dizilimi tahmin ederek orijinal sırayı bulmaya çalışır.
Eğitimde, 118,000 görüntü COCO veri kümesi Her görüntüde dokuz parça (yani 'bulmaca parçası') elde edildi. Sisteme verilen komut bu makalenin önceki kısımlarında gösterilmiştir (yukarıdaki görüntü, başlığıyla birlikte) 'Yeni gazetenin ek materyalinden').
Video
Video yapboz görevi için, bir video zaman içinde eşit aralıklarla bölünerek ve ardından klip bölümleri karıştırılarak bir klip dizisine bölünür. Daha sonra modele bu karışık dizi gösterilir ve modelin bunların doğru, orijinal kronolojik sırasını bulması gerekir.

Makalenin ek materyalinden, video bulmacası mücadelesinin kısaltılmış örnekleri.
Bu modalitenin eğitimi için 100,000 video kullanıldı LLaVA-Video veri kümesiHer video altı klibe bölündü. Modelin klip sınırlarındaki bariz kare eşleştirme ipuçlarını kullanmasını engellemek için, her klibin başında ve sonunda karelerin %5'i kırpıldı.
Klipler en fazla 12 kareden oluşuyordu ve her karenin çözünürlüğü en fazla 128x28x28 pikseldi. 24 saniyeden kısa videolar hariç tutuldu.
Bu görevin istemi aşağıda gösterilmiştir:

MLLM'lere video görevi için sunulan takviyeli öğrenme istemi, MLLM'lere sunulması gereken klipler olmadan.
3B Veri
Tam bir 3 boyutlu yapboz görevi genellikle 3 boyutlu bir alanı (örneğin) parçalamayı içerir. voksel bloklar veya nokta bulutu (parçaları) daha küçük parçalara ayırmak ve bir modeli orijinal mekansal düzenlerini yeniden inşa edecek şekilde eğitmek.
Ancak, ortalama bir MLLM, ham 3B verileri doğrudan işleyecek donanıma sahip değildir; bunun yerine anlamsal olarak yorumlanmış görüntü veya video girdilerine güvenir. Bu nedenle, mevcut MLLM'lerle uyumlu kalırken 3B akıl yürütmeyi de kullanan bir görev oluşturmak için, yazarlar yukarıda bahsedilen RGB-D görüntüleri (yani, her piksel için derinlik bilgisi içeren 2B görüntüler) kullanarak daha kolay işlenebilir bir varyant sunmuşlardır.

Göreceli bakış açısı ve kamera hareketi muhakemesindeki performansı değerlendirmek için kullanılan 3B Uzamsal Anlama Ölçütü'nden örnek sorular. 3B Yapboz modeli, hem bir sahnenin iki görünümü arasındaki uzamsal ilişkiyi hem de kameranın olası dönüş yönünü doğru bir şekilde çıkararak, Qwen2.5-VL-7B temel modelinden daha iyi performans göstermektedir.
Her RGB-D görüntüsünden, modele başlangıçta yakından uzağa doğru farklı derinliklere sahip noktaların karıştırılmış bir listesi verilir; amaç, yalnızca 2B görüntüyü referans alarak doğru derinlik tabanlı sıralamayı elde etmektir:

3D yapboz için gerçek zamanlı komut istemi.
Her nokta görüntüde işaretlenir (bu görüntü modele gösterilir, ancak doğrudan yukarıdaki görüntüdeki örnekte görselleştirilmez) ve model hangisinin en yakın, ikinci en yakın vb. olduğunu tahmin etmelidir; böylece ham derinlik değerlerine erişim olmadan orijinal derinlik dizisi etkili bir şekilde yeniden oluşturulur.
3B yapboz görevi, RGB-D görüntüleri üzerinde eğitilmiştir. ScanNet veri kümesiGörüntü başına altı derinlik noktasından oluşan rastgele kümeler seçilerek oluşturulan 300,000 örnek kullanılarak.

3B bulmacada kullanılan ScanNet veri setinden nokta bulutu örnekleri. Kaynak: https://arxiv.org/pdf/1702.04405
Her noktanın 0.1 ila 10 metre derinlik aralığında yer alması gerekiyordu ve çeşitliliği teşvik etmek için, bir kümedeki iki noktanın görüntü düzleminde 40 pikselden daha yakın veya derinlikte 0.2 metreden daha az ayrı olmasına izin verilmedi.
Testler
İlk testler için kullanılan sistem Qwen2.5-VL-7B-Talimat Temel çok modlu model olarak. Eğitimde Grup Göreceli Politika Optimizasyonu (GRPO) algoritması, her ikisiyle de KL düzenlemesi ve entropi kaybı çıkarıldı.
Kısmi tahminler için 0.2'lik bir iskonto faktörü uygulandı. Görüntü bulmacası eğitimi, küresel bir Parti boyutu 256'dan, video ve 3D yapbozlarda ise 128 kullanıldı. öğrenme oranı 1×10⁻⁶ olarak ayarlandı.
Her bir istem için model, kod çözme aşamasında 16 yanıt üretti sıcaklık 1.0'ın. Hem görüntü hem de video yapboz görevleri 1,000 adım için eğitilirken, 3B yapboz görevi 800 adım için eğitildi.
Resim Yapbozu
Görüntü bulmacası modeli, ince ayrıntılı algı ve anlayış için üç kategoride görme merkezli kıyaslama ölçütleri üzerinden test edildi: MMVP, ince taneli algı alt kümesi MMStar; MMBench; İK-Bench; V*; MME-Gerçek Dünya (hafif); LISA-Topraklama; Ve OVD-Değerlendirme.
Tek gözlü mekansal anlayış için, ölçütler şunlardı: RSV; OmniSpatial; ve Derinlik Her Şey V2 (DA-2K). Kompozisyonel görsel anlayış için kullanılan testler şarap bahçesi ve Şekerli Krep++.
Üç temel çizgi test edildi, hepsi Qwen2.5-VL-7B'den türetildi: ThinkLite-VL çok modlu akıl yürütme için; VL-Cogito genel görüş ve bilimsel görevler için; ve LLaVA-Eleştirmeni-R1 görüntü algısı için.
Hepsi yalnızca kısa cevaplar kullanılarak değerlendirildi, çünkü düşünce zinciri (CoT) mantığı bazen performansı düşürüyor.

Görüntü kıyaslamalarına ilişkin değerlendirme sonuçları. Image Jigsaw, Qwen2.5-VL-7B temel modelini tüm görev kategorilerinde (yani, ince ayrıntılı algı ve anlama; tek gözlü uzamsal anlama; ve kompozisyonel görsel akıl yürütme) geliştirerek, daha önce eğitilmiş temel modellerden daha iyi performans gösterdi.
Yukarıda gösterilen resim bulmacasının sonuçları hakkında yazarlar şunları belirtmektedir:
[Yukarıdaki görsel], yöntemimizin üç tür kıyaslamada görme merkezli yetenekleri sürekli olarak geliştirdiğini göstermektedir. Bu sonuçlar, eğitim sonrası görüntü bulmacasının dahil edilmesinin, MLLM'lerin algısal temellerini ve ince ayrıntılı görme anlayışlarını, akıl yürütme merkezli eğitim sonrası stratejilerin ötesinde önemli ölçüde geliştirdiğini doğrulamaktadır.
'Bu gelişmeleri, görüntü bulmacasını çözmenin, modelin yerel yama ayrıntılarına dikkat etmesini, küresel mekansal düzenleri çıkarsamasını ve yamalar arası ilişkiler hakkında akıl yürütmesini gerektirmesine bağlıyoruz; bu da doğrudan ince taneli, mekansal ve kompozisyonel anlayışa fayda sağlıyor.'
Video Yapboz
Video bulmacası için değerlendirme yapıldı AoTBench; Vinoground; DOMATES; FAVOR-Bank; TUNA-Tezgah; Video-MME; SıcaklıkPusulası; TV Bankı; Hareket Tezgahı; LVBench; VSI-Bench; Video-TT; Ve CVBench.
Video-R1 Soğuk başlatma ile eğitilmiş bir temel olarak kullanıldı denetimli ince ayar Ardından video anlama ve muhakeme için takviyeli öğrenme uygulandı. Bu durumda, değerlendirmeler tam muhakeme sürecini içeriyordu, çünkü bu, doğrudan cevaplardan her zaman daha iyi sonuçlar üretiyordu.
Tüm modeller 256x28x28 pikselle sınırlandırıldı ve 16, 32 ve 64 olmak üzere üç çerçeve ayarında test edildi:

Video kıyaslamalarındaki değerlendirme sonuçlarına göre Video Jigsaw tüm görevlerde ve kare ayarlarında temel değerleri sürekli olarak aşıyor.
Video Jigsaw, tüm video anlama ölçütlerinde ve kare ayarlarında tutarlı iyileştirmeler üretti; özellikle AoTBench gibi zamansal muhakeme ve yönsellik gerektiren görevlerde ve CVBench gibi çapraz video muhakeme ölçütlerinde kazanımlar güçlüydü:
'Bu sonuçlar, video bulmaca görevlerini çözmenin, modelin zamansal sürekliliği daha iyi yakalamasını, videolar arasındaki ilişkileri anlamasını, yön tutarlılığı hakkında akıl yürütmesini ve bütünsel ve genelleştirilebilir video anlama senaryolarına genelleme yapmasını teşvik ettiğini doğrulamaktadır.'
3B Veri
3B modalite için model şu şekilde değerlendirildi: SAT-Gerçek; 3DSRBanj; GörünümUzamsal; Her Açıdan; yukarıda bahsi geçen OmniSpatial; VSI-Bench; SPARBench (küçük); ve yukarıda bahsi geçen DA-2K.

3D kıyaslamalarına ilişkin değerlendirme sonuçları: 3D Jigsaw, DA-2K gibi derinlik karşılaştırma görevlerinde ve tek görünüm, çoklu görünüm ve benmerkezci video girişlerini kapsayan daha geniş 3D algılama kıyaslamalarında performansı iyileştirdi.
Yazarlar burada şöyle diyor:
[3D] Jigsaw, tüm kıyaslamalarda önemli iyileştirmeler sağlıyor. Şaşırtıcı olmayan bir şekilde, en büyük kazanım, derinlik sıralaması ön eğitim görevimizle doğrudan ilişkili bir derinlik tahmini kıyaslaması olan DA-2K'da elde edildi. Daha da önemlisi, tek görünüm (örneğin 3DSRBench, [OmniSpatial]), çoklu görünüm (örneğin ViewSpatial, All-Angles) ve benmerkezci video girişleri (örneğin VSI-Bench) dahil olmak üzere çok çeşitli diğer görevlerde tutarlı iyileştirmeler gözlemliyoruz.
'Bu sonuçlar, yaklaşımımızın yalnızca derinlik düzenleme becerisini öğretmekle kalmayıp aynı zamanda modelin 3 boyutlu mekansal yapıyı algılama ve bu yapı hakkında akıl yürütme genel yeteneğini de etkili bir şekilde güçlendirdiğini göstermektedir.'
Sonuç
Bu makalede tam olarak açıklanmayan şey, MLLM performansındaki bu gelişmeyi destekleyen görüntü ve açıklamalar arasındaki kesin ilişkidir.
İlk bakışta, bulmaca çözerek öğrenme süreci, kendi erken dönem girişimlerimize ve gelişimimize çok benziyor. Ancak, dünyaya dair kendi mekânsal yorumumuz içgüdüsel olarak daha az anlamsal ve dille ilişkili geliyor ve makaleye daha derinlemesine bakıldığında, dilin MLLM'de görsel ve anlamsal gerçeklikler arasında ne kadar ilgi çekici bir köprü görevi gördüğü ortaya çıkıyor.
* Makalenin yazarlarının daha az yaygın olan "Çok Modlu Büyük Dil Modelleri" terimini (kısaltılmış haliyle "MLLM'ler") tercih ettiğini lütfen unutmayın. Bu, yeni ortaya çıkan veya nadiren kullanılan bir terimdir ve şu modeller için geçerlidir: görüntüleri mekansal olarak kapsamlı bir şekilde akıl yürütür ve analiz eder, ancak görüntü üretmeyenler. Yeni paradigmalar ve modeller ortaya çıktıkça, bu sözlük sürekli revizyon altında.
İlk yayın tarihi Perşembe, 2 Ekim 2025








