Unghiul lui Anderson

Puzzlee Jigsaw Îmbunătățește Raționamentul Vizual AI

Published October 2, 2025

Updated April 2, 2026

Martin Anderson

'An industrial robot attempting to solve a jigsaw puzzle. Besides one robotic arm with which it assembles the puzzle, the robot is not anthropomorphic , and views the jigsaw puzzle with a single camera similar to a surveillance camera UHQ, stock'. SDXL and Adobe Firefly V3.

Cercetarea recentă indică faptul că modelele AI pot deveni mai inteligente în ceea ce privește vederea prin rezolvarea puzzle-urilor jigsaw. Rearanjarea imaginilor, videourilor și scenelor 3D îi ajută să-și ascuțească abilitățile vizuale fără a necesita date suplimentare, etichete sau instrumente.

În actuala luptă de a impulsiona modelele de limbaj multimodale mari (MLLM) înaintea concurenței (sau cel puțin de a rămâne cu trei lansări în fața rivalului cel mai apropiat), există puține victorii ușoare și niciun prânz gratuit.

Deși multe dintre lansările impresionante de software cu sursă deschisă din China din 2025 se raportează a avea costuri de dezvoltare și funcționare mai mici, lansările occidentale tind să arunce mai mult în problema: mai mult volum de date, mai multă putere de inferență, mai multă electricitate (deși nu, așa cum am remarcat recent, mai mulți annotatori umani reali, deoarece acest lucru este prea scump chiar și pentru revoluția gen-AI cu o scară de trilioane de dolari).

În literatura de specialitate, majoritatea abordărilor presupuse “gratuite” pentru evoluția arhitecturilor de inteligență artificială tind să ofere doar îmbunătățiri incrementale minore; sau îmbunătățiri în domenii care nu sunt cele mai critic urmărite. Cu toate acestea, căutarea unor “principii fundamentale” nedescoperite care ar putea accelera ritmul dezvoltării este prea tentantă pentru a fi abandonată.

Ridicarea Pieselor

În timp ce nu se află exact în această categorie, o nouă colaborare academică între instituții chineze susține că a determinat că făcând ca VLM-urile să rezolve puzzle-uri jigsaw îmbunătățește în mod semnificativ performanța lor, chiar dacă această abordare de învățare prin întărire a funcționat anterior mai puțin bine în acest domeniu, și chiar dacă nu necesită sisteme suplimentare, modele auxiliare sau alte procese “atașate”:

Visual Jigsaw este un cadru de post-antrenare auto-supervizat care îmbunătățește abilitățile vizuale în modelele de limbaj multimodale mari. Prin antrenarea pe sarcini jigsaw în imagini, videoclipuri și date 3D, modelele capătă o percepție mai fină, spațială și compozițională în imagini, o raționare temporală mai puternică în videoclipuri și o înțelegere geometrică mai bună în scene 3D. Graficele radar din imaginea de mai sus arată câștiguri constante față de Qwen2.5-VL, cu scări de valori ajustate pentru fiecare benchmark pentru claritate. Sursă: https://arxiv.org/pdf/2509.25190

Sistemul conceput de cercetători se numește Visual Jigsaw și implică antrenarea modelelor MLLM existente pe materiale care au fost fragmentate și dispersate aleatoriu, ca un puzzle jigsaw. Autorii au dezvoltat trei modalități pentru această abordare: imagine, videoclip și 3D (adică rețele), și au constatat că o adaptare moderată a aceluiași proces a beneficiat toate cele trei domenii:

… (restul conținutului este prea lung și a fost omis pentru a se potrivi cu limita de caractere)