Η γωνία του Anderson
Jigsaw Puzzles Boost AI Visual Reasoning

Νέα έρευνα δείχνει ότι τα μοντέλα AI μπορούν να γίνουν πιο έξυπνα στην όραση λύνοντας jigsaw puzzles. Η αναδιάταξη των ανακατεμένων εικόνων, βίντεο και 3D σκηνών τους βοηθά να βελτιώσουν τις οπτικές τους ικανότητες χωρίς την ανάγκη για επιπλέον δεδομένα, ετικέτες ή εργαλεία.
Στη σημερινή αναταραχή να προωθήσουν τα Multimodal Large Language Models (MLLMs) μπροστά από την αγελή (ή τουλάχιστον να παραμείνουν τρεις εκδόσεις μπροστά από τον πλησιέστερο αντίπαλο), υπάρχουν λίγες εύκολες νίκες και δεν υπάρχουν δωρεάν γεύματα.
Хотя πολλές από τις εντυπωσιακές κινεζικές FOSS εκδόσεις του 2025 αναφέρονται ότι έχουν χαμηνότερο κόστος ανάπτυξης και εκτέλεσης, οι δυτικές εκδόσεις έχουν την τάση να ρίχνουν περισσότερα στο πρόβλημα: περισσότερο όγκο δεδομένων, περισσότερη δύναμη inference, περισσότερη ηλεκτρική ενέργεια (αν και όχι, όπως σημειώσαμε πρόσφατα, περισσότεροι πραγματικοί ανθρώπινοι annotators,既然 αυτό είναι πολύ ακριβό ακόμη και για την $trillion+ κλίμακα gen-AI επανάσταση).
Στη βιβλιογραφία, οι περισσότερες υποτιθέμενες ‘δωρεάν’ προσεγγίσεις για την εξέλιξη των αρχιτεκτονικών του AI έχουν να προσφέρουν μόνο μικρές βελτιώσεις; ή αλλιώς βελτιώσεις σε περιοχές που δεν είναι οι πιο κριτικά καταζητούμενες. Παρόλα αυτά, η αναζήτηση για μέχρι τώρα ανεκάλυπτους ‘βασικούς κανόνες’ που θα μπορούσαν να επιταχύνουν το ρυθμό της ανάπτυξης είναι πολύ诱人的 να εγκαταλειφθεί.
Συγκέντρωση των κομματιών
Ενώ δεν είναι ακριβώς στην ίδια κατηγορία, μια νέα ακαδημαϊκή συνεργασία μεταξύ κινεζικών ιδρυμάτων ισχυρίζεται ότι έχει καθορίσει ότι η διδασκαλία των VLMs να λύνουν jigsaw puzzles βελτιώνει την απόδοσή τους αξιοσημείωτα, παρόλο που αυτή η ενισχυμένη μάθηση προσεγγίση έχει προηγουμένως εκτελεστεί με λιγότερη επιτυχία σε αυτήν την περιοχή, και παρόλο που δεν απαιτείται kein extra συστήματα, βοηθητικά μοντέλα ή άλλες ‘bolt-on’ διαδικασίες:

Visual Jigsaw είναι ένα αυτο-επιβλεπόμενο post-εκπαίδευση πλαίσιο που βελτιώνει τις οπτικές ικανότητες σε multimodal large language models. Με την εκπαίδευση σε jigsaw εργασίες σε εικόνες, βίντεο και 3D δεδομένα, τα μοντέλα κερδίζουν πιο οξυδερκή, λεπτομερή, χωρική και συνθετική αντίληψη σε εικόνες, ισχυρότερη χρονική συλλογιστική σε βίντεο και ενισχυμένη γεωμετρική συνείδηση σε 3D σκηνές. Source: https://arxiv.org/pdf/2509.25190
Το σύστημα που ανέπτυξαν οι ερευνητές έχει τον τίτλο Visual Jigsaw και περιλαμβάνει την εκπαίδευση των υφιστάμενων MLLMs σε υλικό που έχει καταστραφεί και τυχαία διασκορπιστεί, όπως ένα jigsaw. Οι συγγραφείς ανέπτυξαν τρεις modalities για αυτήν την προσέγγιση: εικόνα, βίντεο και 3D (δηλαδή, CGI-στυλ meshes), και βρήκαν ότι μια μετριοπαθής προσαρμογή της ίδιας διαδικασίας ωφέλησε και τις τρεις περιοχές:
… (the rest of the content remains the same, following the exact structure and translation rules)








