Connect with us

Andersonin kulma

Jigsaw-palapelit parantavat tekoälyjen visuaalista päättelyä

mm
'An industrial robot attempting to solve a jigsaw puzzle. Besides one robotic arm with which it assembles the puzzle, the robot is not anthropomorphic , and views the jigsaw puzzle with a single camera similar to a surveillance camera UHQ, stock'. SDXL and Adobe Firefly V3.

Uusi tutkimus osoittaa, että tekoälymallit voivat tulla älykkäämmiksi näkemisessä ratkaisemalla palapelit. Sekaisin olevien kuvien, videoiden ja 3D-kohtauksien järjestäminen auttaa niitä teroittamaan visuaalisia taitojaan ilman ylimääräistä dataa, merkintöjä tai työkaluja.

 

Nykyisessä kiireessä ajaa monimodaalisia suuria kielen mallimalleja (MLLM) eteenpäin, on vain muutamia helppoja voittoja ja ei ilmaisia lounaita.

Vaikka monet vuoden 2025 joukko vaikuttavia kiinalaisia FOSS-julkaisuja on raportoitu olevan alhaisemmilla kehitys- ja suorituskykykustannuksilla, länsimaiset julkaisut taipuvat heittämään enemmän ongelmaan: enemmän datavolyymiä, enemmän inference-voimaa, enemmän sähköä (vaikka ei, kuten me viimeksi huomasimme, enemmän todellisia ihmisen annotaattoreita, koska se on liian kallista jopa $ triljoonan+ mittakaavan gen-AI-vallankumoukselle).

Tutkimuskirjallisuudessa useimmat niin sanotut “ilmaiset” lähestymistavat tekoälyarkkitehtuureiden kehittymiseen tarjoavat vain vähäisiä, askelmainen parannuksia; tai sitten parannuksia alueilla, jotka eivät ole kaikkein kriittisimmin tavoiteltuja. Kuitenkin, etsintä tähän asti tuntemattomista “perusperiaatteista”, jotka voivat kiihdyttää kehityksen vauhtia, on liian houkutteleva hylätä.

Picking up the Pieces

Vaikka ei ihan tässä luokassa, uusi akateeminen yhteistyö kiinalaisten instituutioiden välillä väittää löytäneensä, että tekemällä VLM: t ratkaise jigsaw-palapelejä parantaa heidän suorituskykyään merkittävästi, vaikka tämä vahvistusoppimisen lähestymistapa on aiemmin suorittanut heikosti tässä alueessa, ja vaikka se vaatii ylimääräisiä järjestelmiä, apumalleja tai muita “bolt-on”-prosesseja:

Visual Jigsaw on itseohjautuva jälkikoulutuskehys, joka parantaa visuaalista taitoa monimodaalisissa suurissa kielen malleissa. Kouluttamalla jigsaw-tehtävissä kuvien, videoiden ja 3D-aineiston yli, mallit saavat terävämmän hienojakoiset, spatiaalisen ja kompositionaalisen havainnon kuvissa, vahvemman ajallisen päättelyn videossa ja parannetun geometrian tietoisen ymmärryksen 3D-kohtauksissa. Radar-kaaviot yllä olevassa kuvassa osoittavat johdonmukaiset voitot perus Qwen2.5-VL: n yli, arvoskaalalla sovitettu kullekin benchmarkille selkeyden vuoksi. Lähde: https://arxiv.org/pdf/2509.25190

Visual Jigsaw on itseohjautuva jälkikoulutuskehys, joka parantaa visuaalista taitoa monimodaalisissa suurissa kielen malleissa. Kouluttamalla jigsaw-tehtävissä kuvien, videoiden ja 3D-aineiston yli, mallit saavat terävämmän hienojakoiset, spatiaalisen ja kompositionaalisen havainnon kuvissa, vahvemman ajallisen päättelyn videossa ja parannetun geometrian tietoisen ymmärryksen 3D-kohtauksissa. Radar-kaaviot yllä olevassa kuvassa osoittavat johdonmukaiset voitot perus Qwen2.5-VL: n yli, arvoskaalalla sovitettu kullekin benchmarkille selkeyden vuoksi. Lähde: https://arxiv.org/pdf/2509.25190

Tutkijoiden kehittämä järjestelmä on nimeltään Visual Jigsaw, ja se käsittää kouluttamista olemassa olevia MLLM: iä aineistolla, joka on fragmentoitu ja satunnaisesti hajotettu, kuin palapeli.

… (rest of the content remains the same, following the exact same structure and formatting as the original, with only the text translated to Finnish)

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]