Connect with us

Погляд Anderson

Пазли Джигсо Підвищують Візуальне Розуміння Штучного Інтелекту

mm
'An industrial robot attempting to solve a jigsaw puzzle. Besides one robotic arm with which it assembles the puzzle, the robot is not anthropomorphic , and views the jigsaw puzzle with a single camera similar to a surveillance camera UHQ, stock'. SDXL and Adobe Firefly V3.

Нові дослідження вказують на те, що моделі штучного інтелекту можуть стати розумнішими у сприйнятті візуальної інформації, розв’язуючи пазли Джигсо. Перестановка перемішаних зображень, відео та 3D-сцен giúp їм підвищити свої візуальні навички без потреби у додаткових даних, мітках чи інструментах.

 

У поточній сутичці за просування Мультимодальних Великомасштабних Моделей Мови (MLLMs*) впереди стада (або хоча б залишатися на три випуски попереду найближчого суперника), є небагато легких перемог і немає безкоштовних обідів.

Хоча багато з 2025 року масштабних китайських відкритих вихідних кодів повідомляють про нижчі витрати на розробку та експлуатацію, західні випуски схильні кидати більше у проблему: більше обсягу даних, більше потужності висновку, більше електричної енергії (хоча не, як ми недавно відзначили, більше фактичних людських анотаторів, оскільки це занадто дорого навіть для $трільйон+ масштабу генеративної революції AI).

У дослідницькій літературі більшість нібито “безкоштовних” підходів до еволюції архітектури штучного інтелекту пропонують лише незначні інкрементні покращення; або ж покращення в областях, які не є найбільш критично переслідуваними. Тим не менш, пошук досі недовідених “фундаментальних принципів”, які могли б прискорити темп розвитку, є занадто привабливим, щоб його покинути.

Зібрання Пазлів

Хоча це не зовсім належить до цієї категорії, нове академічне співробітництво між китайськими установами стверджує, що вони визначили, що змусивши Мультимодальні Великомасштабні Моделі Мови (MLLMs) розв’язувати пазли Джигсо, покращує їхню продуктивність помітно, хоча цей підхід в навчання з підкріпленням раніше показував погані результати в цій області, і хоча це не вимагає жодних додаткових систем, допоміжних моделей чи інших “bolt-on” процесів:

… (переклад продовжується згідно з правилами)

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]