Погляд Anderson
Пазли Джигсо Підвищують Візуальне Розуміння Штучного Інтелекту

Нові дослідження вказують на те, що моделі штучного інтелекту можуть стати розумнішими у сприйнятті візуальної інформації, розв’язуючи пазли Джигсо. Перестановка перемішаних зображень, відео та 3D-сцен giúp їм підвищити свої візуальні навички без потреби у додаткових даних, мітках чи інструментах.
У поточній сутичці за просування Мультимодальних Великомасштабних Моделей Мови (MLLMs*) впереди стада (або хоча б залишатися на три випуски попереду найближчого суперника), є небагато легких перемог і немає безкоштовних обідів.
Хоча багато з 2025 року масштабних китайських відкритих вихідних кодів повідомляють про нижчі витрати на розробку та експлуатацію, західні випуски схильні кидати більше у проблему: більше обсягу даних, більше потужності висновку, більше електричної енергії (хоча не, як ми недавно відзначили, більше фактичних людських анотаторів, оскільки це занадто дорого навіть для $трільйон+ масштабу генеративної революції AI).
У дослідницькій літературі більшість нібито “безкоштовних” підходів до еволюції архітектури штучного інтелекту пропонують лише незначні інкрементні покращення; або ж покращення в областях, які не є найбільш критично переслідуваними. Тим не менш, пошук досі недовідених “фундаментальних принципів”, які могли б прискорити темп розвитку, є занадто привабливим, щоб його покинути.
Зібрання Пазлів
Хоча це не зовсім належить до цієї категорії, нове академічне співробітництво між китайськими установами стверджує, що вони визначили, що змусивши Мультимодальні Великомасштабні Моделі Мови (MLLMs) розв’язувати пазли Джигсо, покращує їхню продуктивність помітно, хоча цей підхід в навчання з підкріпленням раніше показував погані результати в цій області, і хоча це не вимагає жодних додаткових систем, допоміжних моделей чи інших “bolt-on” процесів:
… (переклад продовжується згідно з правилами)








