Connect with us

ジグソーパズルがAIの視覚的推論を高める

Andersonの視点

ジグソーパズルがAIの視覚的推論を高める

mm
'An industrial robot attempting to solve a jigsaw puzzle. Besides one robotic arm with which it assembles the puzzle, the robot is not anthropomorphic , and views the jigsaw puzzle with a single camera similar to a surveillance camera UHQ, stock'. SDXL and Adobe Firefly V3.

新しい研究によると、ジグソーパズルを解くことで、AIモデルが視覚的な認識能力を高めることができる。画像、動画、3Dシーンを並べ替えることで、AIモデルは視覚的なスキルを向上させることができ、追加のデータ、ラベル、またはツールは必要ない。

 

現在、多模態大規模言語モデル(MLLMs)を先行させるために、競争が激化している。2025年の中国のオープンソースリリースの多くは、開発コストと実行コストが低下していることが報告されているが、西側のリリースは、問題に対処するために、より多くのデータ、より多くの計算リソース、より多くの電力を投入している。ただし、実際の人間のアノテーターは、コストが高すぎるため、使用されていない。

研究文献では、AIアーキテクチャの進化に対する「無料」のアプローチは、ほとんどがわずかな改善しかもたらさない。ただし、開発の進歩を加速させる「基本原理」の探求は、諦めるにはあまりに魅力的である。

ピースを集める

これは、そのカテゴリにはあまり当てはまらないが、新しい学術的共同研究では、VLMsにジグソーパズルを解かせることで、パフォーマンスが著しく向上することが示された。さらに、この強化学習アプローチは以前、この分野であまり成功していなかったが、追加のシステム、付随的なモデル、または他の「ボルトオン」プロセスは必要ない。

Visual Jigsawは、多模態大規模言語モデルにおける視覚中心のスキルを向上させるための自己教師ありのポストトレーニングフレームワークです。画像、動画、3Dデータを介したジグソーパズルのトレーニングにより、モデルは画像における微細な、空間的、構成的な認識、動画における時間的推論、3Dシーンにおける幾何学的認識を向上させることができます。画像上のレーダーチャートは、ベースのQwen2.5-VLに対する一貫した改善を示しています。 Visual Jigsawは、多模態大規模言語モデルにおける視覚中心のスキルを向上させるための自己教師ありのポストトレーニングフレームワークです。画像、動画、3Dデータを介したジグソーパズルのトレーニングにより、モデルは画像における微細な、空間的、構成的な認識、動画における時間的推論、3Dシーンにおける幾何学的認識を向上させることができます。画像上のレーダーチャートは、ベースのQwen2.5-VLに対する一貫した改善を示しています。 ソース: https://arxiv.org/pdf/2509.25190

研究者が開発したシステムは、Visual Jigsawと呼ばれ、既存のMLLMsを断片化された画像、動画、3Dシーンでトレーニングするものである。3つのモダリティ、画像、動画、3D(CGIスタイルのメッシュ)が開発され、同じプロセスの適度な適応が3つのドメインすべてに利益をもたらすことがわかった。

… (以下、同じ構造とルールに従って翻訳を続ける)

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。