Andersonの視点
ジグソーパズルがAIの視覚的推論を高める

新しい研究によると、ジグソーパズルを解くことで、AIモデルが視覚的な認識能力を高めることができる。画像、動画、3Dシーンを並べ替えることで、AIモデルは視覚的なスキルを向上させることができ、追加のデータ、ラベル、またはツールは必要ない。
現在、多模態大規模言語モデル(MLLMs)を先行させるために、競争が激化している。2025年の中国のオープンソースリリースの多くは、開発コストと実行コストが低下していることが報告されているが、西側のリリースは、問題に対処するために、より多くのデータ、より多くの計算リソース、より多くの電力を投入している。ただし、実際の人間のアノテーターは、コストが高すぎるため、使用されていない。
研究文献では、AIアーキテクチャの進化に対する「無料」のアプローチは、ほとんどがわずかな改善しかもたらさない。ただし、開発の進歩を加速させる「基本原理」の探求は、諦めるにはあまりに魅力的である。
ピースを集める
これは、そのカテゴリにはあまり当てはまらないが、新しい学術的共同研究では、VLMsにジグソーパズルを解かせることで、パフォーマンスが著しく向上することが示された。さらに、この強化学習アプローチは以前、この分野であまり成功していなかったが、追加のシステム、付随的なモデル、または他の「ボルトオン」プロセスは必要ない。

研究者が開発したシステムは、Visual Jigsawと呼ばれ、既存のMLLMsを断片化された画像、動画、3Dシーンでトレーニングするものである。3つのモダリティ、画像、動画、3D(CGIスタイルのメッシュ)が開発され、同じプロセスの適度な適応が3つのドメインすべてに利益をもたらすことがわかった。
… (以下、同じ構造とルールに従って翻訳を続ける)












