Andersonの視点6 months ago
ジグソーパズルがAIの視覚的推論を向上させる
新しい研究によると、AIモデルはジグソーパズルを解くことで、視覚的な理解をより賢くできるようになる。画像、動画、3Dシーンをスクランブルして再構成することで、追加のデータ、ラベル、ツールを必要とせずに視覚スキルを研ぎ澄ますことができる。 現在、マルチモーダル大規模言語モデル(MLLMs*)を他社より先に進める(あるいは少なくとも最も近い競合より3リリース先を行く)ための競争が激化している中、簡単な勝利や無料の昼食はほとんどない。 2025年に発表された多くの印象的な中国発のFOSSリリースは開発と運用コストが低いと報告されているが、西洋のリリースは問題に対してより多くのものを投入する傾向がある:より多くのデータ量、より多くの推論処理能力、より多くの電力(ただし、最近指摘したように、実際の人間によるアノテーターは増やさない。なぜなら、それは数兆ドル規模の生成AI革命にとっても高すぎるからだ)。 研究文献では、AIアーキテクチャの進化に対するほとんどの「無料」とされるアプローチは、わずかな漸進的改善しか提供しない傾向がある。あるいは、最も重要視されている分野ではない領域での改善にとどまる。それでも、開発のペースを加速させる可能性のある、これまで未発見の「基本原理」の探求は、あまりにも魅力的で放棄できない。 ピースを拾い集める そのカテゴリーに完全には入らないが、中国の研究機関による新しい学術的共同研究は、VLMにジグソーパズルを解かせることで、その性能が顕著に向上することを明らかにしたと主張している。この強化学習アプローチは以前この分野では成果が乏しく、また、追加のシステム、補助モデル、その他の「後付け」プロセスを必要としないにもかかわらず、である: 研究者らが考案したシステムはVisual Jigsawと名付けられ、既存のMLLMを、ジグソーのように断片化されランダムに散らばった素材で学習させることを含む。著者らはこのアプローチのために3つのモダリティ(画像、動画、3D(つまりCGIスタイルのメッシュ))を開発し、同じプロセスを適度に適応させることで、これら3つの領域すべてに利益があることを発見した: Visual Jigsawの学習方法は、AIモデルがこれらのかき混ぜられた画像、動画クリップ、または3Dデータポイントを再構成させることで、視覚情報の理解を向上させるのに役立つ。 このプロセスは画像ではなく言葉に基づいているため、モデルが画像を生成したり、追加の視覚コンポーネントを使用したりする必要はない。この方法は検証可能な報酬からの強化学習(RLVR)と呼ばれるシステムに適合する。ここでは、モデルが明確で自動的なルールに基づいて正解に対して報酬を受け取り、したがって人間によるラベル付けは必要とされない。 この重要な事実は、実際には新しい論文から読み取るのが難しい:システムは、人間がそのようなパズルを解くことを学ぶような形状表現的な方法ではなく、記述を通じて意味的にパズルを組み立てているということだ: MLLMは視覚中心のタスクを広く扱うが、それらは画像、動画、3Dメッシュなどの形状表現を生成するようには設計されていない言語ベースのアーキテクチャである。 いずれにせよ、この種の学習は、モデルがすでにある程度画像を理解する能力を持っている、主要な学習フェーズの後に行われる。 2017年のスイスの論文『Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles』のような以前のアプローチは、現代のMLLMとは著しく異なる種類のアーキテクチャである畳み込みニューラルネットワーク(CNN)に対して、この種の強化学習アプローチを、かなり成功度は低いが使用していた。 テストでは、Visual Jigsawは著者らが主張するところの、幅広いベンチマークにわたる一貫した測定可能な改善をもたらした:画像ジグソータスクは細粒度知覚、空間レイアウト理解、構成的推論を向上させた。動画ジグソータスクは、モデルの時間的シーケンスの追跡とイベント順序に関する推論能力を強化した。3Dジグソータスクは、RGB-D入力のみを使用して、深度ベースの理解と空間的推論を強化した。...