Artificial Intelligence
コンピュータービジョンで「融合した」人間を分離する
シンガポールのヒュンダイ・モーター・グループ・イノベーション・センターからの新しい論文は、コンピュータービジョンで「融合した」人間を分離する方法を提案している。つまり、物体認識フレームワークが何らかの形で別の人間に「近すぎる」人間を発見した場合(そのような場合) (「抱き合う」動作や「後ろに立つ」ポーズなど)、表現された 2 人の人物を解きほぐすことができず、それらを 1 人の人物または実体と混同します。
これは、近年研究コミュニティで大きな注目を集めている注目すべき問題です。 ハイパースケールの人間主導のカスタムラベル付けという明白だが通常は手の届かない費用をかけずにこの問題を解決できれば、最終的には次のようなテキストから画像へのシステムにおける人間の個性の改善が可能になる可能性があります。 安定拡散、指示されたポーズでは複数の人が互いに接近する必要があり、人々を「溶かす」ことがよくあります。
DALL-E 2 や安定拡散などの生成モデルは (クローズド ソースの DALL-E 2 の場合、知る限り) 現在セマンティック セグメンテーションやオブジェクト認識を使用していませんが、これらのグロテスクな人間のかばん語は使用できませんでした。現時点では、このような上流の方法を適用することで問題を解決できます。なぜなら、最先端の物体認識ライブラリやリソースは、人間のもつれを解くのにそれほど優れていないからです。 CLIP潜在拡散モデルのベースのワークフロー。
この問題に対処するために、 新しい紙 – タイトル付き 人間はさらに多くの人間にラベルを付ける必要はありません: オクルージョンされた人間インスタンスのセグメンテーションのためのオクルージョン コピー & ペースト– 半合成データに対する最近の「カット アンド ペースト」アプローチを適応および改善し、最も困難なソース素材に対しても、タスクで新しい SOTA リードを達成します。
それをやめてください!
修正されたメソッド – タイトル オクルージョンのコピー&ペースト – は 2021 年から派生したものです 単純なコピー&ペースト Google Research が主導した論文では、抽出された物体や人物をさまざまなソース トレーニング画像に重ね合わせることで、画像内で見つかった各インスタンスを離散化する画像認識システムの能力が向上する可能性があることが示唆されています。
新しいバージョンでは、この自動化されたアルゴリズムによる「再貼り付け」に制限とパラメータが追加され、いくつかの重要な要素に基づいて、他の画像に「転送」する可能性のある候補が詰まった画像の「バスケット」にプロセスを類推します。
要素の制御
それらの制限要因には次のものがあります。 確率 カット アンド ペーストが発生することにより、プロセスが常に発生することがなくなり、データの拡張を損なう「飽和」効果が発生します。 の 画像の数 バスケットがいつでも持つことになります。「セグメント」の数が増えるとインスタンスの多様性が向上しますが、前処理時間が長くなります。 と 範囲、「ホスト」イメージに貼り付けられるイメージの数を決定します。
後者については、紙のメモでは 「発生させるには十分なオクルージョンが必要ですが、画像が乱雑になり学習に悪影響を与える可能性があるため、多すぎないように注意してください。」
OC&P の他の XNUMX つの革新は次のとおりです。 ターゲットを絞った貼り付け & 拡張インスタンスの貼り付け.
ターゲットを絞った貼り付けにより、適切なイメージがターゲット イメージ内の既存のインスタンスの近くに配置されます。 以前の作業からの以前のアプローチでは、新しい要素はコンテキストを考慮せずに画像の境界内にのみ制限されていました。
一方、拡張インスタンスの貼り付けでは、貼り付けられたインスタンスが、システムによって何らかの形で分類される可能性のある「独特の外観」を示さないようにします。これにより、一般化や適用性を妨げる可能性のある除外や「特別な扱い」につながる可能性があります。 。 貼り付けの拡張により、明るさと鮮明さ、拡大縮小と回転、彩度などの視覚的要素が調整されます。
さらに、OC&P は次のことを規制しています。 最小サイズ 貼り付けられたインスタンスの場合。 たとえば、大勢の群衆のシーンから XNUMX 人の人物の画像を抽出し、それを別の画像に貼り付けることができる可能性がありますが、その場合、含まれるピクセル数が少ないため、認識には役立たない可能性があります。 したがって、システムはターゲット イメージの均等化された辺の長さの比率に基づいて最小スケールを適用します。
さらに、OC&P はスケールを意識した貼り付けを導入しており、貼り付け対象と同様の対象を探すことに加えて、ターゲット イメージ内の境界ボックスのサイズも考慮されます。 ただし、これは人々がもっともらしい、または現実的であると考えるような合成画像 (下の画像を参照) にはつながりません。むしろ、トレーニング中に役立つ方法で、意味的に適切な要素を互いに近くに組み立てます。
リアリティ·バイツ
OC&P のベースとなっている以前の作業と現在の実装はどちらも、最終的な「モンタージュ」画像の信頼性、つまり「フォトリアリティ」をあまり重視していません。 ただし、最終アセンブリが完全に下降しないことが重要ですが、 教義 (そうしないと、トレーニングされたシステムを現実世界に展開する際に、トレーニングされたようなシーンの要素に遭遇することは決して望めないでしょう)、どちらの取り組みでも、「視覚的信頼性」の顕著な増加により、前処理時間が増加するだけでなく、そのような「リアリズムの強化」は実際には逆効果である可能性が高いということです。
データとテスト
テスト段階では、システムは 人 のクラス MS ココ 262,465 枚の画像にわたる 64,115 人の人間の例を特徴とするデータセット。 ただし、MS COCO よりも高品質のマスクを入手するために、画像も受信しました。 リーヴィス マスクの注釈。
拡張システムが多数の遮蔽された人間の画像にどれだけうまく対抗できるかを評価するために、研究者らは OC&P を OC人間 (Ocluded Human) ベンチマーク。
OCHuman ベンチマークには網羅的な注釈が付けられていないため、新しい論文の研究者は、完全にラベルが付けられた例のみのサブセットを作成し、「OCHuman」というタイトルを付けました。FL。 これにより、数が減りました 人 検証用には 2,240 枚のイメージで 1,113 個のインスタンスがあり、テストでは 1,923 枚の実際の画像で 951 個のインスタンスが使用されます。 元のセットと新しく厳選されたセットの両方が、中心的な指標として平均平均精度 (mAP) を使用してテストされました。
一貫性を保つために、アーキテクチャは次のように構成されています。 マスクR-CNN ResNet-50 バックボーンと 機能ピラミッド 後者は、精度とトレーニング速度の間で許容可能な妥協点を提供します。
研究者らは上流の悪影響を指摘しているため、 ImageNet 同様の状況での影響を考慮し、Facebook の 4 年リリースの初期化パラメータに従って、システム全体が 100 つの NVIDIA V75 GPU で 2021 エポックにわたって最初からトレーニングされました。 ディテクトロン2.
結果
上記の結果に加えて、ベースラインの結果は次のとおりです。 MM検出 (およびその XNUMX つの関連モデル) のテストでは、複雑なポーズから人間を識別する能力において OC&P が明らかにリードしていることが示されました。
優れたパフォーマンスを発揮するだけでなく、 ポセグ & ポーズ 2 セグおそらく、この論文の最も優れた成果の XNUMX つは、このシステムが、試験で競合したフレームワークを含む既存のフレームワークに非常に一般的に適用できることです (論文の冒頭近くにある、最初の結果ボックスの有無の比較を参照してください)。記事)。
この論文は次のように結論づけています。
「私たちのアプローチの主な利点は、あらゆるモデルや他のモデル中心の改善に簡単に適用できることです。 ディープラーニング分野の進歩のスピードを考えると、トレーニングの他のあらゆる側面と高度に相互運用性のあるアプローチを持つことは、誰にとっても有利です。 これをモデル中心の改善と統合して、遮蔽された人物インスタンスのセグメンテーションを効果的に解決することが将来の課題として残されています。
テキストと画像の合成を改善する可能性
筆頭著者の Evan Ling 氏は、私たちへの電子メール* の中で、OC&P の主な利点は、オリジナルのマスクラベルを保持し、新しいコンテキスト (つまり、以前に使用されていた画像) で「無料」で新しい価値を得ることができることであると述べています。に貼り付けられました。
人間の意味的セグメンテーションは、安定拡散などのモデルが人々を(よくあるように「混ぜ合わせる」のではなく)個別化する際の難しさと密接に関連しているように見えますが、意味的ラベル付け文化が悪夢のような人間に与える影響SD と DALL-E 2 が頻繁に出力するレンダリングは、非常にはるかに上流にあります。
何十億もの ライオン5B Stable Diffusion の生成能力を備えたサブセット イメージには、イメージやデータベース コンテンツからレンダリングを構成する CLIP アーキテクチャがある時点でそのようなインスタンス化の恩恵を受けていたとしても、バウンディング ボックスやインスタンス マスクなどのオブジェクト レベルのラベルが含まれていません。 むしろ、LAION 画像には「無料」というラベルが付けられています。ラベルは、Web からデータセットに収集されたときに画像に関連付けられたメタデータや環境キャプションなどから派生しているためです。
「でも、それはさておき」とリンは私たちに語った。 '私たちの OC&P に似たある種の拡張は、テキストから画像への生成モデルのトレーニング中に利用できます。 しかし、拡張されたトレーニング画像のリアリズムが問題になる可能性があると思います。
「私たちの研究では、教師ありインスタンスのセグメンテーションには一般に「完全な」リアリズムは必要ないことを示していますが、テキストから画像への生成モデルのトレーニングでも同じ結論が導き出せるかどうかはあまりわかりません (特にその出力の場合)非常に現実的であると予想されます)。 この場合、拡張画像のリアリズムを「完璧にする」という点で、さらなる作業が必要になる可能性があります。
クリップは すでに使用されています セマンティック セグメンテーションのためのマルチモーダル ツールの可能性として、OC&P などの改善された人物認識および個性化システムが、最終的には「融合」され歪んだ人間の表現を恣意的に拒否するシステム内のフィルターまたは分類器に開発できる可能性があることを示唆していますが、これは達成が困難な課題です現在は Stable Diffusion を使用しています。これは、どこでエラーが発生したかを理解する能力が限られているためです (そのような能力があれば、おそらく最初から間違いを犯さなかったでしょう)。
「もう一つの疑問は次のとおりです」とリン氏は示唆する。 「人間の融合」の問題を軽減するための補完的なモデル アーキテクチャ設計を行わずに、トレーニング作業中に遮蔽された人間の画像をこれらの生成モデルに供給するだけでよいでしょうか? それはおそらく、即答するのが難しい質問です。 テキストから画像への生成モデルのトレーニング中に、(インスタンス マスクなどのインスタンス レベルのラベルを介して) ある種のインスタンス レベルのガイダンスをどのように埋め込むことができるかを見るのは間違いなく興味深いでしょう。」
* 10 年 2022 月 XNUMX 日
初版は10年2022月XNUMX日。