Artificial Intelligence

コンピュータービジョンで「融合した」人間を分離する

更新中 on 2022 年 12 月 9 日

シンガポールのヒュンダイ・モーター・グループ・イノベーション・センターからの新しい論文は、コンピュータービジョンで「融合した」人間を分離する方法を提案している。つまり、物体認識フレームワークが何らかの形で別の人間に「近すぎる」人間を発見した場合（そのような場合） (「抱き合う」動作や「後ろに立つ」ポーズなど)、表現された 2 人の人物を解きほぐすことができず、それらを 1 人の人物または実体と混同します。

2210.03686 つが XNUMX つになりますが、セマンティックセグメンテーションではそれは良いことではありません。ここでは、論文の新しいシステムが、複雑で挑戦的な画像の中で絡み合う人々の個性化に関して最先端の結果を達成していることがわかります。出典: https://arxiv.org/pdf/XNUMX.pdf

XNUMX つが XNUMX つになりますが、セマンティックセグメンテーションではそれは良いことではありません。ここでは、論文の新しいシステムが、複雑で挑戦的な画像の中で絡み合う人々の個性化に関して最先端の結果を達成していることがわかります。出典：https://arxiv.org/pdf/2210.03686.pdf

これは、近年研究コミュニティで大きな注目を集めている注目すべき問題です。ハイパースケールの人間主導のカスタムラベル付けという明白だが通常は手の届かない費用をかけずにこの問題を解決できれば、最終的には次のようなテキストから画像へのシステムにおける人間の個性の改善が可能になる可能性があります。安定拡散、指示されたポーズでは複数の人が互いに接近する必要があり、人々を「溶かす」ことがよくあります。

恐怖を受け入れましょう – DALL-E 2 や Stable Diffusion (両方とも上で紹介) などのテキストから画像へのモデルは、互いに非常に接近した人々を表現するのに苦労します。

DALL-E 2 や安定拡散などの生成モデルは (クローズドソースの DALL-E 2 の場合、知る限り) 現在セマンティックセグメンテーションやオブジェクト認識を使用していませんが、これらのグロテスクな人間のかばん語は使用できませんでした。現時点では、このような上流の方法を適用することで問題を解決できます。なぜなら、最先端の物体認識ライブラリやリソースは、人間のもつれを解くのにそれほど優れていないからです。 CLIP潜在拡散モデルのベースのワークフロー。

この問題に対処するために、新しい紙 – タイトル付き人間はさらに多くの人間にラベルを付ける必要はありません: オクルージョンされた人間インスタンスのセグメンテーションのためのオクルージョンコピー & ペースト– 半合成データに対する最近の「カットアンドペースト」アプローチを適応および改善し、最も困難なソース素材に対しても、タスクで新しい SOTA リードを達成します。

新しいオクルージョンコピーアンドペースト手法は現在、オクルージョンに特化したモデリングなど、精巧でより専用の方法で課題に対処する以前のフレームワークやアプローチに対してさえ、この分野をリードしています。

それをやめてください！

修正されたメソッド – タイトル オクルージョンのコピー＆ペースト – は 2021 年から派生したものです 単純なコピー＆ペースト Google Research が主導した論文では、抽出された物体や人物をさまざまなソーストレーニング画像に重ね合わせることで、画像内で見つかった各インスタンスを離散化する画像認識システムの能力が向上する可能性があることが示唆されています。

2021 年の Google Research 主導の論文「Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation」によると、より優れた、より鋭敏な画像認識モデルのトレーニングを目的として、ある写真の要素が他の写真に「移行」していることがわかります。。出典: https://arxiv.org/pdf/2012.07177.pdf

2021 年の Google Research 主導の論文「Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation」によると、より良い画像認識モデルをトレーニングする目的で、ある写真の要素が他の写真に「移行」していることがわかります。出典：https://arxiv.org/pdf/2012.07177.pdf

新しいバージョンでは、この自動化されたアルゴリズムによる「再貼り付け」に制限とパラメータが追加され、いくつかの重要な要素に基づいて、他の画像に「転送」する可能性のある候補が詰まった画像の「バスケット」にプロセスを類推します。

OC&P の概念的なワークフロー。

要素の制御

それらの制限要因には次のものがあります。確率カットアンドペーストが発生することにより、プロセスが常に発生することがなくなり、データの拡張を損なう「飽和」効果が発生します。の 画像の数 バスケットがいつでも持つことになります。「セグメント」の数が増えるとインスタンスの多様性が向上しますが、前処理時間が長くなります。と範囲、「ホスト」イメージに貼り付けられるイメージの数を決定します。

後者については、紙のメモでは「発生させるには十分なオクルージョンが必要ですが、画像が乱雑になり学習に悪影響を与える可能性があるため、多すぎないように注意してください。」

OC&P の他の XNUMX つの革新は次のとおりです。 ターゲットを絞った貼り付け & 拡張インスタンスの貼り付け.

ターゲットを絞った貼り付けにより、適切なイメージがターゲットイメージ内の既存のインスタンスの近くに配置されます。以前の作業からの以前のアプローチでは、新しい要素はコンテキストを考慮せずに画像の境界内にのみ制限されていました。

ターゲットを絞った貼り付けによるこの「貼り付け」は人間の目には明らかですが、OC&P とその前身は両方とも、視覚的な信頼性の向上は必ずしも重要ではなく、欠点になる可能性があることを発見しました (下記の「Reality Bites」を参照)。

一方、拡張インスタンスの貼り付けでは、貼り付けられたインスタンスが、システムによって何らかの形で分類される可能性のある「独特の外観」を示さないようにします。これにより、一般化や適用性を妨げる可能性のある除外や「特別な扱い」につながる可能性があります。。貼り付けの拡張により、明るさと鮮明さ、拡大縮小と回転、彩度などの視覚的要素が調整されます。

新しい論文の補足資料より: 既存の認識フレームワークに OC&P を追加することは非常に簡単で、非常に狭い範囲内で人々を優れた個別化する結果になります。出典: https://arxiv.org/src/2210.03686v1/anc/OcclusionCopyPaste_Supplementary.pdf

さらに、OC&P は次のことを規制しています。 最小サイズ 貼り付けられたインスタンスの場合。たとえば、大勢の群衆のシーンから XNUMX 人の人物の画像を抽出し、それを別の画像に貼り付けることができる可能性がありますが、その場合、含まれるピクセル数が少ないため、認識には役立たない可能性があります。したがって、システムはターゲットイメージの均等化された辺の長さの比率に基づいて最小スケールを適用します。

さらに、OC&P はスケールを意識した貼り付けを導入しており、貼り付け対象と同様の対象を探すことに加えて、ターゲットイメージ内の境界ボックスのサイズも考慮されます。ただし、これは人々がもっともらしい、または現実的であると考えるような合成画像 (下の画像を参照) にはつながりません。むしろ、トレーニング中に役立つ方法で、意味的に適切な要素を互いに近くに組み立てます。

リアリティ·バイツ

OC&P のベースとなっている以前の作業と現在の実装はどちらも、最終的な「モンタージュ」画像の信頼性、つまり「フォトリアリティ」をあまり重視していません。ただし、最終アセンブリが完全に下降しないことが重要ですが、教義 (そうしないと、トレーニングされたシステムを現実世界に展開する際に、トレーニングされたようなシーンの要素に遭遇することは決して望めないでしょう)、どちらの取り組みでも、「視覚的信頼性」の顕著な増加により、前処理時間が増加するだけでなく、そのような「リアリズムの強化」は実際には逆効果である可能性が高いということです。

新しい論文の補足資料より: 「ランダムブレンディング」による拡張画像の例。これらのシーンは、人にとっては幻覚を起こすように見えるかもしれませんが、それでも、似たような主題が混在しています。オクルージョンは人間の目には幻想的ですが、潜在的なオクルージョンの性質を事前に知ることはできず、トレーニングすることも不可能です。したがって、このような奇妙な形状の「カットオフ」は、トレーニングされたシステムに探求を強いるのに十分です。シーンをより説得力のあるものにするための複雑な Photoshop スタイルの方法論を開発する必要がなく、部分的な対象被写体を抽出して認識します。

データとテスト

テスト段階では、システムは人のクラス MS ココ 262,465 枚の画像にわたる 64,115 人の人間の例を特徴とするデータセット。ただし、MS COCO よりも高品質のマスクを入手するために、画像も受信しました。リーヴィスマスクの注釈。

Facebook の調査から 2019 年にリリースされた LVIS は、大規模語彙インスタンスセグメンテーション用の膨大なデータセットです。 出典：https://arxiv.org/pdf/1908.03195.pdf

拡張システムが多数の遮蔽された人間の画像にどれだけうまく対抗できるかを評価するために、研究者らは OC&P を OC人間 (Ocluded Human) ベンチマーク。

2 年の Pose2018Seg 検出プロジェクトを支援するために導入された OCHuman データセットの例。この取り組みは、人々の姿勢とポーズを、身体を表すピクセルが終了する可能性が高い場所の意味論的区切りとして使用することにより、人々の意味論的セグメンテーションを改善することを目指しました。出典: https://github.com/liruilong940607/OCHumanApi

2 年に Pose2018Seg 検出プロジェクトを支援するために導入された OCHuman データセットの例。この取り組みは、人々の姿勢とポーズを身体を表すピクセルの意味的区切りとして使用することにより、人々の意味的セグメンテーションを改善することを目指しました。出典: https://github.com/liruilong940607/OCHumanApi

OCHuman ベンチマークには網羅的な注釈が付けられていないため、新しい論文の研究者は、完全にラベルが付けられた例のみのサブセットを作成し、「OCHuman」というタイトルを付けました。^FL。これにより、数が減りました人検証用には 2,240 枚のイメージで 1,113 個のインスタンスがあり、テストでは 1,923 枚の実際の画像で 951 個のインスタンスが使用されます。元のセットと新しく厳選されたセットの両方が、中心的な指標として平均平均精度 (mAP) を使用してテストされました。

一貫性を保つために、アーキテクチャは次のように構成されています。マスクR-CNN ResNet-50 バックボーンと機能ピラミッド後者は、精度とトレーニング速度の間で許容可能な妥協点を提供します。

研究者らは上流の悪影響を指摘しているため、 ImageNet 同様の状況での影響を考慮し、Facebook の 4 年リリースの初期化パラメータに従って、システム全体が 100 つの NVIDIA V75 GPU で 2021 エポックにわたって最初からトレーニングされました。ディテクトロン2.

結果

上記の結果に加えて、ベースラインの結果は次のとおりです。 MM検出 (およびその XNUMX つの関連モデル) のテストでは、複雑なポーズから人間を識別する能力において OC&P が明らかにリードしていることが示されました。

優れたパフォーマンスを発揮するだけでなく、ポセグ & ポーズ 2 セグおそらく、この論文の最も優れた成果の XNUMX つは、このシステムが、試験で競合したフレームワークを含む既存のフレームワークに非常に一般的に適用できることです (論文の冒頭近くにある、最初の結果ボックスの有無の比較を参照してください)。記事）。

この論文は次のように結論づけています。

「私たちのアプローチの主な利点は、あらゆるモデルや他のモデル中心の改善に簡単に適用できることです。ディープラーニング分野の進歩のスピードを考えると、トレーニングの他のあらゆる側面と高度に相互運用性のあるアプローチを持つことは、誰にとっても有利です。これをモデル中心の改善と統合して、遮蔽された人物インスタンスのセグメンテーションを効果的に解決することが将来の課題として残されています。

テキストと画像の合成を改善する可能性

筆頭著者の Evan Ling 氏は、私たちへの電子メール* の中で、OC&P の主な利点は、オリジナルのマスクラベルを保持し、新しいコンテキスト (つまり、以前に使用されていた画像) で「無料」で新しい価値を得ることができることであると述べています。に貼り付けられました。

人間の意味的セグメンテーションは、安定拡散などのモデルが人々を（よくあるように「混ぜ合わせる」のではなく）個別化する際の難しさと密接に関連しているように見えますが、意味的ラベル付け文化が悪夢のような人間に与える影響SD と DALL-E 2 が頻繁に出力するレンダリングは、非常にはるかに上流にあります。

何十億ものライオン5B Stable Diffusion の生成能力を備えたサブセットイメージには、イメージやデータベースコンテンツからレンダリングを構成する CLIP アーキテクチャがある時点でそのようなインスタンス化の恩恵を受けていたとしても、バウンディングボックスやインスタンスマスクなどのオブジェクトレベルのラベルが含まれていません。むしろ、LAION 画像には「無料」というラベルが付けられています。ラベルは、Web からデータセットに収集されたときに画像に関連付けられたメタデータや環境キャプションなどから派生しているためです。

「でも、それはさておき」とリンは私たちに語った。 '私たちの OC&P に似たある種の拡張は、テキストから画像への生成モデルのトレーニング中に利用できます。しかし、拡張されたトレーニング画像のリアリズムが問題になる可能性があると思います。

「私たちの研究では、教師ありインスタンスのセグメンテーションには一般に「完全な」リアリズムは必要ないことを示していますが、テキストから画像への生成モデルのトレーニングでも同じ結論が導き出せるかどうかはあまりわかりません (特にその出力の場合)非常に現実的であると予想されます）。この場合、拡張画像のリアリズムを「完璧にする」という点で、さらなる作業が必要になる可能性があります。

クリップはすでに使用されていますセマンティックセグメンテーションのためのマルチモーダルツールの可能性として、OC&P などの改善された人物認識および個性化システムが、最終的には「融合」され歪んだ人間の表現を恣意的に拒否するシステム内のフィルターまたは分類器に開発できる可能性があることを示唆していますが、これは達成が困難な課題です現在は Stable Diffusion を使用しています。これは、どこでエラーが発生したかを理解する能力が限られているためです (そのような能力があれば、おそらく最初から間違いを犯さなかったでしょう)。

現在、OpenAI の CLIP フレームワーク (DALL-E 2 と Stable Diffusion の核心) をセマンティックセグメンテーションに利用している数多くのプロジェクトのうちの 2022 つにすぎません。出典: https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_XNUMX_paper.pdf

現在、OpenAI の CLIP フレームワーク (DALL-E 2 と Stable Diffusion の核心) をセマンティックセグメンテーションに利用している数多くのプロジェクトのうちの XNUMX つにすぎません。出典: https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_2022_paper.pdf

「もう一つの疑問は次のとおりです」とリン氏は示唆する。「人間の融合」の問題を軽減するための補完的なモデルアーキテクチャ設計を行わずに、トレーニング作業中に遮蔽された人間の画像をこれらの生成モデルに供給するだけでよいでしょうか? それはおそらく、即答するのが難しい質問です。テキストから画像への生成モデルのトレーニング中に、(インスタンスマスクなどのインスタンスレベルのラベルを介して) ある種のインスタンスレベルのガイダンスをどのように埋め込むことができるかを見るのは間違いなく興味深いでしょう。」

* 10 年 2022 月 XNUMX 日

初版は10年2022月XNUMX日。