Artificial Intelligence

YOLOv7: 最先端の物体検出アルゴリズム?

公開済み

10ヶ月前

２０２２年７月１１日

6 年 2022 月 7 日は、YOLOv7 がリリースされた日であるため、AI の歴史のランドマークとして記録されるでしょう。 YOLOv7 は、発売以来、Computer Vision 開発者コミュニティで最もホットなトピックであり、それには正当な理由があります。 YOLOvXNUMX はすでに物体検出業界のマイルストーンとみなされています。

直後に YOLOv7の論文が出版されました。これは、最速かつ最も正確なリアルタイムの物体検出モデルであることが判明しました。しかし、YOLOv7 はどのようにして以前のバージョンと競合できるのでしょうか? コンピュータビジョンタスクの実行において YOLOv7 がこれほど効率的になるのはなぜですか?

この記事では、YOLOv7 モデルを分析し、なぜ YOLOv7 が業界標準になりつつあるのかについての答えを見つけようとします。しかし、それに答える前に、物体検出の簡単な歴史を見てみる必要があります。

物体検出とは何ですか？

物体検出はコンピュータビジョンの一分野です画像またはビデオファイル内のオブジェクトを識別して位置を特定します。物体検出は、自動運転車、監視監視、さらにはロボット工学など、数多くのアプリケーションの構成要素です。

物体検出モデルは XNUMX つの異なるカテゴリに分類できます。 単発検出器、 & マルチショット検出器。

リアルタイムの物体検出

YOLOv7 がどのように機能するかを真に理解するには、YOLOv7 の主な目的を理解することが不可欠です。リアルタイム物体検出」。リアルタイムの物体検出は、現代のコンピュータービジョンの重要なコンポーネントです。リアルタイム物体検出モデルは、対象の物体をリアルタイムで識別し、位置を特定しようとします。リアルタイム物体検出モデルにより、開発者はビデオやライブ監視入力などの移動フレーム内の対象物体を非常に効率的に追跡できるようになりました。

リアルタイム物体検出モデルは、本質的に従来の画像検出モデルよりも一歩進んでいます。前者はビデオファイル内のオブジェクトを追跡するために使用されますが、後者は画像などの静止フレーム内のオブジェクトの位置を特定して識別します。

その結果、リアルタイム物体検出モデルは、ビデオ分析、自動運転車、物体カウント、複数物体追跡などにおいて非常に効率的です。

YOLOとは？

ヨロとか”あなたは一度だけ見る」は、リアルタイム物体検出モデルのファミリーです。 YOLO コンセプトは、2016 年に Joseph Redmon によって初めて導入され、既存の物体検出アルゴリズムよりもはるかに高速で正確であるため、ほぼ瞬時に話題になりました。 YOLO アルゴリズムがコンピュータービジョン業界の標準になるまで、時間はかかりませんでした。

YOLO アルゴリズムが提案する基本的な概念は、境界ボックスとクラス確率を使用したエンドツーエンドのニューラルネットワークを使用して、リアルタイムで予測を行うことです。 YOLO は、分類器を再利用することでオブジェクト検出を実行するための異なるアプローチを提案したという意味で、以前のオブジェクト検出モデルとは異なりました。

YOLO 自体と他のリアルタイム物体検出アルゴリズムとのパフォーマンスの差が大きかったため、アプローチの変更が功を奏し、すぐに業界標準になりました。しかし、YOLO がこれほど効率的だった理由は何でしょうか?

YOLO と比較すると、当時の物体検出アルゴリズムは領域提案ネットワークを使用して、対象となる可能性のある領域を検出していました。次に、認識プロセスが各領域に対して個別に実行されました。結果として、これらのモデルは同じ画像に対して複数回の反復を実行することが多く、そのため精度が欠如し、実行時間が長くなります。一方、YOLO アルゴリズムは、単一の完全に接続されたレイヤーを使用して予測を一度に実行します。

YOLOはどのように機能しますか?

YOLO アルゴリズムがどのように機能するかを説明する XNUMX つのステップがあります。

物体検出を単一の回帰問題として再構成する

　 YOLO アルゴリズムは、物体検出を単一の回帰問題として再構成しようとします、画像ピクセルを含む、クラス確率、および境界ボックス座標。したがって、アルゴリズムは、画像内のターゲットオブジェクトを予測して位置を特定するために、画像を XNUMX 回だけ確認するだけで済みます。

世界的にそのイメージが定着する理由

また、 YOLO アルゴリズムが予測を行うとき、画像をグローバルに推論します。。 YOLO アルゴリズムは、データセットのトレーニングとテスト中に完全なイメージを認識し、クラスとその表示方法に関するコンテキスト情報をエンコードできるため、領域提案ベースやスライディング手法とは異なります。

YOLO が登場する前は、Fast R-CNN は最も一般的なオブジェクト検出アルゴリズムの XNUMX つでしたが、画像内の背景パッチをオブジェクトと誤認することがあったため、画像内のより大きなコンテキストを認識できませんでした。 Fast R-CNN アルゴリズムと比較すると、YOLO は 50% 正確です バックグラウンドエラーに関しては。

オブジェクトの表現を一般化する

最後に、YOLO アルゴリズムは、画像内のオブジェクトの表現を一般化することも目的としています。その結果、自然画像を含むデータセットで YOLO アルゴリズムを実行し、その結果をテストしたところ、YOLO は既存の R-CNN モデルを大幅に上回りました。 YOLO は汎用性が高く、予期しない入力や新しいドメインに実装されたときに機能しなくなる可能性が低いためです。

YOLOv7: 新機能は何ですか?

リアルタイム物体検出モデルとは何か、そして YOLO アルゴリズムとは何かについて基本的な理解ができたので、次は YOLOv7 アルゴリズムについて説明します。

トレーニングプロセスの最適化

YOLOv7 アルゴリズムは、モデルアーキテクチャの最適化を試みるだけでなく、トレーニングプロセスの最適化も目的としています。最適化モジュールと手法を使用して物体検出の精度を向上させ、干渉コストを維持しながらトレーニングのコストを強化することを目的としています。これらの最適化モジュールは、 トレーニング可能な景品の入ったバッグ。

粗から細までのガイド付きラベル割り当て

YOLOv7 アルゴリズムは、従来の粗いリードから細かいリードへのガイド付きラベル割り当ての代わりに、新しい粗いリードから細かいリードへのガイド付きラベル割り当てを使用することを計画しています。 動的なラベルの割り当て。 これは、動的ラベル割り当てでは、複数の出力層でモデルをトレーニングするといくつかの問題が発生するためです。最も一般的な問題は、さまざまなブランチとその出力に動的ターゲットを割り当てる方法です。

モデルの再パラメータ化

モデルの再パラメータ化は物体検出における重要な概念であり、その使用には通常、トレーニング中にいくつかの問題が伴います。 YOLOv7 アルゴリズムは、次の概念を使用することを計画しています。 モデルの再パラメータ化ポリシーを分析するための勾配伝播パス ネットワーク内のさまざまな層に適用できます。

拡張および複合スケーリング

YOLOv7 アルゴリズムでは、 拡張および複合スケーリング方法 リアルタイムの物体検出のためのパラメータと計算を活用し、効果的に使用します。

YOLOv7 : 関連作品

リアルタイムの物体検出

YOLO は現在業界標準であり、ほとんどのリアルタイム物体検出器は YOLO アルゴリズムと FCOS (Fully Convolutional One-Stage Object-Detection) を導入しています。最先端のリアルタイム物体検出器は通常、次の特性を備えています。

より強力で高速なネットワークアーキテクチャ。
効果的な機能統合方法。
正確な物体検出方法。
堅牢な損失関数。
効率的なラベル割り当て方法。
効率的なトレーニング方法です。

YOLOv7 アルゴリズムは、大量のデータを必要とすることが多い自己教師あり学習および蒸留手法を使用しません。逆に、YOLOv7 アルゴリズムは、トレーニング可能な景品の袋メソッドを使用します。

モデルの再パラメータ化

モデルの再パラメータ化手法は、干渉ステージで複数の計算モジュールをマージするアンサンブル手法とみなされます。このテクニックはさらに XNUMX つのカテゴリに分類できます。 モデルレベルのアンサンブル、 & モジュールレベルのアンサンブル。

ここで、最終的な干渉モデルを取得するために、モデルレベルの再パラメータ化手法では XNUMX つの手法を使用します。最初の実践では、異なるトレーニングデータを使用して多数の同一のモデルをトレーニングし、トレーニングされたモデルの重みを平均します。あるいは、別の方法では、さまざまな反復中にモデルの重みを平均します。

モジュールレベルの再パラメータ化は、トレーニングフェーズ中にモジュールを異なるモジュールブランチ、または異なる同一のブランチに分割し、その後干渉しながらこれらの異なるブランチを同等のモジュールに統合するため、最近非常に人気が高まっています。

ただし、再パラメータ化手法はすべての種類のアーキテクチャに適用できるわけではありません。それが理由です YOLOv7 アルゴリズムは、新しいモデルの再パラメータ化手法を使用して関連戦略を設計します さまざまなアーキテクチャに適しています。

モデルのスケーリング

モデルのスケーリングは、既存のモデルをさまざまなコンピューティングデバイスに適合するようにスケールアップまたはスケールダウンするプロセスです。モデルのスケーリングでは通常、レイヤー数(深さ)、入力画像のサイズ(分解能)、特徴ピラミッドの数(ステージ)、チャンネル数(幅）。これらの要素は、ネットワークパラメーター、干渉速度、計算、モデルの精度のバランスの取れたトレードオフを確保する上で重要な役割を果たします。

最も一般的に使用されるスケーリング方法の XNUMX つは次のとおりです。 NASまたはネットワークアーキテクチャの検索 複雑なルールを必要とせずに、検索エンジンから適切な倍率を自動的に検索します。 NAS を使用することの主な欠点は、適切なスケーリング係数を検索するためのアプローチが高価であることです。

ほぼすべてのモデルの再パラメータ化モデルは、個別かつ固有のスケーリング係数を個別に分析し、さらにこれらの係数を個別に最適化します。これは、NAS アーキテクチャが相関関係のないスケーリング係数で動作するためです。

注目に値するのは、次のような連結ベースのモデルです。 VoVNet or デンスネット モデルの深度がスケーリングされるときに、いくつかのレイヤーの入力幅を変更します。 YOLOv7 は提案された連結ベースのアーキテクチャで動作するため、複合スケーリング手法を使用します。

上で述べた図は、 拡張された効率的なレイヤー集約ネットワーク (イーエラン）異なるモデルの。提案された E-ELAN 方法は、元のアーキテクチャの勾配伝送パスを維持しますが、グループ畳み込みを使用して追加された機能の濃度を高めることを目的としています。このプロセスにより、さまざまなマップによって学習された機能が強化され、計算とパラメーターの使用がさらに効率化されます。

YOLOv7 アーキテクチャ

YOLOv7 モデルは、YOLOv4、YOLO-R、および Scaled YOLOv4 モデルをベースとして使用します。 YOLOv7 は、結果を改善し、モデルをより正確にするために、これらのモデルに対して実行された実験の結果です。

拡張効率的なレイヤー集約ネットワークまたは E-ELAN

E-ELAN は YOLOv7 モデルの基本的な構成要素であり、主にネットワーク効率に関する既存のモデルから派生しています。 エラン。

効率的なアーキテクチャを設計する際の主な考慮事項は、パラメータの数、計算密度、および計算量です。他のモデルでは、入出力チャネル比の影響、アーキテクチャネットワークの分岐、ネットワーク干渉速度、畳み込みネットワークのテンソルの要素数などの要因も考慮されます。

　 CSPVoNet モデルは、上記のパラメーターを考慮するだけでなく、異なるレイヤーの重みを有効にすることで、より多様な特徴を学習するために勾配パスも分析します。このアプローチにより、干渉をより高速かつ正確に行うことができます。の エラン アーキテクチャの目的は、ネットワークの学習と収束をより効果的に行えるように、最短最長の勾配パスを制御する効率的なネットワークを設計することです。

ELAN は、計算ブロックの積層数や勾配経路の長さに関係なく、すでに安定段階に達しています。計算ブロックを無制限に積み重ねると安定状態が崩れる可能性があり、パラメータの利用率が低下します。の 提案された E-ELAN アーキテクチャは、拡張、シャッフル、マージカーディナリティを使用するため、問題を解決できます。 元の勾配パスを維持しながら、ネットワークの学習能力を継続的に強化します。

さらに、E-ELANとELANのアーキテクチャを比較すると、 唯一の違いは計算ブロックにあり、遷移層のアーキテクチャは変更されていません。

E-ELAN は、計算ブロックの基数を拡張し、次を使用してチャネルを拡張することを提案しています。 グループ畳み込み。次に、特徴マップが計算され、グループパラメーターに従ってグループにシャッフルされ、結合されます。各グループのチャネル数は、元のアーキテクチャと同じままになります。最後に、カーディナリティを実行するために機能マップのグループが追加されます。

連結ベースのモデルのモデルスケーリング

モデルのスケーリングが役立つ モデルの属性を調整する これは、要件に応じて、さまざまな干渉速度に対応するさまざまなスケールのモデルを生成するのに役立ちます。

この図は、さまざまな連結ベースのモデルのモデルスケーリングについて説明しています。図 (a) と (b) でわかるように、モデルの深さのスケーリングが増加すると、計算ブロックの出力幅が増加します。その結果、送信層の入力幅が増加します。これらのメソッドが連結ベースのアーキテクチャで実装されている場合、スケーリングプロセスが徹底的に実行され、それが図 (c) に示されています。

したがって、連結ベースのモデルのスケーリング係数を個別に分析することは不可能であり、むしろ一緒に考慮または分析する必要があると結論付けることができます。したがって、連結ベースのモデルの場合、 対応する複合モデルのスケーリング方法を使用するのが適切です。さらに、深さ係数がスケーリングされるときは、ブロックの出力チャネルも同様にスケーリングする必要があります。

訓練可能な景品のバッグ

景品の入ったバッグは、開発者がそれを説明するために使用する用語です。 トレーニング戦略またはコストを変更できる一連の方法またはテクニック モデルの精度を向上させるために。それでは、YOLOv7 のトレーニング可能な景品の袋とは何でしょうか? みてみましょう。

計画的に再パラメータ化された畳み込み

YOLOv7 アルゴリズムは、勾配流伝播経路を使用して、 ネットワークと再パラメータ化された畳み込みを理想的に組み合わせる方法。 YOLov7 によるこのアプローチは、これに対抗する試みです。 RepConv アルゴリズム VGG モデルでは穏やかに実行されましたが、DenseNet モデルと ResNet モデルに直接適用するとパフォーマンスが低下します。

畳み込み層内の接続を識別するには、 RepConv アルゴリズムは 3×3 畳み込みと 1×1 畳み込みを組み合わせたものです。アルゴリズム、そのパフォーマンス、アーキテクチャを分析すると、RepConv が DenseNet の連結と ResNet の残差.

上の画像は、計画された再パラメータ化モデルを示しています。 YOLov7 アルゴリズムでは、連結または残りの接続を持つネットワーク内の層が RepConv アルゴリズムで ID 接続を持つべきではないことがわかりました。結果的に、ID 接続なしで RepConvN と切り替えることが許容されます。

補助用の粗いリード損失用の細かい

徹底した監督コンピューターサイエンスの分野の XNUMX つであり、ディープネットワークのトレーニングプロセスでよく使用されます。深い監視の基本原則は次のとおりです。 ネットワークの中間層に補助ヘッドを追加します。 ガイドとしてアシスタント損失を伴う浅いネットワークの重みとともに。 YOLOv7 アルゴリズムでは、最終出力を担当するヘッドをリードヘッドと呼び、補助ヘッドはトレーニングを支援するヘッドを指します。

さらに、YOLOv7 ではラベルの割り当てに別の方法が使用されます。従来、ラベルの割り当ては、グラウンドトゥルースを直接参照し、指定された一連のルールに基づいてラベルを生成するために使用されてきました。しかし、近年では、予測入力の分布と品質が信頼性の高いラベルを生成するために重要な役割を果たしています。 YOLOv7 はオブジェクトのソフトラベルを生成します バウンディングボックスとグランドトゥルースの予測を使用します。

さらに、YOLOv7 アルゴリズムの新しいラベル割り当て方法は、リードヘッドの予測を使用して、リードと補助ヘッドの両方をガイドします。ラベル割り当て方法には XNUMX つの方法が提案されています。

リードヘッドのガイド付きラベル割り当て器

この戦略は、リードヘッドの予測結果とグランドトゥルースに基づいて計算を行い、最適化を使用してソフトラベルを生成します。これらのソフトラベルは、リードヘッドと補助ヘッドの両方のトレーニングモデルとして使用されます。

この戦略は、リードヘッドの学習能力が優れているため、リードヘッドが生成するラベルはより代表的であり、ソースとターゲットの間で相関関係があるはずであるという前提に基づいて機能します。

粗細リードヘッドガイド付きラベルアサイナー

この戦略では、リードヘッドの予測結果とグランドトゥルースに基づいて計算が行われ、最適化を使用してソフトラベルが生成されます。ただし、重要な違いがあります。この戦略には XNUMX セットのソフトラベルがあります。 粗いレベル、 & 立派なラベル。

粗いラベルは、陽性サンプルの制約を緩和することによって生成されます。

より多くのグリッドをポジティブなターゲットとして扱う割り当てプロセス。これは、補助ヘッドの学習強度が弱いために情報が失われるリスクを避けるために行われます。

上の図は、YOLOv7 アルゴリズムでのトレーニング可能な景品の袋の使用を説明しています。補助ヘッドの場合は粗く、リードヘッドの場合は細かく描画されます。補助ヘッドのあるモデル (b) と通常のモデル (a) を比較すると、(b) のスキーマには補助ヘッドがありますが、(a) には補助ヘッドがないことがわかります。

図 (c) は一般的な独立したラベルアサイナを示し、図 (d) と図 (e) はそれぞれ、YOLOv7 で使用されるリードガイドアサイナと Coarse-toFine リードガイドアサイナを表します。

その他のトレーニング可能な景品の入ったバッグ

YOLOv7 アルゴリズムは、上記のものに加えて、追加の景品の袋を使用しますが、これらは元々提案されたものではありません。彼らです

Conv-Bn-Activation テクノロジーにおけるバッチ正規化: この戦略は、畳み込み層をバッチ正規化層に直接接続するために使用されます。
YOLOR の暗黙知: YOLOv7 は、この戦略と畳み込み機能マップを組み合わせます。
EMA モデル: EMA モデルは YOLOv7 の最終参照モデルとして使用されますが、その主な用途は平均教師法で使用されることです。

YOLOv7 : 実験

実験設定

YOLOv7 アルゴリズムでは、 トレーニングと検証用の Microsoft COCO データセット これらの実験のすべてが事前トレーニング済みモデルを使用するわけではありません。開発者はトレーニングに 2017 トレーニングデータセットを使用し、ハイパーパラメーターの選択に 2017 検証データセットを使用しました。最後に、YOLOv7 の物体検出結果のパフォーマンスが、物体検出用の最先端のアルゴリズムと比較されます。

開発者は以下の基本モデルを設計しました。 エッジ GPU (YOLOv7-tiny)、通常の GPU (YOLOv7)、およびクラウド GPU (YOLOv7-W6)。さらに、YOLOv7 アルゴリズムは、さまざまなサービス要件に応じてモデルスケーリングの基本モデルも使用し、さまざまなモデルを取得します。 YOLOv7 アルゴリズムの場合、スタックスケーリングはネックで行われ、提案されたコンパウンドを使用してモデルの深さと幅を拡大します。

ベースライン

YOLOv7 アルゴリズムは、以前の YOLO モデルと YOLOR オブジェクト検出アルゴリズムをベースラインとして使用します。

上の図は、YOLOv7 モデルのベースラインを他の物体検出モデルと比較したもので、結果は明らかです。と比較すると、 YOLOv4 アルゴリズムと比べて、YOLOv7 は使用するパラメーターが 75% 少ないだけでなく、使用する計算も 15% 減り、精度が 0.4% 高くなります。

最先端の物体検出器モデルとの比較

上の図は、YOLOv7 をモバイルおよび一般的な GPU 向けの最先端の物体検出モデルと比較した結果を示しています。 YOLOv7 アルゴリズムによって提案された方法が最高の速度と精度のトレードオフスコアを持っていることがわかります。

アブレーション研究 : 提案された複合スケーリング法

上に示した図は、モデルをスケールアップするためにさまざまな戦略を使用した結果を比較しています。 YOLOv7 モデルのスケーリング戦略は、計算ブロックの深さを 1.5 倍に拡大し、幅を 1.25 倍に拡大します。

深さをスケールアップするだけのモデルと比較すると、YOLOv7 モデルは使用するパラメーターと計算能力が少なくなり、パフォーマンスが 0.5% 向上します。一方、深さのみをスケールアップしたモデルと比較すると、YOLOv7 の精度は 0.2% 向上しますが、パラメーターの数は 2.9%、計算は 1.2% 増加する必要があります。

提案された計画された再パラメータ化モデル

提案された再パラメータ化モデルの一般性を検証するには、 YOLOv7 アルゴリズムは、検証のために残差ベースおよび連結ベースのモデルでそれを使用します。。検証プロセスでは、YOLOv7 アルゴリズムが使用します。 3段重ねエラン 連結ベースのモデルの場合はCSPDarknet、残差ベースのモデルの場合はCSPDarknetです。

連結ベースのモデルの場合、アルゴリズムは 3 スタック ELAN の 3×3 畳み込み層を RepConv に置き換えます。次の図は、Planned RepConv と 3 スタック ELAN の詳細な構成を示しています。

さらに、残差ベースのモデルを扱う場合、元のダークブロックには 7×3 畳み込みブロックがないため、YOLOv3 アルゴリズムは反転したダークブロックを使用します。以下の図は、3×3 畳み込み層と 1×1 畳み込み層の位置を逆転する Reversed CSPDarknet のアーキテクチャを示しています。

補助ヘッドのアシスタント損失の提案

補助ヘッドのアシスタント損失については、YOLOv7 モデルは補助ヘッドとリードヘッド方式の独立したラベル割り当てを比較します。

上図は提案された補助ヘッドに関する検討結果を示しています。アシスタント損失が増加すると、モデルの全体的なパフォーマンスが向上することがわかります。さらに、YOLOv7 モデルによって提案されたリード誘導ラベル割り当ては、独立したリード割り当て戦略よりも優れたパフォーマンスを発揮します。

YOLOv7 の結果

上記の実験に基づいて、他の物体検出アルゴリズムと比較した場合の YOLov7 のパフォーマンスの結果を次に示します。

上の図は、YOLOv7 モデルと他の物体検出アルゴリズムを比較しています。YOLOv7 が他の物体検出モデルを次の点で上回っていることがはっきりとわかります。 平均精度 (AP) 対バッチ干渉.

さらに、以下の図は、YOLOv7 と他のリアルタイム障害物検出アルゴリズムのパフォーマンスを比較しています。繰り返しになりますが、YOLOv7 は、全体的なパフォーマンス、精度、効率の点で他のモデルを継承しています。

YOLOv7 の結果とパフォーマンスから得られた追加の観察をいくつか示します。

YOLOv7-Tiny は YOLO ファミリの最小モデルで、6 万を超えるパラメータを備えています。 YOLOv7-Tiny の平均精度は 35.2% で、同等のパラメーターを持つ YOLOv4-Tiny モデルよりも優れています。
YOLOv7 モデルには 37 万を超えるパラメーターがあり、YOLov4 のようなより高いパラメーターを持つモデルよりも優れたパフォーマンスを発揮します。
YOLOv7 モデルは、5 ～ 160 FPS の範囲で最高の mAP および FPS レートを備えています。

まとめ

YOLO (You Only Look Once) は、現代のコンピュータービジョンにおける最先端の物体検出モデルです。 YOLO アルゴリズムはその高い精度と効率性で知られており、その結果、リアルタイムの物体検出業界で広範な用途に使用されています。 2016 年に最初の YOLO アルゴリズムが導入されて以来、開発者は実験によりモデルを継続的に改善することができました。

YOLOv7 モデルは YOLO ファミリの最新の追加モデルであり、これまでで最も強力な YOLo アルゴリズムです。この記事では、YOLOv7 の基本について説明し、YOLOv7 がなぜ非常に効率的なのかを説明してきました。