AI 101
コンピュータビジョンとは何ですか?
コンピュータビジョンとは何ですか?
コンピューター ビジョン アルゴリズムは、現時点で世界で最も革新的で強力な AI システムの 1 つです。 コンピュータビジョンシステム 自動運転車、ロボットナビゲーション、顔認識システムなどでの使用をご覧ください。 しかし、コンピュータ ビジョン アルゴリズムとは正確には何でしょうか? それらはどのように機能するのでしょうか? これらの質問に答えるために、コンピューター ビジョンの背後にある理論、コンピューター ビジョン アルゴリズム、コンピューター ビジョン システムのアプリケーションについて詳しく掘り下げていきます。
コンピュータビジョンシステムはどのように動作するのでしょうか?
コンピューター ビジョン システムがどのように機能するかを十分に理解するために、まず人間がオブジェクトをどのように認識するかについて少し説明してみましょう。 私たちが物体をどのように認識するかについて神経心理学が持つ最良の説明は、神経心理学の初期段階を説明するモデルです。 物体認識 形状、色、深さなどのオブジェクトの基本コンポーネントが最初に脳によって解釈されるものとして。脳に入る目からの信号は、まず物体のエッジを抽出するために分析され、これらのエッジが結合されて、物体の形状を完成させるより複雑な表現になります。
コンピュータビジョンシステムは、最初にオブジェクトのエッジを識別し、次にこれらのエッジを結合してオブジェクトの形状を形成することにより、人間の視覚システムと非常によく似た動作をします。 大きな違いは、コンピューターは画像を数値として解釈するため、コンピューター ビジョン システムでは画像を構成する個々のピクセルを解釈する何らかの方法が必要であるということです。 コンピュータ ビジョン システムは画像内のピクセルに値を割り当て、ピクセルのある領域と別のピクセル領域の間の値の違いを調べることによって、コンピューターはエッジを識別できます。 たとえば、問題の画像がグレースケールの場合、値の範囲は黒 (0 で表される) から白 (255 で表される) になります。 互いに近いピクセルの値の範囲が突然変化すると、エッジが示されます。
ピクセル値を比較するというこの基本原理は、コンピューターが異なる RGB カラー チャネル間の差異を比較することで、カラー画像でも実行できます。 コンピューター ビジョン システムが画像を解釈するためにピクセル値をどのように検査するかがわかったので、コンピューター ビジョン システムのアーキテクチャを見てみましょう。
畳み込みニューラルネットワーク(CNN)
コンピューター ビジョン タスクで使用される主なタイプの AI は次のとおりです。 畳み込みニューラルネットワークに基づく。 畳み込みとは正確には何ですか?
畳み込みは、ネットワークがピクセル間の値の差を決定するために使用する数学的プロセスです。 ピクセル値のグリッドを想像する場合は、このメイン グリッド上に小さなグリッドを移動する様子を想像してください。 XNUMX 番目のグリッドの下の値はネットワークによって分析されるため、ネットワークは一度に数ピクセルのみを検査します。 これは、「スライディング ウィンドウ」テクニックと呼ばれることがよくあります。 スライディング ウィンドウによって分析される値はネットワークによって要約されるため、画像の複雑さが軽減され、ネットワークによるパターンの抽出が容易になります。
畳み込みニューラル ネットワークは、畳み込みセクションと完全接続セクションの 2 つの異なるセクションに分かれています。ネットワークの畳み込み層は特徴抽出器であり、画像内のピクセルを分析して、ニューラル ネットワークの密接続層がパターンを学習できる表現を形成する役割を担っています。畳み込み層は、ピクセルを調べて、エッジなどの画像の低レベルの特徴を抽出することから始めます。その後、畳み込み層はエッジを結合してより複雑な形状にします。最終的には、ネットワークはエッジと画像の詳細の表現を作成し、完全接続層に渡すことができるようになります。
画像注釈
畳み込みニューラル ネットワークはそれ自体で画像からパターンを抽出できますが、画像に注釈を付けることでコンピュータ ビジョン システムの精度を大幅に向上させることができます。 画像注釈 メタデータを画像に追加するプロセスで、分類子が画像内の重要なオブジェクトを検出できるようにします。 画像注釈の使用は、自律走行車やロボットを制御する場合など、コンピューター ビジョン システムの高精度が必要な場合に重要です。
コンピューター ビジョン分類器のパフォーマンスを向上させるために画像に注釈を付けるには、さまざまな方法があります。 画像の注釈は、多くの場合、バウンディング ボックスを使用して行われます。バウンディング ボックスは、ターゲット オブジェクトの端を囲み、ボックス内に注意を集中するようにコンピュータに指示するボックスです。 セマンティック セグメンテーションは、別のタイプの画像アノテーションであり、画像内のすべてのピクセルに画像クラスを割り当てることによって機能します。 言い換えれば、「草」または「木」とみなされるすべてのピクセルは、それらのクラスに属するものとしてラベル付けされます。 この技術はピクセルレベルの精度を提供しますが、セマンティック セグメンテーション アノテーションの作成は、単純な境界ボックスを作成するよりも複雑で時間がかかります。 線や点などの他の注釈方法も存在します。












