AI 101

コンピュータビジョンとは？

公開日 2019年12月6日

更新日 2026年5月25日

著者

Daniel Nelson

コンピュータビジョンとは？

コンピュータビジョンアルゴリズムは、現在、世界で最も変革的で強力なAIシステムの一つです。コンピュータビジョンシステムは、自律走行車、ロボットナビゲーション、顔認識システムなどに使用されています。ただし、コンピュータビジョンアルゴリズムとは何でしょうか？それらはどのように機能しますか？これらの質問に答えるために、コンピュータビジョンの理論、コンピュータビジョンアルゴリズム、コンピュータビジョンシステムの応用について深く掘り下げてみましょう。

コンピュータビジョンシステムの仕組み

コンピュータビジョンシステムの仕組みを完全に理解するために、人間が物体を認識する方法について最初に説明しましょう。神経心理学が物体認識の初期段階について説明するための最も良いモデルは、物体の基本的な要素である形、色、深度が最初に解釈されるモデルです。脳に入る目からの信号は、物体の辺を引き出して解析され、物体の形を完成させるためにこれらの辺が結合されます。

コンピュータビジョンシステムは、人間の視覚システムと非常に似た方法で機能します。物体の辺を最初に認識し、次にこれらの辺を物体の形に結合します。大きな違いは、コンピューターが画像を数字として解釈するため、コンピュータビジョンシステムが画像の個々のピクセルを解釈する方法が必要であるということです。コンピュータビジョンシステムは、画像のピクセルに値を割り当て、ピクセルの値の差を調べることで、辺を認識します。例えば、画像がグレースケールの場合、値は黒（0で表される）から白（255で表される）までの範囲になります。隣接するピクセルの値の範囲に突然の変化が生じると、辺が認識されます。

このピクセル値の比較の基本原理は、カラー画像でも実行できます。コンピューターは、異なるRGBカラーチャンネルの間の差を比較します。ここで、コンピュータビジョンシステムが画像を解釈するためにピクセル値を調べる方法を理解したので、コンピュータビジョンシステムのアーキテクチャを見てみましょう。

畳み込みニューラルネットワーク（CNNs）

コンピュータビジョンタスクで使用される主なAIタイプは、畳み込みニューラルネットワークに基づいています。畳み込みとは何でしょうか？

畳み込みは、ネットワークがピクセルの値の差を決定するために使用する数学的なプロセスです。ピクセル値のグリッドを想像し、その上に小さなグリッドを移動させます。 2番目のグリッドの下にある値がネットワークによって分析されます。つまり、ネットワークは一度に少数のピクセルだけを分析しています。これは「スライディングウィンドウ」テクニックと呼ばれます。ネットワークによって分析されるスライディングウィンドウの値は、ネットワークによって要約され、画像の複雑さを減らし、ネットワークがパターンを抽出することを容易にします。

畳み込みニューラルネットワークは、2つの異なるセクション、畳み込みセクションと完全に接続されたセクションに分かれています。ネットワークの畳み込み層は、特徴抽出器であり、その役割は、画像内のピクセルを分析して、密接に接続されたニューラルネットワークの層がパターンを学習できる表現を形成することです。畳み込み層は、画像の低レベルの特徴である辺を抽出することから始めます。後の畳み込み層は、辺をより複雑な形状に結合します。最後に、ネットワークは、完全に接続された層に渡すことができる画像の辺と詳細の表現を持つことになります。

画像注釈

畳み込みニューラルネットワークは、画像からパターンを抽出することができますが、画像注釈を追加することで、コンピュータビジョンシステムの精度を大幅に改善することができます。画像注釈は、クラス分類器が画像内の重要な物体を検出するのを支援するメタデータを画像に追加するプロセスです。画像注釈は、自律走行車やロボットを制御するなどの高精度が必要なコンピュータビジョンシステムで使用されます。

画像を注釈付けてコンピュータビジョンのクラス分類器の性能を向上させる方法は、いくつかあります。画像注釈は、ターゲットオブジェクトの辺を囲むボックスであるバウンディングボックスで行われることがよくあります。クラス分類器にボックス内に注目するように指示します。セマンティックセグメンテーションは、画像内の各ピクセルに画像クラスを割り当てる別のタイプの画像注釈です。つまり、グラスや木と見なされる可能性のある各ピクセルは、それらのクラスにラベル付けされます。このテクニックはピクセルレベルの精度を提供しますが、シンプルなバウンディングボックスを作成するよりも、セマンティックセグメンテーションの注釈を作成するのはより複雑で時間がかかります。他の注釈方法、ラインやポイントも存在します。