AI 101
コンピュータビジョンとは何か?

コンピュータビジョンとは何か?
コンピュータビジョンアルゴリズムは、現在、世界で最も変革的で強力なAIシステムの一つです。コンピュータビジョンシステムは、自動運転車、ロボットナビゲーション、顔認識システムなどで使用されています。しかし、コンピュータビジョンアルゴリズムとは一体何でしょうか?どのように機能するのでしょうか?これらの疑問に答えるために、コンピュータビジョンの背後にある理論、コンピュータビジョンアルゴリズム、およびコンピュータビジョンシステムの応用について深く掘り下げていきます。
コンピュータビジョンシステムはどのように機能するか?
コンピュータビジョンシステムの働きを十分に理解するために、まず人間がどのように物体を認識するかについて少し考えてみましょう。神経心理学が提供する、物体認識の仕組みについての最良の説明は、物体認識の初期段階を、形、色、奥行きといった物体の基本的な構成要素が最初に脳によって解釈される段階として記述するモデルです。目から脳に入る信号は分析され、まず物体の輪郭が抽出され、これらの輪郭はより複雑な表現へと結合され、物体の形を完成させます。 コンピュータビジョンシステムは、まず物体の輪郭を見分け、次にこれらの輪郭を結合して物体の形を形成するという点で、人間の視覚システムと非常に似た方法で動作します。大きな違いは、コンピュータが画像を数字として解釈するため、コンピュータビジョンシステムには画像を構成する個々のピクセルを解釈する何らかの方法が必要だということです。コンピュータビジョンシステムは画像内のピクセルに値を割り当て、あるピクセル領域と別のピクセル領域との値の差を調べることで、コンピュータは輪郭を見分けることができます。例えば、問題の画像がグレースケールの場合、値は黒(0で表される)から白(255で表される)までの範囲になります。互いに近接するピクセルの値の範囲が急激に変化すると、それは輪郭を示します。 このピクセル値を比較する基本原理は、カラー画像でも行うことができ、コンピュータは異なるRGBカラーチャンネル間の差を比較します。では、コンピュータビジョンシステムが画像を解釈するためにピクセル値をどのように調べるかがわかったので、コンピュータビジョンシステムのアーキテクチャを見てみましょう。
畳み込みニューラルネットワーク(CNN)
コンピュータビジョンタスクで使用されるAIの主要なタイプは、畳み込みニューラルネットワークに基づくものです。畳み込みとは正確には何でしょうか? 畳み込みは、ネットワークがピクセル間の値の差を決定するために使用する数学的処理です。ピクセル値のグリッドを想像し、そのメイングリッドの上をより小さなグリッドが移動していく様子を思い浮かべてください。2番目のグリッドの下にある値はネットワークによって分析されるため、ネットワークは一度にほんの一握りのピクセルしか調べません。これはしばしば「スライディングウィンドウ」技術と呼ばれます。スライディングウィンドウによって分析される値はネットワークによって要約され、画像の複雑さを軽減し、ネットワークがパターンを抽出しやすくするのに役立ちます。 畳み込みニューラルネットワークは、畳み込みセクションと全結合セクションという2つの異なるセクションに分かれています。ネットワークの畳み込み層は特徴抽出器であり、その仕事は画像内のピクセルを分析し、ニューラルネットワークの密結合層がパターンを学習できるような表現を形成することです。畳み込み層は、最初は単にピクセルを調べ、エッジのような画像の低レベルな特徴を抽出することから始めます。後の畳み込み層では、エッジが結合されてより複雑な形状を形成します。最終的には、ネットワークが画像のエッジと詳細を表現し、それを全結合層に渡すことができるようになることが望まれます。
画像アノテーション
畳み込みニューラルネットワークは単独で画像からパターンを抽出できますが、画像にアノテーションを付けることでコンピュータビジョンシステムの精度を大幅に向上させることができます。画像アノテーションとは、分類器が画像内の重要な物体を検出するのを支援するメタデータを画像に追加するプロセスです。画像アノテーションの使用は、自動運転車やロボットの制御など、コンピュータビジョンシステムが非常に高い精度を必要とする場合に重要です。 コンピュータビジョン分類器のパフォーマンスを向上させるために、画像にアノテーションを付ける方法は様々です。画像アノテーションは、多くの場合バウンディングボックス(対象物体の輪郭を囲み、コンピュータにボックス内に注意を向けるよう指示するボックス)で行われます。セマンティックセグメンテーションは別のタイプの画像アノテーションで、画像内のすべてのピクセルに画像クラスを割り当てることで動作します。言い換えれば、「草」や「木」と見なされる可能性のあるすべてのピクセルは、それらのクラスに属するものとしてラベル付けされます。この技術はピクセルレベルの精度を提供しますが、セマンティックセグメンテーションのアノテーションを作成することは、単純なバウンディングボックスを作成するよりも複雑で時間がかかります。線や点などの他のアノテーション方法も存在します。












