Connect with us

AI 101

監督学習 vs 非監督学習

mm

機械学習では、ほとんどのタスクは、監督学習問題または非監督学習問題のいずれかに簡単に分類できます。監督学習では、データにラベルまたはクラスが付加されていますが、非監督学習の場合は、データはラベル付けされていません。なぜこの区別が重要か、そして各タイプの学習に関連するアルゴリズムをいくつか見てみましょう。

監督学習 vs 非監督学習

ほとんどの機械学習タスクは、監督学習のドメインにあります。監督学習アルゴリズムでは、データセット内の個々のインスタンス/データポイントにクラスまたはラベルが割り当てられます。これにより、機械学習モデルは、どの特徴が与えられたクラスと相関しているかを学習でき、機械学習エンジニアは、適切に分類されたインスタンスの数を確認することでモデルのパフォーマンスを確認できます。分類アルゴリズムは、データが適切なクラスでラベル付けされている限り、多くの複雑なパターンを区別できます。たとえば、機械学習アルゴリズムは、「ひげ」、「尾」、「爪」などのような特徴に基づいて、異なる動物を相互に区別することを学習できます。
監督学習とは対照的に、非監督学習では、ラベル付けされていないデータからパターンを抽出できるモデルを作成します。つまり、コンピューターは入力特徴を分析し、最も重要な特徴とパターンを自分で決定します。非監督学習は、異なるインスタンス間の内在的な類似性を探そうとします。監督学習アルゴリズムが既知のクラスにデータポイントを配置することを目的とする場合、非監督学習アルゴリズムはオブジェクトインスタンスに共通する特徴を分析し、これらの特徴に基づいてグループに分類し、基本的に独自のクラスを作成します。
監督学習アルゴリズムの例としては、線形回帰、ロジスティック回帰、K最近傍法、決定木、サポートベクターマシンがあります。
一方、非監督学習アルゴリズムの例としては、主成分分析とK-meansクラスタリングがあります。

監督学習アルゴリズム

線形回帰は、2つの特徴を取り出し、それらの関係をプロットするアルゴリズムです。線形回帰は、他の数値変数との関係で数値値を予測するために使用されます。線形回帰の式はY = a + bXです。ここで、bは線の傾き、aはyがx軸と交差する点です。
ロジスティック回帰は、2つの異なるクラスのいずれかにインスタンスを分類する確率を見つける二項分類アルゴリズムです。アルゴリズムは、数値特徴とその関係を分析し、インスタンスを1つのクラスに分類する確率を求めます。確率値は0または1に「押し付けられます」。つまり、強い確率は0.99に近づき、弱い確率は0に近づきます。
K最近傍法は、トレーニングセットのいくつかの選択された近傍の割り当てられたクラスに基づいて、新しいデータポイントにクラスを割り当てます。アルゴリズムが考慮する近傍の数は重要であり、近傍が少なすぎるか多すぎると、ポイントが誤分類される可能性があります。
決定木は、分類と回帰の両方のアルゴリズムです。決定木は、データセットを小さな部分に分割し、さらに分割できないまで繰り返します。結果として、ノードと葉を持つ木が生成されます。ノードは、さまざまなフィルタリング基準を使用してデータポイントについて決定を下す場所であり、葉はラベル(分類されたデータポイント)が割り当てられたインスタンスです。決定木アルゴリズムは、数値とカテゴリの両方のデータを処理できます。木の分割は、特定の変数/特徴に基づいて行われます。
サポートベクターマシンは、データポイントをクラスに分割するための分離線(ハイパープレーン)を描く分類アルゴリズムです。データポイントは、ハイパープレーンのどちら側にあるかによってクラスに分割されます。複数のハイパープレーンを描くことができ、データセットを複数のクラスに分割できます。クラス分類器は、分割ハイパープレーンとその両側のポイントの間の距離を最大化しようとします。距離が大きいほど、クラス分類器はより自信を持っています。

非監督学習アルゴリズム

主成分分析は、次元削減のためのテクニックであり、データの複雑さがより単純な形式で表現されます。主成分分析アルゴリズムは、データに対して直交する新しい次元を見つけます。データの次元が削減されると、データの分散は可能な限り保存される必要があります。実用的な意味では、データセット内の特徴をより少ない特徴に凝縮し、ほとんどのデータを表す特徴にします。
K-meansクラスタリングは、データポイントを自動的にクラスターにグループ化するアルゴリズムです。データセット内のパターンを分析し、パターンに基づいてデータポイントをグループに分割します。基本的に、K-meansはラベル付けされていないデータから独自のクラスを作成します。K-meansアルゴリズムは、クラスターに中心(重心)を割り当て、重心を最適な位置に移動します。最適な位置は、重心とクラス内の周囲のデータポイントの間の距離が最小化された位置です。K-meansクラスタリングの「K」は、選択された重心の数を表します。

まとめ

最後に、監督学習と非監督学習の主な違いを簡単にまとめてみましょう。
前述のように、監督学習タスクでは、入力データはラベル付けされ、クラスの数は既知です。一方、非監督学習の場合、入力データはラベル付けされず、クラスの数は不明です。非監督学習は、計算上の複雑さが少なくなる傾向がありますが、監督学習は、計算上の複雑さが大きい傾向があります。監督学習の結果は非常に正確ですが、非監督学習の結果は、正確度が低いか、ある程度の正確度しかありません。

Blogger and programmer with specialties in Machine Learning and Deep Learning topics. Daniel hopes to help others use the power of AI for social good.