Connect with us

AI 101

機械学習とは何か?

mm

機械学習は最も急速に成長している技術分野の一つですが、「機械学習」という言葉が頻繁に使われるにもかかわらず、機械学習が正確には何であるかを理解するのは難しい場合があります。 機械学習は単一のものを指すのではなく、多くの異なる概念や技術に適用できる包括的な用語です。機械学習を理解するとは、さまざまな形式のモデル分析、変数、アルゴリズムに精通していることを意味します。機械学習が何を含むのかをよりよく理解するために、詳しく見てみましょう。

機械学習とは?

機械学習という用語は多くの異なるものに適用できますが、一般的には、コンピュータが明示的な行ごとの指示を受けずにタスクを実行できるようにすることを指します。機械学習の専門家は、問題を解決するために必要なすべてのステップを書き出す必要はありません。なぜなら、コンピュータはデータ内のパターンを分析し、これらのパターンを新しいデータに一般化することで「学習」することができるからです。 機械学習システムには3つの基本的な部分があります:

  • 入力
  • アルゴリズム
  • 出力

入力は機械学習システムに供給されるデータであり、入力データはラベルと特徴量に分けることができます。特徴量は関連する変数、つまりパターンを学習し結論を導くために分析される変数です。一方、ラベルはデータの個々のインスタンスに与えられるクラスや説明です。 特徴量とラベルは、教師あり学習と教師なし学習という2つの異なるタイプの機械学習問題で使用できます。

教師なし学習 vs 教師あり学習

教師あり学習では、入力データには正解ラベルが付随しています。教師あり学習の問題では、データセットの一部として正しい出力値が存在するため、期待されるクラスが事前にわかっています。これにより、データサイエンティストはテストデータセットでデータをテストし、どの割合の項目が正しく分類されたかを確認することで、アルゴリズムのパフォーマンスをチェックすることが可能になります。 対照的に、教師なし学習の問題には正解ラベルが付いていません。教師なし学習タスクを実行するように訓練された機械学習アルゴリズムは、データ内の関連するパターンを自分で推論できなければなりません。 教師あり学習アルゴリズムは通常、多くの異なるクラスのいずれかに分類する必要があるインスタンスで満たされた大規模なデータセットを持つ分類問題に使用されます。教師あり学習の別のタイプは回帰タスクであり、アルゴリズムによって出力される値はカテゴリカルではなく連続的な性質を持ちます。 一方、教師なし学習アルゴリズムは、密度推定、クラスタリング、表現学習などのタスクに使用されます。これらの3つのタスクでは、機械学習モデルがデータの構造を推論する必要があり、モデルに事前定義されたクラスは与えられません。 教師あり学習と教師なし学習の両方で使用される最も一般的なアルゴリズムのいくつかを簡単に見てみましょう。

教師あり学習の種類

一般的な教師あり学習アルゴリズムには以下が含まれます:

  • ナイーブベイズ
  • サポートベクターマシン
  • ロジスティック回帰
  • ランダムフォレスト
  • 人工ニューラルネットワーク

サポートベクターマシンは、データセットを異なるクラスに分割するアルゴリズムです。データポイントは、クラスを互いに分離する線を引くことでクラスタにグループ化されます。線の片側にあるポイントは1つのクラスに属し、線の反対側にあるポイントは別のクラスになります。サポートベクターマシンは、線と線の両側にあるポイントとの間の距離を最大化することを目的としており、距離が大きいほど、分類器はそのポイントが別のクラスではなく1つのクラスに属しているという確信が強くなります。 ロジスティック回帰は、データポイントを2つのクラスのいずれかに分類する必要がある二値分類タスクで使用されるアルゴリズムです。ロジスティック回帰は、データポイントに1または0のラベルを付けることで機能します。データポイントの知覚値が0.49以下の場合は0に分類され、0.5以上の場合は1に分類されます。 決定木アルゴリズムは、データセットをより小さな断片に分割することで動作します。データを分割するための正確な基準は機械学習エンジニアに委ねられますが、最終的にはデータを単一のデータポイントに分割し、それをキーを使用して分類することが目標です。 ランダムフォレストアルゴリズムは、本質的には多くの単一の決定木分類器がより強力な分類器にリンクされたものです。 ナイーブベイズ分類器は、事前の事象が発生する確率に基づいて、特定のデータポイントが発生した確率を計算します。これはベイズの定理に基づいており、計算された確率に基づいてデータポイントをクラスに分類します。ナイーブベイズ分類器を実装する際には、すべての予測因子がクラスの結果に同じ影響を与えると仮定されます。 人工ニューラルネットワーク、または多層パーセプトロンは、人間の脳の構造と機能に着想を得た機械学習アルゴリズムです。人工ニューラルネットワークは、多くのノード/ニューロンがリンクされて構成されていることからその名が付けられています。すべてのニューロンは数学的関数でデータを操作します。人工ニューラルネットワークには、入力層、隠れ層、出力層があります。 ニューラルネットワークの隠れ層は、データが実際に解釈され、パターンが分析される場所です。言い換えれば、アルゴリズムが学習する場所です。より多くのニューロンが結合されることで、より複雑なパターンを学習できるより複雑なネットワークが形成されます。

教師なし学習の種類

教師なし学習アルゴリズムには以下が含まれます:

  • K-meansクラスタリング
  • オートエンコーダ
  • 主成分分析

K-meansクラスタリングは教師なし分類手法であり、データポイントをその特徴量に基づいてクラスタやグループに分離することで機能します。K-meansクラスタリングは、データポイント内の特徴量を分析し、特定のクラスター内のデータポイントが他のデータポイントを含むクラスターよりも互いに類似しているようにするパターンを見分けます。これは、データのグラフにクラスターの可能な中心、つまりセントロイドを配置し、そのセントロイドのクラスに属するポイントとセントロイドとの間の距離を最小化する位置が見つかるまでセントロイドの位置を再割り当てすることで達成されます。研究者は希望するクラスターの数を指定できます。 主成分分析は、多数の特徴量/変数をより小さな特徴空間/より少ない特徴量に削減する手法です。データポイントの「主成分」は保存のために選択され、他の特徴量はより小さな表現に圧縮されます。元のデータポイント間の関係は保持されますが、データポイントの複雑さが単純になるため、データは定量化しやすく記述しやすくなります。 オートエンコーダは、教師なし学習タスクに適用できるニューラルネットワークのバリエーションです。オートエンコーダは、ラベル付けされていない自由形式のデータを取り込み、ニューラルネットワークが使用できるデータに変換することができ、基本的に自分自身でラベル付けされたトレーニングデータを作成します。オートエンコーダの目標は、入力データを変換し、可能な限り正確に再構築することなので、どの特徴量が最も重要であるかを判断し、それらを抽出することがネットワークのインセンティブとなります。

Blogger and programmer with specialties in Machine Learning and Deep Learning topics. Daniel hopes to help others use the power of AI for social good.