AI 101
マシンラーニングとは何か?

マシンラーニングは、最も急速に成長している技術分野の1つですが、頻繁に「マシンラーニング」という言葉が使われているにもかかわらず、正確にマシンラーニングが何であるかを理解することは難しい場合があります。
マシンラーニングとは、1つのことだけを指すのではなく、さまざまな概念や技術に適用できる傘下の用語です。マシンラーニングを理解するには、さまざまな形式のモデル分析、変数、アルゴリズムに精通している必要があります。マシンラーニングを詳しく見てみましょう。
マシンラーニングとは何か?
マシンラーニングという用語はさまざまなものに適用できるものですが、一般的には、明示的な行ごとの指示を受け取らずにコンピューターがタスクを実行できるようにすることを指します。マシンラーニングの専門家は、問題を解決するために必要なすべてのステップを書き出す必要はありません。コンピューターは、データ内のパターンを分析し、これらのパターンを新しいデータに一般化することで「学習」することができます。
マシンラーニングシステムには、3つの基本的なパーツがあります。
- 入力
- アルゴリズム
- 出力
入力は、マシンラーニングシステムに提供されるデータであり、入力データはラベルと特徴に分割できます。特徴は、パターンを学習し、結論を導き出すために分析される関連する変数です。一方、ラベルは、データの個々のインスタンスに付与されるクラス/説明です。
特徴とラベルは、2つの異なるタイプのマシンラーニング問題で使用できます: 監督学習と無監督学習。
無監督学習 vs. 監督学習
監督学習では、入力データは基準事実とともに提供されます。監督学習問題には、正しい出力値がデータセットの一部として含まれており、期待されるクラスは事前にわかっているため、データ科学者はテストデータセットでデータをテストし、正しく分類された項目の割合を確認することでアルゴリズムのパフォーマンスを確認できます。
一方、無監督学習問題には、基準事実ラベルが付与されていません。無監督学習タスクを実行するようにトレーニングされたマシンラーニングアルゴリズムは、データ内の関連するパターンを自分で推測する必要があります。
監督学習アルゴリズムは、クラス分類問題に一般的に使用されます。ここでは、インスタンスをさまざまなクラスに分類するための大量のデータセットがあります。監督学習の別のタイプは、アルゴリズムの出力値がカテゴリではなく連続的な値である回帰タスクです。
一方、無監督学習アルゴリズムは、密度推定、クラスタリング、表現学習などのタスクに使用されます。これらの3つのタスクでは、モデルの構造を推測する必要があります。モデルのクラスは事前に定義されていません。
両方の無監督学習と監督学習で使用される最も一般的なアルゴリズムを簡単に見てみましょう。
監督学習の種類
一般的な監督学習アルゴリズムには、以下のものがあります:
- Naive Bayes
- サポートベクターマシン
- ロジスティック回帰
- ランダムフォレスト
- 人工ニューラルネットワーク
サポートベクターマシンは、データセットをさまざまなクラスに分割するアルゴリズムです。データポイントは、クラスを分離する線を描くことでクラスターにグループ化されます。線の1つの側にあるポイントは1つのクラスに属し、線の反対側にあるポイントは別のクラスに属します。サポートベクターマシンは、線と線の両側にあるポイントの間の距離を最大化することを目指し、距離が大きいほど、クラス分類器はポイントが1つのクラスに属し、別のクラスに属さないと信頼できます。
ロジスティック回帰は、データポイントを2つのクラスの1つに分類する必要がある二項分類タスクで使用されるアルゴリズムです。ロジスティック回帰は、データポイントを0または1のラベルで分類します。データポイントの推定値が0.49以下の場合、0に分類され、0.5以上の場合、1に分類されます。
決定木アルゴリズムは、データセットを小さな断片に分割することによって動作します。データを分割するために使用される正確な基準は、マシンラーニングエンジニアによって決定されますが、最終的な目標は、データを単一のデータポイントに分割し、キーを使用してそれらを分類することです。
ランダムフォレストアルゴリズムは、単一の決定木分類器をリンクしてより強力な分類器を作成したものです。
Naive Bayes分類器は、事前に発生したイベントの確率に基づいて、与えられたデータポイントが発生する確率を計算します。ベイズの定理に基づいており、データポイントをその計算された確率に基づいてクラスに分類します。Naive Bayes分類器を実装する場合、すべての予測変数がクラスの結果に同じ影響を与えることが前提となります。
人工ニューラルネットワーク、または多層パーセプトロンは、人間の脳の構造と機能に着想を得たマシンラーニングアルゴリズムです。人工ニューラルネットワークは、多くのノード/ニューロンがつながって構成されています。各ニューロンは、データを数学的な関数で操作します。人工ニューラルネットワークには、入力層、隠し層、出力層があります。
ニューラルネットワークの隠し層は、データが実際に解析され、パターンが学習される場所です。言い換えれば、そこがアルゴリズムが学習する場所です。より多くのニューロンがつながると、より複雑なネットワークが構成され、より複雑なパターンを学習することができます。
無監督学習の種類
無監督学習アルゴリズムには、以下のものがあります:
- K-meansクラスタリング
- オートエンコーダー
- 主成分分析
K-meansクラスタリングは、無監督分類技術であり、データポイントをクラスターまたはグループに分割することによって動作します。K-meansクラスタリングは、データポイントの特徴を分析し、それらに含まれるパターンを区別し、クラスター内のデータポイントが他のクラスター内のデータポイントよりも互いに似ているクラスターを形成します。これは、グラフのデータにクラスターの可能な中心、つまりセントロイドを配置し、セントロイドとそのクラスのデータポイントの間の距離を最小化する位置を見つけることによって実現されます。研究者は、クラスターの数を指定できます。
主成分分析は、大量の特徴/変数をより小さな特徴空間/より少ない特徴に減らす技術です。データポイントの「主成分」が保存され、他の特徴はより小さな表現に圧縮されます。元のデータの関係は保存されますが、データポイントの複雑さが簡素化されるため、データはより簡単に数量化および記述できます。
オートエンコーダーは、無監督学習タスクに適用できるニューラルネットワークのバージョンです。オートエンコーダーは、ラベル付けされていない自由形式のデータを取り込み、ニューラルネットワークが使用できるデータに変換することができます。基本的に、自分でラベル付けされたトレーニングデータを作成します。オートエンコーダーの目標は、入力データを変換してできるだけ正確に再構築することです。したがって、ネットワークは、どの特徴が最も重要であるかを判断し、それらを抽出することになります。












