スタブ 機械学習とは何ですか? - Unite.AI
私達と接続
AI マスタークラス:

AI 101

機械学習とは何ですか?

mm
更新中 on

機械学習は最も急速に成長している技術分野の 1 つですが、「機械学習」という言葉がどれほど頻繁に飛び交っているにもかかわらず、機械学習が何なのかを正確に理解するのは難しい場合があります。

機械学習 これは XNUMX つのことだけを指すのではなく、多くの異なる概念やテクニックに適用できる包括的な用語です。 機械学習を理解するということは、さまざまな形式のモデル分析、変数、アルゴリズムに精通することを意味します。 機械学習の内容をより深く理解するために、機械学習を詳しく見てみましょう。

機械学習とは

機械学習という用語はさまざまなものに適用できますが、一般に、この用語は、明示的な行ごとの指示を受け取らずにコンピューターがタスクを実行できるようにすることを指します。 コンピューターはデータ内のパターンを分析し、これらのパターンを新しいデータに一般化することで「学習」できるため、機械学習の専門家は問題を解決するために必要なすべての手順を書き出す必要はありません。

機械学習システムには XNUMX つの基本的な部分があります。

  • 入力
  • アルゴリズム
  • 出力

入力は機械学習システムに供給されるデータであり、入力データはラベルと特徴に分類できます。 特徴とは、関連する変数、つまりパターンを学習して結論を​​引き出すために分析される変数です。 一方、ラベルはデータの個々のインスタンスに与えられるクラス/説明です。

特徴とラベルは、教師あり学習と教師なし学習という 2 つの異なるタイプの機械学習問題で使用できます。

教師なし学習と教師あり学習

In 教師あり学習、入力データにはグランドトゥルースが伴います。 教師あり学習問題にはデータセットの一部として正しい出力値があるため、予想されるクラスは事前にわかっています。 これにより、データ サイエンティストは、テスト データセットでデータをテストし、アイテムの何パーセントが正しく分類されたかを確認することで、アルゴリズムのパフォーマンスをチェックすることが可能になります。

対照的に、 教師なし学習 問題にはグラウンド トゥルース ラベルが付けられていません。 教師なし学習タスクを実行するように訓練された機械学習アルゴリズムは、データ内の関連するパターンをそれ自体で推測できなければなりません。

教師あり学習アルゴリズムは通常、多くの異なるクラスの XNUMX つに分類する必要があるインスタンスで満たされた大規模なデータセットがある分類問題に使用されます。 教師あり学習の別のタイプは回帰タスクです。このタスクでは、アルゴリズムによって出力される値はカテゴリ的ではなく本質的に連続的です。

一方、教師なし学習アルゴリズムは、密度推定、クラスタリング、表現学習などのタスクに使用されます。 これら XNUMX つのタスクには、データの構造を推論するための機械学習モデルが必要ですが、モデルに与えられる事前定義されたクラスはありません。

教師なし学習と教師あり学習の両方で使用される最も一般的なアルゴリズムのいくつかを簡単に見てみましょう。

教師あり学習の種類

一般的な教師あり学習アルゴリズムには次のものがあります。

  • ナイーブベイズ
  • サポートベクターマシン
  • ロジスティック回帰
  • ランダムフォレスト
  • 人工ニューラルネットワーク

サポートベクターマシン データセットをさまざまなクラスに分割するアルゴリズムです。 データ ポイントは、クラスを相互に分離する線を引くことによってクラスターにグループ化されます。 線の片側にある点は XNUMX つのクラスに属し、線の反対側にある点は別のクラスに属します。 サポート ベクター マシンは、線と線の両側にある点の間の距離を最大化することを目的としています。距離が大きいほど、分類子は、その点が XNUMX つのクラスに属し、別のクラスに属していないことをより確信します。

ロジスティック回帰 は、データ ポイントを 1 つのクラスのいずれかに属するものとして分類する必要がある場合に、バイナリ分類タスクで使用されるアルゴリズムです。 ロジスティック回帰は、データ ポイントに 0 または 0.49 のラベルを付けることによって機能します。データ ポイントの知覚値が 0 以下の場合は 0.5 として分類され、1 以上の場合は XNUMX として分類されます。

デシジョン ツリー アルゴリズム データセットをより小さなフラグメントに分割することによって動作します。 データを分割するために使用される正確な基準は機械学習エンジニア次第ですが、最終的な目標は、データを単一のデータ ポイントに分割し、キーを使用して分類することです。

ランダム フォレスト アルゴリズムは、本質的には、より強力な分類器にリンクされた多数の単一デシジョン ツリー分類器です。

  単純ベイズ分類器 以前のイベントが発生する確率に基づいて、特定のデータ ポイントが発生する確率を計算します。これはベイズの定理に基づいており、計算された確率に基づいてデータ ポイントをクラスに配置します。 Naive Bayes 分類器を実装する場合、すべての予測器がクラスの結果に同じ影響を与えると想定されます。

An 人工ニューラルネットワーク、または多層パーセプトロンは、人間の脳の構造と機能にヒントを得た機械学習アルゴリズムです。 人工ニューラル ネットワークは、相互にリンクされた多数のノード/ニューロンで構成されているという事実からその名前が付けられています。 すべてのニューロンは数学関数を使用してデータを操作します。 人工ニューラル ネットワークには、入力層、隠れ層、出力層があります。

ニューラル ネットワークの隠れ層では、データが実際に解釈され、パターンが分析されます。 言い換えれば、アルゴリズムが学習する場所です。 より多くのニューロンが結合すると、より複雑なネットワークが作成され、より複雑なパターンを学習できるようになります。

教師なし学習の種類

教師なし学習アルゴリズムには次のものが含まれます。

  • K-はクラスタリングを意味します
  • オートエンコーダー
  • 主成分分析

K-はクラスタリングを意味します は教師なし分類手法であり、データのポイントをその特徴に基づいてクラスターまたはグループに分離することで機能します。 K 平均法クラスタリングは、データ ポイントで見つかった特徴を分析し、特定のクラス クラスターで見つかったデータ ポイントを、他のデータ ポイントを含むクラスターよりも相互に類似させるパターンを識別します。 これは、データのグラフ内にクラスターの可能な中心、つまり重心を配置し、重心とその重心のクラスに属する点の間の距離を最小にする位置が見つかるまで重心の位置を再割り当てすることによって実現されます。 研究者は希望するクラスター数を指定できます。

主成分分析 は、多数の特徴/変数をより小さな特徴空間/少数の特徴に縮小する手法です。 データ ポイントの「主成分」が保存のために選択され、他の特徴はより小さな表現に圧縮されます。 元のデータ部分間の関係は維持されますが、データ ポイントの複雑さがより単純になるため、データの定量化と説明が容易になります。

オートエンコーダー 教師なし学習タスクに適用できるニューラル ネットワークのバージョンです。 オートエンコーダーは、ラベルのない自由形式のデータを取得し、ニューラル ネットワークが使用できるデータに変換することができ、基本的に独自のラベル付きトレーニング データを作成します。 オートエンコーダーの目標は、入力データを変換し、可能な限り正確に再構築することです。そのため、どの特徴が最も重要であるかを判断し、それらを抽出することがネットワークのインセンティブとなります。

専門分野を持つブロガーおよびプログラマー 機械学習 および 深層学習 トピック。 ダニエルは、他の人が社会利益のために AI の力を活用できるよう支援したいと考えています。