ベスト·オブ·

ベスト 10 の機械学習アルゴリズム

更新中 on 2022 年 2 月 10 日

私たちは GPU による機械学習の驚異的な革新の時代を生きていますが、最新の研究論文には、数十年、場合によっては 70 年前のアルゴリズムが頻繁に (そして顕著に) 取り上げられています。

これらの古い手法の多くは機械学習ではなく「統計分析」の分野に分類され、この分野の出現を 1957 年まで遡ることを好む人もいるかもしれません。パーセプトロンの発明.

これらの古いアルゴリズムが機械学習の最新のトレンドや注目を集める開発をサポートし、巻き込んでいる程度を考えると、この姿勢には議論の余地があります。そこで、最新のイノベーションを支える「古典的な」構成要素のいくつかと、AI の殿堂入りを早期に目指しているいくつかの新しいエントリーを見てみましょう。

1: トランスフォーマー

2017 年に Google Research が共同研究を主導し、最終的には紙 注意はあなたが必要とするすべてです。この作品は、次のような新しいアーキテクチャの概要を示しています。注意メカニズムエンコーダ/デコーダおよびリカレントネットワークモデルの「パイプ」から、それ自体の中心的な変革テクノロジーまで。

アプローチはこう呼ばれた トランスフォーマー、それ以来、自然言語処理 (NLP) の革命的な方法論となり、他の多くの例の中でも、自己回帰言語モデルや AI ポスターチャイルド GPT-3 を強化しています。

トランスフォーマーは次の問題をエレガントに解決しました配列伝達、「変換」とも呼ばれ、入力シーケンスを出力シーケンスに処理することに専念します。また、トランスフォーマーは、連続したバッチではなく連続的な方法でデータを受信して管理するため、RNN アーキテクチャが取得するように設計されていない「メモリの永続性」が可能になります。変圧器の詳細な概要については、以下を参照してください。私たちの参考記事.

CUDA 時代に ML 研究を支配し始めたリカレントニューラルネットワーク (RNN) とは対照的に、Transformer アーキテクチャも簡単に実現できます。並列化、RNN よりもはるかに大規模なデータのコーパスに生産的に対処する方法が開かれます。

人気の使い方

トランスフォーマーは、2020 年に OpenAI の GPT-3 のリリースにより一般の人々の想像力を掻き立てました。これは当時の記録破りを誇っていました。 175億のパラメーター。この一見驚くべき成果は、2021 年のプロジェクトなど、その後のプロジェクトによって最終的に影が薄くなりました。リリース Microsoft の Megatron-Turing NLG 530B は、(名前が示すように) 530 億を超えるパラメータを備えています。

ハイパースケール Transformer NLP プロジェクトのタイムライン。出典: マイクロソフト

ハイパースケール Transformer NLP プロジェクトのタイムライン。 情報源： Microsoft

Transformer アーキテクチャも NLP からコンピュータビジョンに移行し、新世代 OpenAI などの画像合成フレームワークの CLIP & DALL-E、増加する関連アプリケーションの中で、テキスト>画像ドメインマッピングを使用して不完全な画像を仕上げ、トレーニングされたドメインから新しい画像を合成します。

DALL-E はプラトンの胸像の部分的なイメージを完成させようとします。 出典：https：//openai.com/blog/dall-e/

2: 敵対的生成ネットワーク (GAN)

GPT-3 のリリースと採用により、変圧器はメディアで大きく取り上げられるようになりましたが、生成的敵対ネットワーク (GAN) はそれ自体で有名なブランドになっており、最終的にはブランドに加わる可能性があります ディープフェイク 動詞として。

最初に提案された in 2014 主に画像合成、敵対的生成ネットワークに使用されます。建築で構成されています 発生器 フォルダーとその下に 弁別器。ジェネレーターは、データセット内の何千もの画像を循環して、それらの再構築を繰り返し試みます。試行のたびに、Discriminator は Generator の作業を評価し、より良い結果を得るために Generator を送り返しますが、前回の再構成でどのようにエラーが発生したかについては洞察がありません。

出典: https://developers.google.com/machine-learning/gan/gan_structor

これにより、ジェネレーターは、ディスクリミネーターがどこで問題が発生しているかを通知した場合に発生する可能性のある袋小路をたどる代わりに、さまざまな方法を探索する必要があります (以下の #8 を参照)。トレーニングが終了するまでに、ジェネレーターはデータセット内のポイント間の関係を示す詳細かつ包括的なマップを作成します。

研究者らの添付ビデオからの抜粋 (記事の最後に埋め込まれているものを参照)。ユーザーは「グラブ」カーソル (左上) を使用して変換を操作していることに注意してください。出典: https://www.youtube.com/watch?v=k7sG4XY5rIc

論文から 空間認識を高めることで GAN の平衡状態を改善する: 新しいフレームワークは、GAN の時には神秘的な潜在空間を循環し、画像合成アーキテクチャに応答性の高い手段を提供します。 出典: https://genforce.github.io/eqgan/

類推すると、これは、ロンドン中心部への単調な通勤を学ぶか、苦労して習得するかの違いです。知識.

その結果、トレーニングされたモデルの潜在空間内の特徴の高レベルのコレクションが得られます。高レベルの特徴の意味指標は「人」である可能性がありますが、その特徴に関連する特異性による降下により、「男性」や「女性」などの他の学習された特徴が明らかになる可能性があります。より低いレベルでは、サブ特徴は「金髪」、「白人」などに分類できます。

絡みというのは、注目すべき問題 GAN とエンコーダ/デコーダフレームワークの潜在空間では、GAN によって生成された女性の顔の笑顔は、潜在空間における彼女の「アイデンティティ」のもつれた特徴なのでしょうか、それとも平行枝なのでしょうか?

GAN で生成されたこの人物の顔は存在しません。 出典: https://this-person-does-not-exist.com/en

過去数年間で、この点に関してますます多くの新しい研究イニシアチブが生み出され、おそらく GAN の潜在空間に対する機能レベルの Photoshop スタイルの編集への道が開かれましたが、現時点では多くの変換が効果的に行われています。「オール・オア・ナッシング」パッケージ。特に、2021 年後半の NVIDIA の EditGAN リリースでは、高いレベルの解釈可能性セマンティックセグメンテーションマスクを使用して潜在空間内で。

人気の使い方

人気のディープフェイク動画への（実際にはかなり限られた）関与に加えて、画像/動画中心の GAN は過去 XNUMX 年間で急増し、研究者と一般の人々を同様に魅了しました。新しいリリースの目まぐるしい速度と頻度に追いつくのは困難ですが、GitHub リポジトリは素晴らしい GAN アプリケーション包括的なリストを提供することを目的としています。

敵対的生成ネットワークは、理論的には、適切にフレーム化されたあらゆるドメインから特徴を引き出すことができます。テキストを含む.

3:SVM

由来 in 1963, サポートベクターマシン (SVM) は、新しい研究で頻繁に登場するコアアルゴリズムです。 SVM では、ベクトルはデータセット内のデータポイントの相対的な配置をマップします。 サポート ベクトルは、異なるグループ、特徴、または特性間の境界を描きます。

サポートベクターはグループ間の境界を定義します。 出典: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

導出された境界はと呼ばれます。 超平面.

低い機能レベルでは、SVM は 二次元 (上の画像) ですが、認識されているグループまたはタイプの数が多い場合は、 三次元の.

点とグループのより深い配列には XNUMX 次元 SVM が必要です。 出典: https://cml.rhul.ac.uk/svm.html

人気の使い方

サポートベクターマシンは、さまざまな種類の高次元データに効果的かつ不可知論的に対処できるため、以下を含むさまざまな機械学習分野にわたって広く使用されています。ディープフェイクの検出, 画像分類, ヘイトスピーチの分類, DNA分析 & 人口構造予測、他の多くの間で。

4: K 平均法クラスタリング

一般にクラスタリングとは、教師なし学習データポイントを分類しようとするアプローチ密度推定、調査対象のデータの分布のマップを作成します。

K-Means クラスタリングは、データ内のセグメント、グループ、コミュニティを分類します。 出典: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Meansクラスタリングは、このアプローチの最も一般的な実装となっており、データポイントを特徴的な「K グループ」に分類します。これは、人口統計セクター、オンラインコミュニティ、または生の統計データで発見されるのを待っているその他の可能性のある秘密の集計を示す可能性があります。

K-Means 分析ではクラスターが形成されます。 出典: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

K 値自体は、プロセスの有用性、およびクラスターの最適な値を確立する際の決定要因となります。最初に、K 値がランダムに割り当てられ、その特徴とベクトル特性が隣接するものと比較されます。ランダムに割り当てられた値を持つデータポイントに最もよく似た近傍は、プロセスが許可するすべてのグループ化がデータから得られるまで、繰り返しそのクラスターに割り当てられます。

二乗誤差、つまりクラスター間の異なる値の「コスト」をプロットすると、次のことがわかります。肘の先データの場合:

クラスターグラフの「エルボポイント」。 出典: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

エルボーポイントは、データセットのトレーニングセッションの終了時に損失が平坦化して収益が逓減する方法と概念が似ています。これは、グループ間の区別がこれ以上明らかにならない時点を表し、データパイプラインの後続のフェーズに進むか、そうでなければ結果を報告する時期を示します。

人気の使い方

K 平均法クラスタリングは、大量の商業記録を人口統計上の洞察と「リード」に変換するための明確で説明可能な方法論を提供するため、明らかな理由から、顧客分析における主要なテクノロジーです。

このアプリケーション以外でも、K-Means クラスタリングは次の目的で使用されます。地滑り予測, 医療画像のセグメンテーション, GANによる画像合成, 文書分類, 都市計画、他にも多くの潜在的な実際の用途があります。

5: ランダムフォレスト

ランダムフォレストは、アンサンブル学習の配列からの結果を平均するメソッド決定木結果の全体的な予測を確立します。

出典: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

少しでも調べたことがあるなら、 バック·トゥ·ザ·フューチャー 三部作のように、デシジョンツリー自体は非常に簡単に概念化できます。目の前には多数の道があり、各道は分岐して新しい結果が得られ、その中にはさらに考えられる道が含まれています。

In 強化学習では、パスから後退して以前のスタンスからやり直すことができますが、デシジョンツリーはその行程にコミットします。

したがって、ランダムフォレストアルゴリズムは、基本的に意思決定に対してスプレッドベッティングを行います。このアルゴリズムは「ランダム」と呼ばれます。 アドホック を理解するための選択と観察 中央値 決定木配列からの結果の合計。

ランダムフォレストのアプローチは多数の要因を考慮するため、デシジョンツリーよりも意味のあるグラフに変換するのが難しい場合がありますが、生産性は著しく向上する可能性があります。

デシジョンツリーは過学習の可能性があり、得られる結果はデータ固有のものであり、一般化される可能性は高くありません。ランダムフォレストのデータポイントの恣意的な選択は、この傾向に対抗し、データ内の有意義で有用な代表的な傾向をドリルスルーします。

決定木回帰。 出典: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

人気の使い方

このリストにある多くのアルゴリズムと同様、ランダムフォレストは通常、データの「初期の」ソーターおよびフィルターとして動作するため、新しい研究論文に常に登場します。ランダムフォレストの使用例としては、次のようなものがあります。磁気共鳴画像合成, Bitcoin価格予測, 国勢調査の細分化, テキスト分類 & クレジットカードの不正検知.

ランダムフォレストは機械学習アーキテクチャにおける低レベルのアルゴリズムであるため、他の低レベルの手法や視覚化アルゴリズムのパフォーマンスにも貢献できます。帰納的クラスタリング, 特徴量の変換、テキスト文書の分類スパースな特徴を使用する, パイプラインの表示.

6: ナイーブベイズ

密度推定と組み合わせて (参照) 4、上記）、ナイーブ・ベイズ classifier は、計算されたデータの特徴に基づいて確率を推定できる、強力でありながら比較的軽量なアルゴリズムです。

単純ベイズ分類器における特徴関係。 出典: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

「ナイーブ」という用語は、次のような仮定を指します。ベイズの定理機能が無関係であること、として知られています 条件付き独立性。この立場を採用すると、アヒルのように歩いたり話したりするだけでは、私たちが相手にしているのがアヒルであることを確立するには不十分であり、「明白な」仮定が時期尚早に採用されることはありません。

このレベルの学術的および調査の厳密さは、「常識」が利用できる場合にはやりすぎですが、機械学習データセットに存在する可能性のある多くのあいまいさや、無関係である可能性のある相関関係を調べる場合には貴重な基準となります。

オリジナルのベイジアンネットワークでは、特徴は次の条件に従う必要があります。スコアリング関数、最小限の説明長を含む、ベイズスコアリングこれにより、データポイント間で見つかった推定接続と、これらの接続が流れる方向に関してデータに制限が課される可能性があります。

逆に、単純ベイズ分類器は、特定のオブジェクトの特徴が独立していると仮定して動作し、その後、ベイズの定理を使用して、その特徴に基づいて特定のオブジェクトの確率を計算します。

人気の使い方

Naive Bayes フィルターは以下でよく表現されています。病気の予測と文書の分類, スパムフィルタリング, 感情分類, レコメンダーシステム, 不正検出、他のアプリケーションの中でも。

7: K - 最近傍 (KNN)

米国空軍航空医学部によって最初に提案された in 195120 世紀半ばの最先端のコンピューティングハードウェアに適応する必要があり、 K 最近傍法 (KNN) は、学術論文や民間部門の機械学習研究イニシアチブで今でも目立つように機能しているリーンアルゴリズムです。

KNN は、本格的な機械学習モデルのトレーニングを必要とせず、データポイント間の関係を評価するためにデータセットを徹底的にスキャンするため、「遅延学習器」と呼ばれています。

KNN のグループ化。出典: https://scikit-learn.org/stable/modules/neighbors.html

KNN のグループ化。ソース： https://scikit-learn.org/stable/modules/neighbors.html

KNN はアーキテクチャ的には洗練されていますが、その体系的なアプローチでは読み取り/書き込み操作に顕著な要求があり、複雑で大量のデータセットを変換できる主成分分析 (PCA) などの付属テクノロジーがなければ、非常に大規模なデータセットでの使用には問題が生じる可能性があります。の中へ代表的なグループ KNN はより少ない労力で横断できるということです。

A 最近の研究従業員が退職するかどうかを予測する任務を負った多数のアルゴリズムの有効性と経済性を評価した結果、精度と予測有効性の点で、XNUMX 代の KNN が最新の競合他社よりも依然として優れていることがわかりました。

人気の使い方

コンセプトと実行のシンプルさが人気ですが、KNN は 1950 年代に留まっているのではなく、現在に適応されています。より DNN に重点を置いたアプローチペンシルベニア州立大学による 2018 年の提案で採用されており、はるかに複雑な多くの機械学習フレームワークにおいて、依然として中心的な初期段階プロセス (または後処理分析ツール) として機能しています。

KNN はさまざまな構成で使用されたり、オンライン署名検証, 画像分類, テキストマイニング, 収穫予測, 顔認識、他のアプリケーションや組み込みに加えて。

トレーニング中の KNN ベースの顔認識システム。出典: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

トレーニング中の KNN ベースの顔認識システム。 Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: マルコフ決定プロセス (MDP)

アメリカの数学者リチャード・ベルマンによって導入された数学的枠組み in 1957, マルコフ決定プロセス (MDP) は、最も基本的なブロックの XNUMX つです。強化学習建築。それ自体が概念的なアルゴリズムであるため、他の多数のアルゴリズムに適応されており、現在の AI/ML 研究の中で頻繁に使用されています。

MDP は、現在の状態 (つまり、データ内の「場所」) の評価を使用してデータ環境を探索し、次にデータのどのノードを探索するかを決定します。

出典: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

基本的なマルコフ決定プロセスでは、より望ましい長期目標よりも短期的な利点を優先します。このため、これは通常、強化学習におけるより包括的なポリシーアーキテクチャのコンテキストに組み込まれ、多くの場合、次のような制限要因にさらされます。割引された報酬、およびその他の環境変数を変更することで、より広範な望ましい結果を考慮せずに当面の目標に急ぐことを防ぎます。

人気の使い方

MDP の低レベルの概念は、機械学習の研究と積極的な導入の両方に広く普及しています。提案されているのは、 IoTセキュリティ防御システム, 魚の収穫, 市場予測.

そのほか明らかな適用性チェスやその他の厳密に連続したゲームと同様に、MDP もまた、ロボットシステムの手順トレーニング、以下のビデオでわかるように。

マルコフ意思決定プロセスを使用したグローバルプランナー - モバイル産業用ロボット

Global Planner using a Markov Decision Process - Mobile Industrial Robotics

Watch this video on YouTube

9: 用語頻度 - 逆文書頻度

期間頻度 (TF) は、文書内に単語が出現する回数を、その文書内の単語の総数で割ります。したがって、その言葉は 0.001 語の記事に XNUMX 回出現する用語の頻度は XNUMX です。 TF 自体は、意味のない記事 (たとえば、 a, &, 　, it）が優勢です。

用語の意味のある値を取得するために、逆ドキュメント頻度 (IDF) はデータセット内の複数のドキュメントにわたる単語の TF を計算し、非常に高い頻度に低い評価を割り当てます。ストップワード、記事など。結果として得られる特徴ベクトルは、各単語に適切な重みが割り当てられて、整数値に正規化されます。

TF-IDF は、多数の文書にわたる頻度に基づいて用語の関連性を重み付けし、まれな出現は顕著性の指標となります。 出典: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

このアプローチでは、意味的に重要な単語が失われるのを防ぎますが、異常値、周波数の重みを反転しても、低周波数の項が自動的に意味されるわけではありません。外れ値、珍しいものもあるので & 無価値。したがって、低頻度の用語は、データセット内の多数のドキュメントで (ドキュメントごとに低頻度であっても) 取り上げることによって、より広範なアーキテクチャのコンテキストでその価値を証明する必要があります。

それにもかかわらず年齢, TF-IDF は、自然言語処理フレームワークの初期フィルタリングパスのための強力で一般的な方法です。

人気の使い方

TF-IDF は、過去 XNUMX 年間にわたって Google のほとんどオカルト的な PageRank アルゴリズムの開発に少なくともある程度の役割を果たしてきたため、非常に広く採用されているジョン・ミューラーの 2019 にもかかわらず、操作的な SEO 戦術として否認検索結果にとって重要です。

PageRank は秘密であるため、TF-IDF が不正であるという明確な証拠はありません。現在、Google のランキングを上げるための効果的な戦術です。焼夷性議論最近、IT プロフェッショナルの間では、正しいかどうかにかかわらず、用語の乱用によって SEO の掲載順位が向上する可能性があるという一般的な理解が示されています (ただし、追加の情報は必要ありません)。独占濫用の告発 & 過剰な広告この理論の範囲が曖昧になります）。

10: 確率的勾配降下法

確率的勾配降下法 (SGD) は、機械学習モデルのトレーニングを最適化する方法としてますます人気が高まっています。

勾配降下法自体は、トレーニング中にモデルが行っている改善を最適化し、その後定量化する方法です。

この意味で、「グラデーション」は下向きの傾斜を示します (色ベースのグラデーションではなく、下の図を参照)。左側の「丘」の最高点はトレーニングプロセスの始まりを表します。この段階では、モデルはまだデータ全体を一度も確認しておらず、効果的な変換を生み出すためにデータ間の関係について十分に学習していません。

FaceSwap トレーニングセッションでの勾配降下。トレーニングは後半にしばらく停滞しましたが、最終的には許容可能な収束に向けて勾配を下って回復していることがわかります。

右側の最も低い点は収束 (課された制約と設定の下でモデルがこれまでと同じように効果的になる点) を表します。

勾配は、エラー率 (モデルが現在データの関係をどの程度正確にマッピングしているか) と重み (モデルの学習方法に影響を与える設定) の間の差異の記録および予測子として機能します。

この進捗状況の記録は、次の情報を提供するために使用できます。学習率スケジュール、初期のあいまいな詳細が明確な関係とマッピングに変化するにつれて、アーキテクチャがより粒度が高く正確になるように指示する自動プロセスです。実際、勾配損失は、トレーニングが次にどこに進むべきか、どのように進めるべきかについてのジャストインタイムのマップを提供します。

確率的勾配降下法の革新的な点は、反復ごとに各トレーニングサンプルのモデルのパラメーターを更新することです。これにより、一般的に収束までの時間が短縮されます。近年のハイパースケールデータセットの出現により、その後のロジスティック問題に対処できる XNUMX つの方法として、SGD の人気が最近高まっています。

一方、SGDは、マイナスの影響通常の勾配降下法と比較して、同じ結果を達成するためにより多くの反復が必要となり、追加の計画と追加のパラメーターが必要になる場合があります。

人気の使い方

SGD は、その構成可能性により、またその欠点にもかかわらず、ニューラルネットワークをフィッティングするための最も人気のある最適化アルゴリズムとなっています。新しい AI/ML 研究論文で主流になりつつある SGD の構成の XNUMX つは、適応モーメント推定 (ADAM、導入済み) の選択です。 in 2015) オプティマイザー。

ADAM は、各パラメーターの学習率を動的に適応させるだけでなく (「適応学習率」)、以前の更新の結果を後続の構成に組み込みます (「モメンタム」)。さらに、次のような今後のイノベーションを使用するように構成することもできます。ネステロフの勢い.

ただし、勢いを利用すると ADAM (および同様のアルゴリズム) を高速化できると主張する人もいます。次善の結論。機械学習研究分野の最先端のほとんどの分野と同様に、SGD は進行中の作業です。

10 年 2022 月 10 日に初公開。20.05 EET – フォーマット。XNUMX 月 XNUMX 日に修正。