ベスト

10つのベストマシンラーニングアルゴリズム

mm

私たちがGPUアクセラレーションマシンラーニングの時代を生きている中で、最新の研究論文では頻繁に(そして目立つように)数十年、場合によっては70年前に開発されたアルゴリズムが登場しています。

一部の人々は、これらの古い方法の多くが「統計分析」ではなく「マシンラーニング」のカテゴリに入るという議論を唱えるかもしれません。彼らは、マシンラーニングの分野の始まりを1957年に、ペルセプトロンの発明にまで遡るかもしれません。

これらの古いアルゴリズムが最新のトレンドやマシンラーニングの分野での注目すべき発展をどの程度サポートし、絡み合っているかという点で、これは議論の余地がある主張です。したがって、最新の革新や注目すべき発展の基盤となっている「クラシック」の構成要素と、新しいエントリをいくつか見てみましょう。

1:トランスフォーマー

2017年、Google Researchは、論文 Attention Is All You Needを発表しました。この研究では、注意メカニズムをエンコーダ/デコーダおよび再帰型ネットワークモデルから中央の変換技術として促進する新しいアーキテクチャが概説されました。

このアプローチは、トランスフォーマーと呼ばれ、自然言語処理(NLP)において革命的な方法論となりました。トランスフォーマーは、オートレグレッシブ言語モデルおよびAIのポスターキャラクターGPT-3を含む多くの例を動かします。

トランスフォーマーは、シーケンストランスダクション、または「変換」と呼ばれる問題を優雅に解決しました。これは、入力シーケンスを出力シーケンスに処理することに関係しています。トランスフォーマーは、バッチではなく連続的にデータを受け取り、管理します。これにより、RNNアーキテクチャでは取得できない「記憶の持続性」が可能になります。トランスフォーマーの詳細な概要については、参考記事を参照してください。

再帰型ニューラルネットワーク(RNN)と比較して、トランスフォーマーアーキテクチャは並列化できるため、大規模なデータセットを効率的に処理できます。

一般的な使用

トランスフォーマーは、2020年にOpenAIのGPT-3がリリースされたときに、一般の人々の想像力を掴みました。GPT-3は、当時破壊的な175億パラメータを持っていました。この驚くべき成果は後に他のプロジェクトによって上回られました。たとえば、2021年にMicrosoftのMegatron-Turing NLG 530Bがリリースされました。これは、名前の通り530億パラメータを持つものでした。

ハイパースケールTransformer NLPプロジェクトのタイムライン。

ハイパースケールTransformer NLPプロジェクトのタイムライン。 出典:Microsoft

トランスフォーマーアーキテクチャは、NLPからコンピュータビジョンにも広がり、新しい画像合成フレームワークを動かしています。たとえば、OpenAIのCLIPDALL-Eがあります。これらは、テキストと画像のドメインマッピングを使用して、不完全な画像を完成させ、学習されたドメインから新しい画像を合成することができます。

DALL-Eは、プラトンの胸像の部分的な画像を完成させます。

DALL-Eは、プラトンの胸像の部分的な画像を完成させます。 出典:https://openai.com/blog/dall-e/

2:生成対抗ネットワーク(GAN)

トランスフォーマーがGPT-3のリリースと採用を通じて非凡なメディアの注目を集めた一方で、生成対抗ネットワーク(GAN)は独自のブランドとして認識されるようになりました。GANは最終的に「ディープフェイク」という用語と同様に動詞として使用される可能性があります。

2014年に最初に提案され、主に画像合成に使用される、生成対抗ネットワークアーキテクチャは、ジェネレーターディスクリミネーターで構成されます。ジェネレーターは、データセット内の数千の画像を繰り返し再構築しようとします。各試行ごとに、ディスクリミネーターはジェネレーターの仕事を評価し、ジェネレーターに戻り、改善するように指示しますが、前の再構築がどのように間違っていたかについての洞察は提供しません。

出典:https://developers.google.com/machine-learning/gan/gan_structure

出典:https://developers.google.com/machine-learning/gan/gan_structure

これにより、ジェネレーターは多数の道を探索するようになり、ディスクリミネーターがどこで間違っていたかを教えていれば生じる可能性のある盲点を避けることができます(下記の#8を参照)。トレーニングが終了するまでに、ジェネレーターはデータセット内のポイント間の関係の詳細で包括的なマップを取得します。

研究者の付属ビデオ(記事の末尾に埋め込まれています)からの抜粋。ユーザーは、トランスフォーメーションを「グラブ」カーソル(左上)で操作しています。

論文Improving GAN Equilibrium by Raising Spatial Awareness:GANの潜在的な空間をサイクルする新しいフレームワークが、画像合成アーキテクチャのためのレスポンシブなインストルメンタリティを提供します。 出典:https://genforce.github.io/eqgan/

これは、ロンドン中央部への単調な通勤を学ぶことと、ロンドンの「ナレッジ」を痛々しく取得することの違いです。

結果として、トレイン済みモデルの潜在的な空間に高いレベルの特徴のコレクションが得られます。高レベルの特徴の意味的なインジケーターは「人物」である可能性がありますが、特徴に関する特異性の降下では、他の学習された特徴、たとえば「男性」と「女性」が発見されます。下位レベルでは、サブ特徴は「ブロンド」、「コーカソイド」などのものに分解されます。

GANとエンコーダ/デコーダフレームワークの潜在的な空間における「エンタングルメント」は注目すべき問題です。GAN生成の女性の顔の笑顔は、潜在的な空間における彼女の「アイデンティティ」のエンタングルされた特徴ですか、それとも並行なブランチですか?

GAN生成の顔。

GAN生成の顔。 出典:https://this-person-does-not-exist.com/en

過去2年間で、潜在的な空間の特徴レベルの編集のための新しい研究イニシアチブが多数出現し、GANの潜在的な空間のためのPhotoshopスタイルの編集の道を切り開く可能性があります。しかし、現在、多くの変換は、NVIDIAの2021年後半のEditGANリリースのように、セマンティックセグメンテーションマスクを使用して潜在的な空間の高いレベルの解釈可能性を達成するなど、「オールオアナッシング」のパッケージです。

一般的な使用

実際には、ディープフェイク動画での使用が限られているにもかかわらず、画像/ビデオ中心のGANは過去4年間で普及し、研究者や一般の人々を魅了してきました。新しいリリースの驚くべき速度と頻度に追いつくことは課題ですが、Awesome GAN Applications GitHubリポジトリは、包括的なリストを提供することを目指しています。

GANは、テキストを含む、適切に構成されたドメインからの特徴を抽出できることが理論的に示されています。

3:サポートベクターマシン(SVM)

1963年に初めて提案された、サポートベクターマシン(SVM)は、研究論文で頻繁に登場する重要なアルゴリズムです。SVMでは、ベクターはデータセット内のデータポイントの相対的な配置をマッピングし、サポートベクターは異なるグループ、特徴、または特性間の境界を定義します。

サポートベクターはグループ間の境界を定義します。

サポートベクターはグループ間の境界を定義します。 出典:https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

導出された境界は、ハイパープレーンと呼ばれます。

特徴が少ない場合、SVMは2次元(上の画像)ですが、認識されるグループまたはタイプの数が多い場合、3次元になります。

ポイントとグループのより深い配列は、3次元SVMを必要とします。

ポイントとグループのより深い配列は、3次元SVMを必要とします。 出典:https://cml.rhul.ac.uk/svm.html

一般的な使用

SVMは、高次元のさまざまな種類のデータを効果的に、かつアグノスティックに処理できるため、ディープフェイク検出、画像分類ヘイトスピーチ分類DNA分析、および集団構造予測を含む、さまざまなマシンラーニングの分野で広く使用されています。

4:K-平均クラスタリング

クラスタリングは一般に、教師なし学習アプローチであり、密度推定を使用して、データポイントをカテゴリ化し、分析対象のデータの分布をマッピングします。

K-平均クラスタリングは、データにセグメント、グループ、コミュニティを認識します。

K-平均クラスタリングは、データにセグメント、グループ、コミュニティを認識します。 出典:https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-平均クラスタリングは、このアプローチで最も人気のある実装であり、データポイントを「Kグループ」に導きます。これらは、人口統計セクター、オンラインコミュニティ、または生データで発見できる他の潜在的な集団を表す可能性があります。

K-平均分析でクラスターが形成されます。

K-平均分析でクラスターが形成されます。 出典:https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Kの値は、プロセスの有用性とクラスターの最適値を決定する決定的な要素です。最初に、Kの値はランダムに割り当てられ、その特徴とベクター特性がその隣接点と比較されます。ランダムに割り当てられた値を持つデータポイントに最もよく似ている隣接点は、クラスターに反復的に割り当てられます。データが許可するすべてのグループ化が得られるまで、プロセスが続きます。

クラスター間の異なる値の二乗誤差、または「コスト」のプロットは、データに対して「肘点」を示します。

クラスター グラフの肘点。

クラスター グラフの肘点。 出典:https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

肘点は、トレーニング セッションの終わりに損失が減少して収束するのと同じ概念です。グループ間のさらなる区別が明らかになるポイントを表し、データ パイプラインの次の段階に進むか、または結果を報告することを示します。

一般的な使用

K-平均クラスタリングは、明確で説明可能な方法で大量の商業レコードを人口統計情報や「リード」に翻訳できるため、顧客分析で主な技術です。

このアプリケーションの外側で、K-平均クラスタリングは、地滑り予測医療画像セグメンテーションGANを使用した画像合成ドキュメント分類、および都市計画を含む、多数の潜在的な使用法や実際の使用法があります。

5:ランダムフォレスト

ランダムフォレストは、アンサンブル学習方法であり、決定木の配列からの結果の平均を使用して、結果の全体的な予測を決定します。

出典:https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

出典:https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

あなたがそれを少し調べたとしても、「バック・トゥ・ザ・フューチャー」三部作のように、決定木自体は概念として理解しやすいです。あなたの前にいくつかのパスがあり、それぞれのパスは新しい結果に分岐し、その結果はさらに新しいパスを含みます。

ランダムフォレストアルゴリズムは、決定を下すためのスプレッドベッティングです。アルゴリズムは「ランダム」と呼ばれます。なぜなら、理解するためにデータと観察をアドホックに選択するからです。

決定木はオーバーフィッティングの影響を受けやすく、データに特化した結果が得られ、一般化する可能性は低くなります。ランダムフォレストのランダムなデータポイントの選択は、この傾向に抵抗します。

決定木回帰。

決定木回帰。 出典:https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

一般的な使用

ランダムフォレストは、データの早期のソーターおよびフィルタとして頻繁に機能するため、研究論文で頻繁に登場します。ランダムフォレストの使用例としては、磁気共鳴画像シンセシスビットコイン価格予測国勢調査データに基づく顧客セグメンテーションテキスト分類、およびクレジットカード不正検出があります。

ランダムフォレストは、マシンラーニングアーキテクチャの低レベルアルゴリズムであるため、誘導クラスタリング特徴変換スパース特徴を使用したテキストドキュメントの分類、およびパイプラインの表示を含む他の低レベル方法のパフォーマンスに貢献する可能性があります。

6:ナイーブベイズ

密度推定(上記の4を参照)と組み合わせて、ナイーブベイズ分類器は、データの計算された特徴に基づいて確率を推定できる、比較的軽量なアルゴリズムです。

ナイーブベイズ分類器の特徴関係。

ナイーブベイズ分類器の特徴関係。 出典:https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

「ナイーブ」という用語は、ベイズの定理における仮定、つまり特徴が無関係であることを示しています。これは、条件付き独立と呼ばれます。アヒルが歩くように歩き、アヒルが話すように話すだけでは、アヒルであると結論付けるには十分ではないということです。明らかな仮定は、事前に採用されません。

このレベルの学術的、調査的な厳格さは、「常識」が利用可能な場合には過剰であるかもしれませんが、マシンラーニングのデータセットに存在する可能性のある多くの曖昧さや無関係な相関関係を通過する場合には、貴重な基準です。

元のベイジアン ネットワークでは、特徴はスコアリング関数、最小記述長とベイジアン スコアリングを含むものに従属します。これらは、データ ポイント間の推定される接続と、これらの接続が流れる方向に関する制限をデータに課すことができます。

ナイーブベイズ分類器は、特徴が独立しているという仮定に基づいて動作し、ベイズの定理を使用して、特定のオブジェクトの確率をその特徴に基づいて計算します。

一般的な使用

ナイーブベイズ フィルタは、疾患予測とドキュメント分類スパム フィルタリング感情分析レコメンダー システム、および不正検出を含む、さまざまなアプリケーションで広く表れています。

7:K-最近傍(KNN)

1951年にアメリカ空軍航空医学学校によって最初に提案された、K-最近傍(KNN)は、依然としてマシンラーニングの研究論文やプライベート セクターのイニシアチブで重要な役割を果たしています。

KNNは「怠惰な学習者」と呼ばれます。なぜなら、データセットを徹底的にスキャンしてデータ ポイント間の関係を評価する必要があるからです。代わりに、完全な機械学習モデルをトレーニングする必要はありません。

KNNグループ化。

KNNグループ化。 出典:https://scikit-learn.org/stable/modules/neighbors.html

KNNはアーキテクチャ的にスリムですが、その体系的なアプローチは、特に主成分分析(PCA)などの付随技術を使用せずに、非常に大きなデータセットで読み取り/書き込み操作に著しい要求を課す可能性があります。PCAは、複雑で大量のデータセットを、KNNがより簡単に移動できる、代表的なグループに変換できます。

最近の研究では、従業員が会社を辞めるかどうかを予測するタスクに取り組むために、精度と予測的有効性の点で、より新しい対象者よりもKNNが優れていることを発見しました。

一般的な使用

KNNは、よりDNNに焦点を当てたアプローチに2018年にペンシルバニア州立大学によって適応され、現在も、オンライン署名検証、画像分類テキスト マイニング作物予測、および顔認識を含む、さまざまな構成と多数のアプリケーションで使用されています。

トレーニング中のKNNベースの顔認識システム。

トレーニング中のKNNベースの顔認識システム。 出典:https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8:マルコフ決定プロセス(MDP)

1957年にアメリカの数学者リチャード ベルマンによって導入された、強化学習アーキテクチャの基本的な構成要素である、マルコフ決定プロセス(MDP)は、多数の他のアルゴリズムに適応されています。

MDPは、現在の状態(つまり、データの中でどこにいるか)の評価を使用して、次にデータのどのノードを探索するかを決定します。

出典:https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

出典:https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

基本的なマルコフ決定プロセスは、長期的な目標よりも近期的な利益を優先します。この理由により、強化学習では、より包括的なポリシー アーキテクチャに組み込まれることが多く、割引報酬やその他の環境変数などの制限要因の対象となります。

一般的な使用

MDPの低レベル概念は、研究とマシンラーニングの活用において広く普及しています。IoTセキュリティ防御システム、魚の収穫、および市場予測の提案がなされています。

チェスやその他の厳格にシーケンシャルなゲームへの明らかな適応性に加えて、MDPは、ロボティクス システムの手順的トレーニングにも自然な候補です。

 

9:TF-IDF(Term Frequency-Inverse Document Frequency)

Term Frequency(TF)は、単語が文書内で出現する回数を、文書内の単語の総数で割ったものです。したがって、1,000語の記事で単語「シール」が1回出現する場合、そのTFは0.001になります。単独では、TFは単語の重要性の指標としてほとんど役に立たないため、無意味な記事(theandaitなど)が優勢になるからです。

有意な値を取得するには、文書間の単語のTF、つまりストップワードの低い評価を割り当てる、ドキュメントの逆頻度(IDF)を計算する必要があります。

TF-IDFは、ドキュメントの数にわたる頻度に基づいて、用語の関連性を重み付けします。

TF-IDFは、ドキュメントの数にわたる頻度に基づいて、用語の関連性を重み付けします。 出典:https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

このアプローチでは、意味的に重要な単語がアウトライアとして失われるのを防ぎますが、頻度を逆転させることは、低頻度の単語がアウトライアではないことを意味するわけではありません。なぜなら、まれなものはまれで、価値がないからです。したがって、低頻度の単語は、データセット内の複数のドキュメントに(各ドキュメントあたり低頻度で)出現することで、その価値を証明する必要があります。

TF-IDFは古い手法ですが、自然言語処理フレームワークでの初期フィルタリング パスの強力で一般的な手法です。

一般的な使用

TF-IDFは、過去20年間でGoogleのPageRankアルゴリズムの開発に少なくともある程度関与しているため、非常に広く採用されていますが、2019年のジョン ミューラーの否定にもかかわらず、SEO戦術として有効であると考えられています。

PageRankの秘密に包まれているため、TF-IDFが現在Googleのランキングに効果的ではないことを示す明確な証拠はありません。最近のIT専門家の間で激しい議論は、単語の乱用がSEOの位置を向上させる可能性があることを示唆しています(ただし、追加の独占的乱用の告発過度の広告は、この理論の境界を曇らせています)。

10:確率的勾配降下法(SGD)

確率的勾配降下法(SGD)は、マシンラーニング モデルのトレーニングを最適化するために、ますます人気のある方法となっています。

勾配降下法は、マシンラーニング モデルがトレーニング中に改善していることを最適化し、量化する方法です。

この意味では、「勾配」は、右側の最低点で収束(モデルが可能な限り効果的になるポイント)を表す、下向きの傾き(色のグラデーションではなく)を示します。トレーニングの開始時点で、モデルはまだデータの全体を見ておらず、データの関係について十分に学習していないため、効果的な変換を生成することができません。

FaceSwapトレーニング セッションの勾配降下法。2番目の半分でしばらくプラトーに達していたものの、最終的に収束に向かって勾配を回復しました。

FaceSwapトレーニング セッションの勾配降下法。2番目の半分でしばらくプラトーに達していたものの、最終的に収束に向かって勾配を回復しました。

最低点は、モデルが与えられた制約と設定の下で可能な限り効果的になるポイントを表します。

勾配は、エラー率(モデルが現在データの関係をどの程度正確にマッピングしているか)と重み(モデルが学習するように影響を与える設定)之间の不一致の記録であり、予測でもあります。

この進歩の記録は、学習率スケジュールに使用できます。学習率スケジュールは、初期の漠然とした詳細が明確な関係とマッピングに変化するにつれて、より緻密で正確なものになるようにアーキテクチャに指示する自動プロセスです。実質的に、勾配の損失は、トレーニングが次にどこへ行くべきか、どのように進むべきかを示す、ジャストインタイムのマップを提供します。

確率的勾配降下法の革新は、各トレーニング例ごとにモデルパラメータを更新することです。これにより、一般的に収束への旅が速くなります。近年、超大規模データセットが登場したため、SGDは、生じるロジスティック問題に対処するための1つの方法として、人気を博しています。

一方で、SGDは、特徴スケーリングに悪影響を及ぼします。さらに、同じ結果を達成するために、通常の勾配降下法よりも反復回数が多くなる可能性があり、追加の計画と追加のパラメータが必要になる可能性があります。

一般的な使用

SGDは、ニューラルネットワークを適合させるための最も人気のある最適化アルゴリズムとなりました。SGDの構成の1つは、2015年に導入されたアダプティブ モーメント推定(ADAM)オプティマイザーの選択です。

ADAMは、各パラメータの学習率を動的に調整します(「適応学習率」)。また、前の更新からの結果を次の構成に組み込みます(「モーメントム」)。さらに、ネステロフ モーメントムなどの後続の革新を使用するように構成できます。

しかし、一部の人は、モーメントムの使用が、ADAM(および同様のアルゴリズム)を最適でない結論に急がせる可能性があると主張しています。マシンラーニング研究の最前線は、ほとんどの場合、進行中の作業です。

 

最初に公開された:2022年2月10日。2022年2月10日20:05 EET – フォーマットの変更。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。