スタブ データサイエンス分野における単純線形回帰 - Unite.AI
私達と接続

Artificial Intelligence

データサイエンス分野における単純線形回帰

mm
更新中 on

データ サイエンスは広大な分野であり、日を追うごとに成長しています。現在、トップ企業は、この分野とその関連概念に関する深い知識を持つプロのデータ サイエンティストを求めています。この分野で優れたパフォーマンスを発揮するには、すべてのデータ サイエンス アルゴリズムについて正しい知識を持っていることが重要です。最も基本的なデータ サイエンス アルゴリズムの 1 つは、単純な線形回帰です。すべてのデータ サイエンティストは、このアルゴリズムを使用して問題を解決し、有意義な結果を導き出す方法を知っておく必要があります。

単純線形回帰は、入力変数と出力変数の間の関係を決定する方法論です。 入力変数は独立変数または予測子とみなされ、出力変数は従属変数または応答と見なされます。 単純な線形回帰では、XNUMX つの入力変数のみが考慮されます。

単純な線形回帰のリアルタイムの例

労働時間数と完了した作業量という XNUMX つのパラメーターで構成されるデータセットを考えてみましょう。 単純な線形回帰は、労働時間が与えられた場合に行われた作業量を推測することを目的としています。 最小誤差を生成する回帰直線が引かれます。 線形方程式も形成され、ほぼすべてのデータセットに使用できます。

単純線形回帰の目的を説明する原則: 

単純な線形回帰は、データセット内の変数間の関係を予測し、意味のある結論を導き出すために使用されます。 単純な線形回帰は主に変数間の統計的関係を導き出すために使用されますが、十分な精度ではありません。 XNUMX つの基本原則は、単純な線形回帰の使用を示しています。 これらの原則を以下に示します。

  1. XNUMX つの変数間の関係は線形かつ相加的であると考えられます。 従属変数と独立変数の各ペアに対して直線関数が確立されます。 この線の傾きは、データセットで利用可能な変数の値とは異なります。 従属変数は、独立変数の値に相加的な影響を与えます。
  2. 誤差は統計的に独立しています。 この原則は、時間と系列に関連する情報を含むデータ セットについて考えることができます。 このようなデータセットの連続エラーには相関がなく、統計的に独立しています。
  3. 誤差には一定の分散 (等分散性) があります。  誤差の等分散性は、さまざまなパラメータに基づいて考慮できます。 これらのパラメーターには、時間、その他の予測、その他の変数が含まれます。
  4. 誤差分布の正規性:  これは、上記の他の XNUMX つをサポートする重要な原則です。 データセット内の変数間の関係が確立できない場合、または上記の原則のいずれかが確立されない場合、モデルによって生成される予測と結論はすべて間違っています。 間違った、誤解を招くデータを使用すると実際の結果は得られないため、これらの結論をプロジェクトでさらに使用することはできません。

単純線形回帰の利点

  • この方法論は非常に使いやすく、簡単に結果を得ることができます。
  • この方法は、主に従属変数と独立変数の間の関係がわかっている場合、他のデータ サイエンス アルゴリズムよりも複雑さが大幅に軽減されます。
  • 過剰適合は、この方法論が意味のない情報を取り込むときに発生する一般的な状態です。 この問題に対処するために、複雑さを軽減することで過剰適合の問題を軽減する正則化手法が利用可能です。

単純線形回帰の欠点

  • 過剰適合の問題は排除できますが、無視することはできません。 この方法では、無意味なデータを考慮に入れることができ、また、意味のある情報を削除することもできます。 このような場合、すべての予測は特定のデータセットに関する結論であり、不正確であり、効果的な結果を生成することはできません。
  • データの外れ値の問題も非常に一般的です。 外れ値は、正確なデータと一致しない誤った値とみなされます。 このような値を考慮すると、モデル全体が役に立たない誤解を招く結果を生成します。
  • 単純な線形回帰では、手元にあるデータセットは独立したデータを持つと考えられます。 変数間に何らかの依存関係がある可能性があるため、この仮定は間違っています。

単純な線形回帰 これは、データ セット内のさまざまな入力変数と出力変数の関係を判断するのに役立つ手法です。 単純な線形回帰のリアルタイム アプリケーションがいくつかあります。 このアルゴリズムは高い計算能力を必要とせず、簡単に実装できます。 導出された方程式と結論はさらに構築することができ、理解するのが非常に簡単です。 ただし、専門家の中には、単純な線形回帰は多くの仮定が行われるため、さまざまなアプリケーションに使用するのに適切な方法論ではないと感じている人もいます。 これらの仮定が間違っていることが証明される可能性もあります。 したがって、この手法を正しく適用できる場合には必ず使用する必要があります。

IT業界で8年以上の専門的な経験を持つデータサイエンティスト人材。 データサイエンスとデジタルマーケティングの専門家。 専門的に研究された技術内容に関する専門知識。