スタブ 線形回帰とは何ですか? - Unite.AI
私達と接続
AI マスタークラス:

AI 101

線形回帰とは何ですか?

mm
更新中 on

線形回帰とは何ですか?

線形回帰は、予測または視覚化するために使用されるアルゴリズムです。 XNUMX つの異なる特徴/変数間の関係。 線形回帰タスクでは、XNUMX 種類の変数が検査されます。 従属変数と独立変数。 独立変数とは、他の変数の影響を受けずに独立して存在する変数です。 独立変数が調整されると、従属変数のレベルが変動します。 従属変数は調査対象の変数であり、回帰モデルが解決/予測を試みるものです。 線形回帰タスクでは、すべての観測/インスタンスは従属変数値と独立変数値の両方で構成されます。

以上が線形回帰の簡単な説明でしたが、線形回帰の例を見て、線形回帰で使用される公式を調べて、線形回帰をより深く理解しましょう。

線形回帰を理解する

ハードドライブのサイズとそれらのハードドライブのコストをカバーするデータセットがあると仮定します。

持っているデータセットが、メモリ量とコストという XNUMX つの異なる特徴で構成されていると仮定します。 コンピュータ用に購入するメモリが増えるほど、購入コストも上がります。 個々のデータ ポイントを散布図にプロットすると、次のようなグラフが得られる可能性があります。

正確なメモリ対コストの比率は、ハード ドライブのメーカーやモデルによって異なる場合がありますが、一般に、データの傾向は左下 (ハード ドライブの方が安価で容量が小さい) から始まり、左下に移動します。右上 (ドライブの価格が高く、容量が大きい場所)。

X 軸にメモリ量、Y 軸にコストがある場合、X 変数と Y 変数の間の関係を表す線は、左下隅から始まり、右上に伸びます。

回帰モデルの機能は、X 変数と Y 変数の間の 3 つの変数間の関係を最もよく表す線形関数を決定することです。 線形回帰では、Y は入力変数の組み合わせから計算できると想定されます。 入力変数 (X) とターゲット変数 (Y) の関係は、グラフ内の点を通る線を引くことによって表現できます。 線は、X と Y の関係を最もよく表す関数を表します (たとえば、X が 2 増加するたびに、Y は XNUMX 増加します)。 目標は、最適な「回帰直線」、つまりデータに最もよく適合する直線/関数を見つけることです。

線は通常、Y = m*X + b という式で表されます。 X は従属変数を指し、Y は独立変数を指します。一方、m は、「走り」に対する「立ち上がり」によって定義される線の傾きです。機械学習の実践者は、有名な傾斜線方程式を少し異なる方法で表し、代わりに次の方程式を使用します。

y(x) = w0 + w1 * x

上の方程式では、y はターゲット変数、「w」はモデルのパラメーター、入力は「x」です。 したがって、方程式は次のように解釈されます。「X に応じて Y を与える関数は、モデルのパラメータと特徴量を乗算した値に等しい」。 モデルのパラメーターはトレーニング中に調整され、最適な回帰直線が得られます。

多重線形回帰

写真: Wikimedia Commons、パブリックドメイン経由のCBAF (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

上で説明したプロセスは、単純な線形回帰、または XNUMX つの特徴/独立変数のみが存在するデータセットの回帰に適用されます。 ただし、複数の特徴を使用して回帰を実行することもできます。 の場合 "重回帰」を使用すると、方程式はデータセット内で見つかった変数の数だけ拡張されます。 つまり、正線形回帰の方程式は y(x) = w0 + w1 * x ですが、重回帰の方程式は y(x) = w0 + w1x1 にさまざまな特徴の重みと入力を加えたものになります。 重みと特徴の合計数を w(n)x(n) として表すと、式は次のように表すことができます。

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

線形回帰の式を確立した後、機械学習モデルは重みに異なる値を使用し、異なる適合線を描きます。 目標は、考えられる重みの組み合わせのどれ (したがってどの線も) がデータに最もよく適合し、変数間の関係を説明するために、データに最もよく適合する線を見つけることであることに注意してください。

コスト関数は、特定の重み値が与えられたときに、想定される Y 値が実際の Y 値にどの程度近いかを測定するために使用されます。 コスト関数 線形回帰の場合、平均二乗誤差は、データセット内のすべてのさまざまなデータ ポイントの予測値と真の値の間の平均 (二乗) 誤差を取るだけです。 コスト関数はコストを計算するために使用され、予測されたターゲット値と真のターゲット値の差を捕捉します。 近似線がデータ ポイントから遠く離れている場合、コストは高くなりますが、線が変数間の真の関係を捉えることに近づくほど、コストは小さくなります。 次に、誤差が最小になる重み構成が見つかるまで、モデルの重みが調整されます。

専門分野を持つブロガーおよびプログラマー 機械学習 & 深層学習 トピック。 ダニエルは、他の人が社会利益のために AI の力を活用できるよう支援したいと考えています。