KI 101
Was ist Lineare Regression?

Was ist Lineare Regression?
Lineare Regression ist ein Algorithmus, der verwendet wird, um eine Beziehung zwischen zwei verschiedenen Merkmalen/Variablen vorherzusagen oder zu visualisieren. Bei linearen Regressionsaufgaben werden zwei Arten von Variablen untersucht: die abhängige Variable und die unabhängige Variable. Die unabhängige Variable ist die Variable, die für sich selbst steht, ohne von der anderen Variable beeinflusst zu werden. Wenn die unabhängige Variable angepasst wird, ändern sich die Werte der abhängigen Variable. Die abhängige Variable ist die Variable, die untersucht wird, und sie ist das, was das Regressionsmodell löst oder vorherzusagen versucht. Bei linearen Regressionsaufgaben besteht jede Beobachtung/Instanz aus dem Wert der abhängigen Variable und dem Wert der unabhängigen Variable.
Das war eine kurze Erklärung der linearen Regression, aber lasst uns uns noch besser mit der linearen Regression vertraut machen, indem wir uns ein Beispiel ansehen und die Formel untersuchen, die sie verwendet.
Verständnis der linearen Regression
Nehmen wir an, wir haben ein Dataset, das die Größe von Festplatten und die Kosten für diese Festplatten abdeckt.
Nehmen wir an, das Dataset, das wir haben, besteht aus zwei verschiedenen Merkmalen: der Menge an Speicher und den Kosten. Je mehr Speicher wir für einen Computer kaufen, desto höher sind die Kosten für den Kauf. Wenn wir die einzelnen Datenpunkte in einem Streudiagramm plotten, könnten wir ein Diagramm erhalten, das ungefähr so aussieht:

Das genaue Verhältnis zwischen Speicher und Kosten kann je nach Hersteller und Modell der Festplatte variieren, aber im Allgemeinen ist der Trend der Daten einer, der im unteren linken Bereich beginnt (wo die Festplatten billiger und kleiner sind) und sich nach rechts oben bewegt (wo die Festplatten teurer und größer sind).
Wenn wir die Menge an Speicher auf der X-Achse und die Kosten auf der Y-Achse hätten, würde eine Linie, die die Beziehung zwischen den X- und Y-Variablen aufzeichnet, im unteren linken Eck beginnen und sich nach rechts oben erstrecken.

Die Funktion eines Regressionsmodells ist es, eine lineare Funktion zwischen den X- und Y-Variablen zu bestimmen, die die Beziehung zwischen den beiden Variablen am besten beschreibt. Bei der linearen Regression wird angenommen, dass Y aus einer Kombination der Eingabvariablen berechnet werden kann. Die Beziehung zwischen den Eingabvariablen (X) und den Zielvariablen (Y) kann durch Zeichnen einer Linie durch die Punkte im Diagramm dargestellt werden. Die Linie stellt die Funktion dar, die die Beziehung zwischen X und Y am besten beschreibt (z. B. für jeden Anstieg von X um 3 steigt Y um 2). Das Ziel ist es, eine optimale “Regressionslinie” oder die Linie/Funktion zu finden, die die Daten am besten anpasst.
Linien werden typischerweise durch die Gleichung dargestellt: Y = m*X + b. X bezeichnet die abhängige Variable, während Y die unabhängige Variable ist. Der Wert m ist die Steigung der Linie, definiert als “Anstieg” über “Lauf”. Machine-Learning-Praktiker stellen die berühmte Steigungs-Linie-Gleichung ein wenig anders dar, indem sie stattdessen die folgende Gleichung verwenden:
y(x) = w0 + w1 * x
In der obigen Gleichung ist y die Zielvariable, während “w” die Parameter des Modells und die Eingabe “x” ist. Die Gleichung wird also wie folgt gelesen: “Die Funktion, die Y in Abhängigkeit von X liefert, ist gleich den Parametern des Modells multipliziert mit den Merkmalen”. Die Parameter des Modells werden während des Trainings angepasst, um die beste Regressionslinie zu erhalten.
Mehrfache Lineare Regression

Photo: Cbaf via Wikimedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)
Der oben beschriebene Prozess gilt für die einfache lineare Regression oder die Regression auf Datasets, bei denen es nur eine einzige Feature/unabhängige Variable gibt. Es kann jedoch auch eine Regression mit mehreren Merkmalen durchgeführt werden. Im Falle der “Mehrfachen linearen Regression” wird die Gleichung um die Anzahl der Variablen im Dataset erweitert. Mit anderen Worten: Während die Gleichung für die einfache lineare Regression y(x) = w0 + w1 * x lautet, wäre die Gleichung für die multiple lineare Regression y(x) = w0 + w1x1 plus die Gewichte und Eingaben für die verschiedenen Merkmale. Wenn wir die Gesamtzahl der Gewichte und Merkmale als w(n)x(n) darstellen, könnten wir die Formel wie folgt darstellen:
y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)
Nachdem die Formel für die lineare Regression festgelegt wurde, verwendet das Machine-Learning-Modell unterschiedliche Werte für die Gewichte und zeichnet verschiedene Anpassungslinien. Denken Sie daran, dass das Ziel darin besteht, die Linie zu finden, die die Daten am besten anpasst, um zu bestimmen, welche der möglichen Gewichtskombinationen (und somit welche mögliche Linie) die Daten am besten anpasst und die Beziehung zwischen den Variablen erklärt.
Eine Kostenfunktion wird verwendet, um zu messen, wie nah die angenommenen Y-Werte den tatsächlichen Y-Werten sind, wenn ein bestimmter Gewichtswert gegeben ist. Die Kostenfunktion für die lineare Regression ist der mittlere quadratische Fehler, der einfach den Durchschnitt des quadrierten Fehlers zwischen dem vorhergesagten Wert und dem tatsächlichen Wert für alle Datenpunkte im Dataset berechnet. Die Kostenfunktion wird verwendet, um eine Kosten zu berechnen, die die Differenz zwischen dem vorhergesagten Zielwert und dem tatsächlichen Zielwert erfasst. Wenn die Anpassungslinie weit von den Datenpunkten entfernt ist, ist die Kosten höher, während die Kosten kleiner werden, je näher die Linie an die tatsächlichen Beziehungen zwischen den Variablen herankommt. Die Gewichte des Modells werden dann angepasst, bis die Gewichtskonfiguration gefunden wird, die den kleinsten Fehler erzeugt.












