KI 101
Überwachtes vs. Unüberwachtes Lernen

In der maschinellen Lernen, können die meisten Aufgaben leicht in eine von zwei verschiedenen Klassen eingeordnet werden: überwachte Lernprobleme oder unüberwachte Lernprobleme. Bei überwachtem Lernen hat die Daten Labels oder Klassen, die ihnen hinzugefügt sind, während im Falle des unüberwachten Lernens die Daten unbeschriftet sind. Lassen Sie uns einen genauen Blick darauf werfen, warum diese Unterscheidung wichtig ist und einige der Algorithmen betrachten, die mit jedem LernTyp verbunden sind.
Überwachtes vs. Unüberwachtes Lernen
Die meisten maschinellen Lernaufgaben befinden sich im Bereich des überwachten Lernens. Bei überwachten Lernalgorithmen haben die einzelnen Instanzen/Datensätze in der Datenmenge eine Klasse oder ein Label, das ihnen zugewiesen ist. Das bedeutet, dass das maschinelle Lernmodell lernen kann, welche Merkmale mit einer bestimmten Klasse korreliert sind und dass der maschinelle Lerningenieur die Leistung des Modells überprüfen kann, indem er sieht, wie viele Instanzen ordnungsgemäß klassifiziert wurden. Klassifizierungsalgorithmen können verwendet werden, um viele komplexe Muster zu erkennen, solange die Daten mit den richtigen Klassen beschriftet sind. Zum Beispiel kann ein maschinelles Lernalgorithmus lernen, verschiedene Tiere voneinander zu unterscheiden, basierend auf Merkmalen wie “Schnurrhaare”, “Schwanz”, “Klauen” usw.
Im Gegensatz zum überwachten Lernen beinhaltet unüberwachtes Lernen die Erstellung eines Modells, das in der Lage ist, Muster aus unbeschrifteten Daten zu extrahieren. Mit anderen Worten, der Computer analysiert die Eingabemerkmale und bestimmt selbst, welche Merkmale und Muster am wichtigsten sind. Unüberwachtes Lernen versucht, die inhärenten Ähnlichkeiten zwischen verschiedenen Instanzen zu finden. Wenn ein überwachtes Lernalgorithmus darauf abzielt, Datenpunkte in bekannte Klassen zu ordnen, werden unüberwachte Lernalgorithmen die Merkmale analysieren, die den Objektinstanzen gemeinsam sind, und sie in Gruppen basierend auf diesen Merkmalen einordnen, indem sie im Wesentlichen ihre eigenen Klassen erstellen.
Beispiele für überwachte Lernalgorithmen sind lineare Regression, logistische Regression, K-nearest Neighbors, Entscheidungsbäume und Support-Vektor-Maschinen.
Währenddessen sind einige Beispiele für unüberwachte Lernalgorithmen die Hauptkomponentenanalyse und K-Means-Clustering.
Überwachter Lernalgorithmus
Lineare Regression ist ein Algorithmus, der zwei Merkmale nimmt und die Beziehung zwischen ihnen grafisch darstellt. Lineare Regression wird verwendet, um numerische Werte in Bezug auf andere numerische Variablen vorherzusagen. Die lineare Regression hat die Gleichung Y = a + bX, wobei b die Steigung der Linie und a der Punkt ist, an dem y die x-Achse schneidet.
Logistische Regression ist ein binärer Klassifizierungsalgorithmus. Der Algorithmus untersucht die Beziehung zwischen numerischen Merkmalen und findet die Wahrscheinlichkeit, dass die Instanz in eine von zwei verschiedenen Klassen eingeteilt werden kann. Die Wahrscheinlichkeitswerte werden “zusammengepresst” in Richtung 0 oder 1. Mit anderen Worten, starke Wahrscheinlichkeiten nähern sich 0,99, während schwache Wahrscheinlichkeiten sich 0 nähern.
K-nearest Neighbors weist einer neuen Datenpunkt eine Klasse basierend auf den zugewiesenen Klassen einiger ausgewählter Nachbarn im Trainingsset zu. Die Anzahl der Nachbarn, die vom Algorithmus berücksichtigt werden, ist wichtig, und zu wenige oder zu viele Nachbarn können Punkte falsch klassifizieren.
Entscheidungsbäume sind ein Typ von Klassifizierungs- und Regressionsalgorithmus. Ein Entscheidungsbaum funktioniert, indem er die Datenmenge in kleinere und kleinere Teile aufteilt, bis die Teilmengen nicht mehr aufgeteilt werden können und was daraus resultiert, ist ein Baum mit Knoten und Blättern. Die Knoten sind, wo Entscheidungen über Datenpunkte getroffen werden, indem verschiedene Filterkriterien verwendet werden, während die Blätter die Instanzen sind, die einem Label zugewiesen wurden (ein Datenpunkt, der klassifiziert wurde). Entscheidungsbaumalgorithmen können sowohl numerische als auch kategorische Daten verarbeiten. Aufteilungen werden im Baum anhand spezifischer Variablen/Merkmale vorgenommen.
Support-Vektor-Maschinen sind ein Klassifizierungsalgorithmus, der durch Zeichnen von Hyperflächen oder Trennlinien zwischen Datenpunkten funktioniert. Datenpunkte werden basierend darauf, auf welcher Seite der Hyperfläche sie sich befinden, in Klassen unterteilt. Mehrere Hyperflächen können über eine Ebene gezogen werden, um eine Datenmenge in mehrere Klassen zu unterteilen. Der Klassifizierer wird versuchen, den Abstand zwischen der Trennhyperfläche und den Punkten auf beiden Seiten der Ebene zu maximieren, und je größer der Abstand zwischen der Linie und den Punkten ist, desto sicherer ist der Klassifizierer.
Unüberwachte Lernalgorithmen
Hauptkomponentenanalyse ist eine Technik, die zur Reduzierung der Dimensionalität verwendet wird, was bedeutet, dass die Dimensionalität oder Komplexität der Daten in einer einfacheren Form dargestellt wird. Der Hauptkomponentenanalyse-Algorithmus findet neue Dimensionen für die Daten, die orthogonal sind. Während die Dimensionalität der Daten reduziert wird, sollte die Varianz zwischen den Daten so weit wie möglich erhalten bleiben. Was dies in praktischen Begriffen bedeutet, ist, dass es die Merkmale in der Datenmenge auf weniger Merkmale reduziert, die die meisten Daten repräsentieren.
K-Means-Clustering ist ein Algorithmus, der Datenpunkte automatisch in Cluster basierend auf ähnlichen Merkmalen gruppiert. Die Muster in der Datenmenge werden analysiert und die Datenpunkte in Gruppen basierend auf diesen Mustern unterteilt. Im Wesentlichen erstellt K-Means seine eigenen Klassen aus unbeschrifteten Daten. Der K-Means-Algorithmus funktioniert, indem er Zentren für die Cluster oder Zentroide zuweist und die Zentroide bewegt, bis die optimale Position für die Zentroide gefunden ist. Die optimale Position wird eine sein, bei der der Abstand zwischen den Zentroiden und den umliegenden Datenpunkten innerhalb der Klasse minimiert ist. Das “K” im K-Means-Clustering bezieht sich auf die Anzahl der Zentroide, die ausgewählt wurden.
Zusammenfassung
Um zu schließen, lassen Sie uns schnell die wichtigsten Unterschiede zwischen überwachtem und unüberwachtem Lernen überprüfen.
Wie wir zuvor besprochen haben, sind in überwachten Lernaufgaben die Eingabedaten beschriftet und die Anzahl der Klassen bekannt. Währenddessen sind in unüberwachten Lernfällen die Eingabedaten unbeschriftet und die Anzahl der Klassen unbekannt. Unüberwachtes Lernen tendiert dazu, weniger rechenintensiv zu sein, während überwachtes Lernen tendenziell rechenintensiver ist. Während die Ergebnisse des überwachten Lernens tendenziell sehr genau sind, tendieren die Ergebnisse des unüberwachten Lernens dazu, weniger genau oder moderat genau zu sein.












