Stummel Überwachtes vs. unüberwachtes Lernen – Unite.AI
Vernetzen Sie sich mit uns

AI 101

Beaufsichtigtes vs. unüberwachtes Lernen

mm
Aktualisiert on

Beim maschinellen Lernen können die meisten Aufgaben leicht in eine von zwei verschiedenen Klassen eingeteilt werden: Probleme des überwachten Lernens oder Probleme des unüberwachten Lernens. Beim überwachten Lernen sind den Daten Beschriftungen oder Klassen angehängt, während die Daten beim unbeaufsichtigten Lernen unbeschriftet sind. Schauen wir uns genauer an, warum diese Unterscheidung wichtig ist, und schauen wir uns einige der Algorithmen an, die mit jeder Art von Lernen verbunden sind.

Beaufsichtigtes vs. unüberwachtes Lernen

Die meisten Aufgaben des maschinellen Lernens liegen im Bereich von überwachtes Lernen. Bei überwachten Lernalgorithmen wird den einzelnen Instanzen/Datenpunkten im Datensatz eine Klasse oder Bezeichnung zugewiesen. Dies bedeutet, dass das Modell für maschinelles Lernen lernen kann, zu unterscheiden, welche Merkmale mit einer bestimmten Klasse korrelieren, und dass der Ingenieur für maschinelles Lernen die Leistung des Modells überprüfen kann, indem er sieht, wie viele Instanzen ordnungsgemäß klassifiziert wurden. Mithilfe von Klassifizierungsalgorithmen können viele komplexe Muster erkannt werden, sofern die Daten mit den richtigen Klassen gekennzeichnet sind. Beispielsweise kann ein Algorithmus für maschinelles Lernen lernen, verschiedene Tiere anhand von Merkmalen wie „Schnurrhaare“, „Schwanz“, „Krallen“ usw. voneinander zu unterscheiden.

Im Gegensatz zum überwachten LernenBeim unbeaufsichtigten Lernen geht es darum, ein Modell zu erstellen, das in der Lage ist, Muster aus unbeschrifteten Daten zu extrahieren. Mit anderen Worten: Der Computer analysiert die eingegebenen Merkmale und bestimmt selbst, welche Merkmale und Muster am wichtigsten sind. Unüberwachtes Lernen versucht, die inhärenten Ähnlichkeiten zwischen verschiedenen Instanzen zu finden. Wenn ein überwachter Lernalgorithmus darauf abzielt, Datenpunkte in bekannte Klassen einzuteilen, untersuchen unüberwachte Lernalgorithmen die gemeinsamen Merkmale der Objektinstanzen und ordnen sie auf der Grundlage dieser Merkmale in Gruppen ein, wodurch im Wesentlichen eigene Klassen erstellt werden.

Beispiele für überwachte Lernalgorithmen sind lineare Regression, logistische Regression, K-nächste Nachbarn, Entscheidungsbäume und Support Vector Machines.

Einige Beispiele für unbeaufsichtigte Lernalgorithmen sind inzwischen die Hauptkomponentenanalyse und das K-Means-Clustering.

Überwachter Lernalgorithmus

Lineare Regression ist ein Algorithmus, der zwei Merkmale verwendet und die Beziehung zwischen ihnen darstellt. Die lineare Regression wird verwendet, um numerische Werte im Verhältnis zu anderen numerischen Variablen vorherzusagen. Die lineare Regression hat die Gleichung Y = a + bX, wobei b die Steigung der Linie und a der Schnittpunkt von y mit der X-Achse ist.

Logistische Regression ist ein binärer Klassifizierungsalgorithmus. Der Algorithmus untersucht die Beziehung zwischen numerischen Merkmalen und ermittelt die Wahrscheinlichkeit, dass die Instanz in eine von zwei verschiedenen Klassen klassifiziert werden kann. Die Wahrscheinlichkeitswerte werden entweder in Richtung 0 oder 1 „gequetscht“. Mit anderen Worten: Starke Wahrscheinlichkeiten nähern sich 0.99, während schwache Wahrscheinlichkeiten sich 0 nähern.

K-Nächste Nachbarn Weist neuen Datenpunkten eine Klasse zu, basierend auf den zugewiesenen Klassen einer ausgewählten Anzahl von Nachbarn im Trainingssatz. Die Anzahl der vom Algorithmus berücksichtigten Nachbarn ist wichtig, und zu wenige oder zu viele Nachbarn können Punkte falsch klassifizieren.

Entscheidungsbäume sind eine Art Klassifizierungs- und Regressionsalgorithmus. Ein Entscheidungsbaum funktioniert, indem er einen Datensatz in immer kleinere Teile aufteilt, bis die Teilmengen nicht mehr weiter aufgeteilt werden können und das Ergebnis ein Baum mit Knoten und Blättern ist. In den Knoten werden Entscheidungen über Datenpunkte mithilfe verschiedener Filterkriterien getroffen, während die Blätter die Instanzen sind, denen eine bestimmte Bezeichnung zugewiesen wurde (ein Datenpunkt, der klassifiziert wurde). Entscheidungsbaumalgorithmen können sowohl numerische als auch kategoriale Daten verarbeiten. Im Baum werden Aufteilungen nach bestimmten Variablen/Merkmalen vorgenommen.

Support-Vektor-Maschinen sind ein Klassifizierungsalgorithmus, der durch das Zeichnen von Hyperebenen oder Trennlinien zwischen Datenpunkten arbeitet. Datenpunkte werden basierend auf der Seite der Hyperebene, auf der sie sich befinden, in Klassen eingeteilt. Über eine Ebene können mehrere Hyperebenen gezeichnet werden, wodurch ein Datensatz in mehrere Klassen unterteilt wird. Der Klassifikator versucht, den Abstand zwischen der Tauchhyperebene und den Punkten auf beiden Seiten der Ebene zu maximieren. Je größer der Abstand zwischen der Linie und den Punkten, desto sicherer ist der Klassifikator.

Unüberwachte Lernalgorithmen

Hauptkomponentenanalyse ist eine Technik zur Dimensionsreduktion, was bedeutet, dass die Dimensionalität oder Komplexität der Daten auf einfachere Weise dargestellt wird. Der Hauptkomponentenanalyse-Algorithmus findet neue Dimensionen für die Daten, die orthogonal sind. Während die Dimensionalität der Daten reduziert wird, sollte die Varianz zwischen den Daten so weit wie möglich erhalten bleiben. In der Praxis bedeutet dies, dass die Features im Datensatz auf weniger Features reduziert werden, die den Großteil der Daten darstellen.

K-bedeutet Clustering ist ein Algorithmus, der Datenpunkte basierend auf ähnlichen Merkmalen automatisch in Cluster gruppiert. Die Muster innerhalb des Datensatzes werden analysiert und die Datenpunkte basierend auf diesen Mustern in Gruppen aufgeteilt. Im Wesentlichen erstellt K-means seine eigenen Klassen aus unbeschrifteten Daten. Der K-Means-Algorithmus weist den Clustern Mittelpunkte oder Schwerpunkte zu und verschiebt die Schwerpunkte, bis die optimale Position für die Schwerpunkte gefunden ist. Die optimale Position ist eine, bei der der Abstand zwischen den Schwerpunkten und den umgebenden Datenpunkten innerhalb der Klasse minimiert ist. Das „K“ im K-Means-Clustering bezieht sich darauf, wie viele Schwerpunkte ausgewählt wurden.

Zusammenfassung

Lassen Sie uns abschließend noch kurz auf die wichtigsten Unterschiede eingehen überwachtes und unüberwachtes Lernen.

Wie bereits erwähnt, werden bei überwachten Lernaufgaben die Eingabedaten beschriftet und die Anzahl der Klassen ist bekannt. In der Zwischenzeit sind die Eingabedaten unbeschriftet und die Anzahl der Klassen ist in Fällen des unbeaufsichtigten Lernens nicht bekannt. Unüberwachtes Lernen ist tendenziell weniger rechenintensiv, wohingegen überwachtes Lernen tendenziell rechenintensiver ist. Während überwachte Lernergebnisse tendenziell sehr genau sind, sind unüberwachte Lernergebnisse tendenziell weniger genau/mäßig genau.