AI 101

Beaufsichtigtes vs. unüberwachtes Lernen

Aktualisiert on August 23, 2020

Daniel Nelson

Beim maschinellen Lernen können die meisten Aufgaben leicht in eine von zwei verschiedenen Klassen eingeteilt werden: Probleme des überwachten Lernens oder Probleme des unüberwachten Lernens. Beim überwachten Lernen sind den Daten Beschriftungen oder Klassen angehängt, während die Daten beim unbeaufsichtigten Lernen unbeschriftet sind. Schauen wir uns genauer an, warum diese Unterscheidung wichtig ist, und schauen wir uns einige der Algorithmen an, die mit jeder Art von Lernen verbunden sind.

Beaufsichtigtes vs. unüberwachtes Lernen

Die meisten Aufgaben des maschinellen Lernens liegen im Bereich von überwachtes Lernen. Bei überwachten Lernalgorithmen wird den einzelnen Instanzen/Datenpunkten im Datensatz eine Klasse oder Bezeichnung zugewiesen. Dies bedeutet, dass das Modell für maschinelles Lernen lernen kann, zu unterscheiden, welche Merkmale mit einer bestimmten Klasse korrelieren, und dass der Ingenieur für maschinelles Lernen die Leistung des Modells überprüfen kann, indem er sieht, wie viele Instanzen ordnungsgemäß klassifiziert wurden. Mithilfe von Klassifizierungsalgorithmen können viele komplexe Muster erkannt werden, sofern die Daten mit den richtigen Klassen gekennzeichnet sind. Beispielsweise kann ein Algorithmus für maschinelles Lernen lernen, verschiedene Tiere anhand von Merkmalen wie „Schnurrhaare“, „Schwanz“, „Krallen“ usw. voneinander zu unterscheiden.

Im Gegensatz zum überwachten LernenBeim unbeaufsichtigten Lernen geht es darum, ein Modell zu erstellen, das in der Lage ist, Muster aus unbeschrifteten Daten zu extrahieren. Mit anderen Worten: Der Computer analysiert die eingegebenen Merkmale und bestimmt selbst, welche Merkmale und Muster am wichtigsten sind. Unüberwachtes Lernen versucht, die inhärenten Ähnlichkeiten zwischen verschiedenen Instanzen zu finden. Wenn ein überwachter Lernalgorithmus darauf abzielt, Datenpunkte in bekannte Klassen einzuteilen, untersuchen unüberwachte Lernalgorithmen die gemeinsamen Merkmale der Objektinstanzen und ordnen sie auf der Grundlage dieser Merkmale in Gruppen ein, wodurch im Wesentlichen eigene Klassen erstellt werden.

Beispiele für überwachte Lernalgorithmen sind lineare Regression, logistische Regression, K-nächste Nachbarn, Entscheidungsbäume und Support Vector Machines.

Einige Beispiele für unbeaufsichtigte Lernalgorithmen sind inzwischen die Hauptkomponentenanalyse und das K-Means-Clustering.

Überwachter Lernalgorithmus

Lineare Regression ist ein Algorithmus, der zwei Merkmale verwendet und die Beziehung zwischen ihnen darstellt. Die lineare Regression wird verwendet, um numerische Werte im Verhältnis zu anderen numerischen Variablen vorherzusagen. Die lineare Regression hat die Gleichung Y = a + bX, wobei b die Steigung der Linie und a der Schnittpunkt von y mit der X-Achse ist.

Die logistische Regression ist ein binärer Klassifizierungsalgorithmus. Der Algorithmus untersucht die Beziehung zwischen numerischen Merkmalen und ermittelt die Wahrscheinlichkeit, dass die Instanz einer von zwei verschiedenen Klassen zugeordnet werden kann. Die Wahrscheinlichkeitswerte werden entweder gegen 0 oder 1 gedrückt. Anders ausgedrückt: Starke Wahrscheinlichkeiten nähern sich 0.99, schwache Wahrscheinlichkeiten hingegen 0.

K-Nächste Nachbarn Weist neuen Datenpunkten eine Klasse zu, basierend auf den zugewiesenen Klassen einer ausgewählten Anzahl von Nachbarn im Trainingssatz. Die Anzahl der vom Algorithmus berücksichtigten Nachbarn ist wichtig, und zu wenige oder zu viele Nachbarn können Punkte falsch klassifizieren.

Entscheidungsbäume sind eine Art Klassifizierungs- und Regressionsalgorithmus. Ein Entscheidungsbaum funktioniert, indem er einen Datensatz in immer kleinere Teile aufteilt, bis die Teilmengen nicht mehr weiter aufgeteilt werden können und das Ergebnis ein Baum mit Knoten und Blättern ist. In den Knoten werden Entscheidungen über Datenpunkte mithilfe verschiedener Filterkriterien getroffen, während die Blätter die Instanzen sind, denen eine bestimmte Bezeichnung zugewiesen wurde (ein Datenpunkt, der klassifiziert wurde). Entscheidungsbaumalgorithmen können sowohl numerische als auch kategoriale Daten verarbeiten. Im Baum werden Aufteilungen nach bestimmten Variablen/Merkmalen vorgenommen.

Support-Vektor-Maschinen sind ein Klassifizierungsalgorithmus, der durch das Zeichnen von Hyperebenen oder Trennlinien zwischen Datenpunkten arbeitet. Datenpunkte werden basierend auf der Seite der Hyperebene, auf der sie sich befinden, in Klassen eingeteilt. Über eine Ebene können mehrere Hyperebenen gezeichnet werden, wodurch ein Datensatz in mehrere Klassen unterteilt wird. Der Klassifikator versucht, den Abstand zwischen der Tauchhyperebene und den Punkten auf beiden Seiten der Ebene zu maximieren. Je größer der Abstand zwischen der Linie und den Punkten, desto sicherer ist der Klassifikator.

Unüberwachte Lernalgorithmen

Hauptkomponentenanalyse ist eine Technik zur Dimensionsreduktion, was bedeutet, dass die Dimensionalität oder Komplexität der Daten auf einfachere Weise dargestellt wird. Der Hauptkomponentenanalyse-Algorithmus findet neue Dimensionen für die Daten, die orthogonal sind. Während die Dimensionalität der Daten reduziert wird, sollte die Varianz zwischen den Daten so weit wie möglich erhalten bleiben. In der Praxis bedeutet dies, dass die Features im Datensatz auf weniger Features reduziert werden, die den Großteil der Daten darstellen.

K-Means-Clustering ist ein Algorithmus, der Datenpunkte automatisch anhand ähnlicher Merkmale in Cluster gruppiert. Die Muster im Datensatz werden analysiert und die Datenpunkte anhand dieser Muster in Gruppen aufgeteilt. Im Wesentlichen erstellt K-Means eigene Klassen aus unbeschrifteten Daten. Der K-Means-Algorithmus weist den Clustern Zentren (auch Schwerpunkte genannt) zu und verschiebt diese, bis die optimale Position für die Schwerpunkte gefunden ist. Die optimale Position ist eine Position, bei der der Abstand zwischen den Schwerpunkten und den umgebenden Datenpunkten innerhalb der Klasse minimiert ist. Das „K“ in K-Means-Clustering gibt an, wie viele Schwerpunkte ausgewählt wurden.

Zusammenfassung

Lassen Sie uns abschließend noch kurz auf die wichtigsten Unterschiede eingehen überwachtes und unüberwachtes Lernen.

Wie bereits erwähnt, werden bei überwachten Lernaufgaben die Eingabedaten beschriftet und die Anzahl der Klassen ist bekannt. In der Zwischenzeit sind die Eingabedaten unbeschriftet und die Anzahl der Klassen ist in Fällen des unbeaufsichtigten Lernens nicht bekannt. Unüberwachtes Lernen ist tendenziell weniger rechenintensiv, wohingegen überwachtes Lernen tendenziell rechenintensiver ist. Während überwachte Lernergebnisse tendenziell sehr genau sind, sind unüberwachte Lernergebnisse tendenziell weniger genau/mäßig genau.

Als nächstes

Was sind neuronale Netze?

Verpassen Sie nicht

Strukturierte vs. unstrukturierte Daten

Daniel Nelson

Blogger und Programmierer mit Spezialisierung auf Maschinelles lernen und Tiefes Lernen Themen. Daniel hofft, anderen dabei zu helfen, die Macht der KI für das soziale Wohl zu nutzen.

Unite.AI

Beaufsichtigtes vs. unüberwachtes Lernen

Beaufsichtigtes vs. unüberwachtes Lernen

Überwachter Lernalgorithmus

Unüberwachte Lernalgorithmen

Zusammenfassung

Vielleicht gefällt dir