Best Of
Die 10 besten Algorithmen für maschinelles Lernen
Obwohl wir in einer Zeit außergewöhnlicher Innovationen im GPU-beschleunigten maschinellen Lernen leben, enthalten die neuesten Forschungsarbeiten häufig (und an prominenter Stelle) Algorithmen, die Jahrzehnte, in manchen Fällen sogar 70 Jahre alt sind.
Manche behaupten, dass viele dieser älteren Methoden eher in die Kategorie der „statistischen Analyse“ fallen als in die Kategorie des maschinellen Lernens, und ziehen es vor, die Entstehung dieses Sektors nur auf das Jahr 1957 zurückdatieren zu wollen, mit der Erfindung des Perzeptrons.
Angesichts des Ausmaßes, in dem diese älteren Algorithmen die neuesten Trends und schlagzeilenträchtigen Entwicklungen im maschinellen Lernen unterstützen und in diese verstrickt sind, ist diese Haltung umstritten. Werfen wir also einen Blick auf einige der „klassischen“ Bausteine, die den neuesten Innovationen zugrunde liegen, sowie auf einige neuere Beiträge, die sich um einen Platz in der KI-Ruhmeshalle bewerben.
1: Transformatoren
Im Jahr 2017 leitete Google Research eine Forschungskooperation, die ihren Höhepunkt fand Krepppapier Aufmerksamkeit ist alles was Sie brauchen. Die Arbeit skizzierte eine neuartige Architektur, die förderte Aufmerksamkeitsmechanismen vom „Piping“ in Encoder/Decoder- und rekurrenten Netzwerkmodellen hin zu einer eigenständigen zentralen Transformationstechnologie.
Der Ansatz wurde synchronisiert Transformatorund hat sich seitdem zu einer revolutionären Methodik in der Verarbeitung natürlicher Sprache (NLP) entwickelt, die neben vielen anderen Beispielen das autoregressive Sprachmodell und das KI-Aushängeschild GPT-3 unterstützt.

Transformatoren haben das Problem elegant gelöst Sequenztransduktion, auch „Transformation“ genannt, beschäftigt sich mit der Verarbeitung von Eingabesequenzen in Ausgabesequenzen. Ein Transformator empfängt und verwaltet Daten kontinuierlich und nicht in sequenziellen Batches. Dies ermöglicht eine „Speicherpersistenz“, die RNN-Architekturen nicht bieten können. Eine detailliertere Übersicht über Transformatoren finden Sie unter Unser Referenzartikel.
Im Gegensatz zu den Recurrent Neural Networks (RNNs), die in der CUDA-Ära begonnen hatten, die ML-Forschung zu dominieren, konnte die Transformer-Architektur auch problemlos umgesetzt werden parallelisiertDies eröffnet den Weg zur produktiven Bearbeitung eines weitaus größeren Datenbestands als RNNs.
Beliebte Verwendung
Transformers eroberte die öffentliche Fantasie im Jahr 2020 mit der Veröffentlichung von OpenAIs GPT-3, das mit einer damals rekordverdächtigen 175 Milliarden Parameter. Diese scheinbar atemberaubende Leistung wurde schließlich von späteren Projekten wie dem Jahr 2021 in den Schatten gestellt Release von Microsofts Megatron-Turing NLG 530B, der (wie der Name schon sagt) über 530 Milliarden Parameter verfügt.

Eine Zeitleiste von Hyperscale-Transformer-NLP-Projekten. Quelle: Microsoft
Die Transformer-Architektur ist auch von NLP auf Computer Vision übergegangen und unterstützt a neue Generation von Bildsynthese-Frameworks wie OpenAIs CLIP und DALL-E , die neben einer wachsenden Zahl verwandter Anwendungen die Text>Bild-Domänenzuordnung verwenden, um unvollständige Bilder fertigzustellen und neuartige Bilder aus trainierten Domänen zu synthetisieren.

DALL-E versucht, ein Teilbild einer Platon-Büste zu vervollständigen. Quelle: https://openai.com/blog/dall-e/
2: Generative Adversarial Networks (GANs)
Obwohl Transformers durch die Veröffentlichung und Einführung von GPT-3 außerordentliche Medienberichterstattung erlangt haben, ist die Generative Adversarial Network (GAN) hat sich zu einer eigenständigen Marke mit Wiedererkennungswert entwickelt und könnte sich irgendwann anschließen Deepfake als Verb.
Zuerst vorgeschlagen im Jahr 2014 angegeben und hauptsächlich für die Bildsynthese verwendet, ein Generative Adversarial Network Architektur besteht aus a Stromerzeuger und einem DiskriminatorDer Generator durchläuft Tausende von Bildern in einem Datensatz und versucht iterativ, diese zu rekonstruieren. Bei jedem Versuch bewertet der Diskriminator die Arbeit des Generators und schickt den Generator zurück, um die Arbeit zu verbessern, jedoch ohne Einblick in die Fehler der vorherigen Rekonstruktion.

Quelle: https://developers.google.com/machine-learning/gan/gan_structure
Dies zwingt den Generator, eine Vielzahl von Wegen zu erkunden, anstatt den potenziellen Sackgassen zu folgen, die sich ergeben hätten, wenn der Diskriminator ihm gesagt hätte, wo etwas schief gelaufen ist (siehe Nr. 8 unten). Nach Abschluss des Trainings verfügt der Generator über eine detaillierte und umfassende Karte der Beziehungen zwischen Punkten im Datensatz.

Aus dem Papier Verbesserung des GAN-Gleichgewichts durch Steigerung des räumlichen Bewusstseins: Ein neuartiges Framework durchläuft den manchmal mysteriösen latenten Raum eines GAN und stellt reaktionsfähige Instrumente für eine Bildsynthesearchitektur bereit. Quelle: https://genforce.github.io/eqgan/
Analog dazu ist dies der Unterschied zwischen dem Erlernen einer einzigen eintönigen Fahrt in die Londoner Innenstadt oder dem mühsamen Erwerb Das Wissen.
Das Ergebnis ist eine hochrangige Sammlung von Merkmalen im latenten Raum des trainierten Modells. Der semantische Indikator für ein hochrangiges Merkmal könnte „Person“ sein, während ein Abstieg durch die Spezifität des Merkmals andere erlernte Merkmale wie „männlich“ und „weiblich“ zutage fördern kann. Auf niedrigeren Ebenen können die Untermerkmale in „blond“, „kaukasisch“ usw. unterteilt werden.
Verstrickung ist ein bemerkenswertes Problem im latenten Raum von GANs und Encoder-/Decoder-Frameworks: Ist das Lächeln auf einem von GAN generierten weiblichen Gesicht ein verwickeltes Merkmal ihrer „Identität“ im latenten Raum oder ist es ein paralleler Zweig?

GAN-generierte Gesichter dieser Person existieren nicht. Quelle: https://this-person-does-not-exist.com/en
In den letzten Jahren sind in dieser Hinsicht immer mehr neue Forschungsinitiativen entstanden, die möglicherweise den Weg für die Bearbeitung des latenten Raums eines GANs auf Feature-Ebene im Photoshop-Stil ebnen. Derzeit handelt es sich bei vielen Transformationen jedoch um „Alles oder Nichts“-Pakete. Insbesondere NVIDIAs EditGAN-Version von Ende 2021 erreicht eine hohes Maß an Interpretierbarkeit im latenten Raum mithilfe semantischer Segmentierungsmasken.
Beliebte Verwendung
Neben ihrer (eigentlich recht begrenzten) Beteiligung an beliebten Deepfake-Videos haben bild-/videozentrierte GANs in den letzten vier Jahren stark zugenommen und Forscher und die Öffentlichkeit gleichermaßen begeistert. Mit der schwindelerregenden Geschwindigkeit und Häufigkeit neuer Veröffentlichungen Schritt zu halten, ist trotz des GitHub-Repositorys eine Herausforderung Fantastische GAN-Anwendungen Ziel ist es, eine umfassende Liste bereitzustellen.
Generative Adversarial Networks können theoretisch Merkmale aus jeder gut definierten Domäne ableiten. inklusive Text.
3: SVM
Entstanden im Jahr 1963 angegeben, Unterstützung Vektor Maschine (SVM) ist ein Kernalgorithmus, der in neuen Forschungsarbeiten häufig auftaucht. Unter SVM bilden Vektoren die relative Anordnung von Datenpunkten in einem Datensatz ab Unterstützung Vektoren definieren die Grenzen zwischen verschiedenen Gruppen, Merkmalen oder Merkmalen.

Unterstützungsvektoren definieren die Grenzen zwischen Gruppen. Quelle: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html
Die abgeleitete Grenze heißt a Hyperebene.
Bei niedrigen Funktionsstufen ist die SVM zweidimensional (Bild oben), aber wo es eine höhere anerkannte Anzahl von Gruppen oder Typen gibt, wird es dreidimensional.

Eine tiefere Anordnung von Punkten und Gruppen erfordert eine dreidimensionale SVM. Quelle: https://cml.rhul.ac.uk/svm.html
Beliebte Verwendung
Da Support Vector Machines hochdimensionale Daten vieler Art effektiv und agnostisch verarbeiten können, kommen sie in einer Vielzahl von Bereichen des maschinellen Lernens häufig vor, darunter Deepfake-Erkennung, Bildklassifizierung, Klassifizierung von Hassreden, DNA-Analyse und Vorhersage der Bevölkerungsstruktur, unter vielen anderen.
4: K-Means-Clustering
Clustering im Allgemeinen ist ein unbeaufsichtigtes Lernen Ansatz, der darauf abzielt, Datenpunkte nach zu kategorisieren Dichteschätzung, wodurch eine Karte der Verteilung der untersuchten Daten erstellt wird.

K-Means gruppiert göttliche Segmente, Gruppen und Gemeinschaften in Daten. Quelle: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/
K-bedeutet Clustering ist die beliebteste Implementierung dieses Ansatzes geworden, bei der Datenpunkte in eindeutige „K-Gruppen“ eingeteilt werden, die auf demografische Sektoren, Online-Communitys oder jede andere mögliche geheime Aggregation hinweisen können, die in den Rohdaten der Statistik darauf wartet, entdeckt zu werden.

Bei der K-Means-Analyse bilden sich Cluster. Quelle: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/
Der K-Wert selbst ist der entscheidende Faktor für die Nützlichkeit des Prozesses und für die Festlegung eines optimalen Wertes für einen Cluster. Zunächst wird der K-Wert zufällig zugewiesen und seine Merkmale und Vektoreigenschaften mit seinen Nachbarn verglichen. Die Nachbarn, die dem Datenpunkt mit dem zufällig zugewiesenen Wert am ähnlichsten sind, werden seinem Cluster iterativ zugewiesen, bis die Daten alle Gruppierungen ergeben haben, die der Prozess zulässt.
Das Diagramm für den quadrierten Fehler oder die „Kosten“ unterschiedlicher Werte zwischen den Clustern zeigt eine Ellenbogenpunkt zu den Daten:

Der „Ellbogenpunkt“ in einem Clusterdiagramm. Quelle: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html
Das Konzept des Ellbogenpunkts ähnelt der Art und Weise, wie sich der Verlust am Ende einer Trainingssitzung für einen Datensatz in abnehmende Erträge abflacht. Es stellt den Punkt dar, an dem keine weiteren Unterschiede zwischen Gruppen mehr sichtbar werden, und weist auf den Zeitpunkt hin, zu den nächsten Phasen in der Datenpipeline überzugehen oder Ergebnisse zu melden.
Beliebte Verwendung
Aus offensichtlichen Gründen ist K-Means-Clustering eine primäre Technologie in der Kundenanalyse, da es eine klare und erklärbare Methodik bietet, um große Mengen kommerzieller Datensätze in demografische Erkenntnisse und „Leads“ zu übersetzen.
Außerhalb dieser Anwendung wird auch K-Means Clustering eingesetzt Erdrutschvorhersage, Segmentierung medizinischer Bilder, Bildsynthese mit GANs, Dokumentklassifizierung und Stadtplanung, neben vielen anderen potenziellen und tatsächlichen Verwendungszwecken.
5: Zufälliger Wald
Random Forest ist ein ensemble lernen Methode, die das Ergebnis aus einem Array von mittelt Entscheidungsbäume um eine Gesamtprognose für das Ergebnis zu erstellen.

Quelle: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png
Wenn Sie es auch nur so wenig recherchiert haben, wie das Anschauen des Zurück in die Zukunft In der Trilogie ist ein Entscheidungsbaum selbst ziemlich einfach zu konzipieren: Es liegen mehrere Pfade vor Ihnen, und jeder Pfad verzweigt sich zu einem neuen Ergebnis, das wiederum weitere mögliche Pfade enthält.
In Verstärkung lernen, könnten Sie von einem Weg abweichen und von einer früheren Haltung aus erneut beginnen, während sich Entscheidungsbäume auf ihre Reise festlegen.
Der Random Forest Algorithmus ist also im Wesentlichen ein Spread-Betting-Algorithmus für Entscheidungen. Der Algorithmus wird als „zufällig“ bezeichnet, weil er ad hoc Auswahlen und Beobachtungen, um das zu verstehen mittlere Summe der Ergebnisse aus dem Entscheidungsbaum-Array.
Da er eine Vielzahl von Faktoren berücksichtigt, kann es schwieriger sein, einen Random-Forest-Ansatz in aussagekräftige Diagramme umzuwandeln als einen Entscheidungsbaum, ist aber wahrscheinlich deutlich produktiver.
Entscheidungsbäume neigen zur Überanpassung, d. h. die erhaltenen Ergebnisse sind datenspezifisch und lassen sich nicht verallgemeinern. Die willkürliche Auswahl von Datenpunkten durch Random Forest wirkt dieser Tendenz entgegen und ermöglicht es, aussagekräftige und nützliche repräsentative Trends in den Daten zu identifizieren.

Entscheidungsbaum-Regression. Quelle: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html
Beliebte Verwendung
Wie viele der Algorithmen in dieser Liste fungiert Random Forest typischerweise als „früher“ Sortierer und Filter von Daten und taucht daher immer wieder in neuen Forschungsarbeiten auf. Einige Beispiele für die Verwendung von Random Forest sind Magnetresonanz-Bildsynthese, Bitcoin-Preisvorhersage, Volkszählungssegmentierung, Textklassifizierung und Erkennung von Kreditkartenbetrug.
Da es sich bei Random Forest um einen Low-Level-Algorithmus in Architekturen für maschinelles Lernen handelt, kann er auch zur Leistung anderer Low-Level-Methoden sowie Visualisierungsalgorithmen beitragen Induktives Clustering, Feature-Transformationen, Klassifizierung von Textdokumenten Verwendung spärlicher Funktionen und Anzeigen von Pipelines.
6: Naive Bayes
In Verbindung mit der Dichteschätzung (siehe 4, über einem naiv Bayes Der Klassifikator ist ein leistungsstarker, aber relativ leichter Algorithmus, der Wahrscheinlichkeiten auf der Grundlage der berechneten Datenmerkmale schätzen kann.

Merkmalsbeziehungen in einem naiven Bayes-Klassifikator. Quelle: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model
Der Begriff „naiv“ bezieht sich auf die Annahme, Satz von Bayes dass Funktionen nichts miteinander zu tun haben, bekannt als Bedingte Unabhängigkeit. Wenn Sie diesen Standpunkt einnehmen, reicht es nicht aus, wie eine Ente zu gehen und zu sprechen, um festzustellen, dass wir es mit einer Ente zu tun haben, und es werden keine „offensichtlichen“ Annahmen voreilig getroffen.
Dieses Maß an akademischer und investigativer Genauigkeit wäre übertrieben, wenn „gesunder Menschenverstand“ vorhanden wäre, ist jedoch ein wertvoller Standard beim Durchqueren der vielen Mehrdeutigkeiten und möglicherweise unabhängigen Korrelationen, die in einem Datensatz für maschinelles Lernen vorhanden sein können.
In einem ursprünglichen Bayes'schen Netzwerk unterliegen Merkmale Scoring-Funktionen, einschließlich minimaler Beschreibungslänge und Bayesianische WertungDies kann den Daten hinsichtlich der geschätzten Verbindungen zwischen den Datenpunkten und der Richtung, in die diese Verbindungen fließen, Einschränkungen auferlegen.
Ein naiver Bayes-Klassifikator hingegen geht davon aus, dass die Merkmale eines bestimmten Objekts unabhängig sind, und berechnet anschließend anhand des Bayes-Theorems die Wahrscheinlichkeit eines bestimmten Objekts auf der Grundlage seiner Merkmale.
Beliebte Verwendung
Naive Bayes-Filter sind gut vertreten in Krankheitsvorhersage und Dokumentenkategorisierung, Spam-Filterung, Stimmungsklassifikation, Empfehlungssysteme und Betrugserkennung, neben anderen Anwendungen.
7: K – Nächste Nachbarn (KNN)
Zuerst vorgeschlagen von der US Air Force School of Aviation Medicine im Jahr 1951 angegebenund sich an den Stand der Computerhardware der Mitte des 20. Jahrhunderts anpassen müssen, K-Nächste Nachbarn (KNN) ist ein schlanker Algorithmus, der in wissenschaftlichen Arbeiten und privaten Forschungsinitiativen zum maschinellen Lernen immer noch eine herausragende Rolle spielt.
KNN wird auch als „fauler Lerner“ bezeichnet, da es einen Datensatz gründlich durchsucht, um die Beziehungen zwischen Datenpunkten zu bewerten, anstatt das Training eines vollwertigen maschinellen Lernmodells zu erfordern.

Eine KNN-Gruppierung. Quelle: https://scikit-learn.org/stable/modules/neighbors.html
Obwohl KNN architektonisch schlank ist, stellt sein systematischer Ansatz erhebliche Anforderungen an Lese-/Schreibvorgänge, und seine Verwendung in sehr großen Datensätzen kann ohne Zusatztechnologien wie die Hauptkomponentenanalyse (PCA), die komplexe und großvolumige Datensätze transformieren kann, problematisch sein hinein repräsentative Gruppierungen dass KNN mit weniger Aufwand durchlaufen werden kann.
A aktuellen Studie untersuchte die Wirksamkeit und Wirtschaftlichkeit einer Reihe von Algorithmen, deren Aufgabe es ist, vorherzusagen, ob ein Mitarbeiter ein Unternehmen verlässt, und kam zu dem Ergebnis, dass der siebzigjährige KNN moderneren Konkurrenten in Bezug auf Genauigkeit und Vorhersagewirksamkeit immer noch überlegen ist.
Beliebte Verwendung
Trotz der populären Einfachheit von Konzept und Ausführung ist KNN nicht in den 1950er Jahren stecken geblieben – es wurde adaptiert in ein stärker DNN-fokussierter Ansatz in einem Vorschlag der Pennsylvania State University aus dem Jahr 2018 und bleibt ein zentraler Frühphasenprozess (oder Post-Processing-Analysetool) in vielen weitaus komplexeren Frameworks für maschinelles Lernen.
In verschiedenen Konfigurationen wurde KNN verwendet oder für Online-Signaturprüfung, Bildklassifizierung, Text Mining, Erntevorhersage und Gesichtserkennung, neben anderen Anwendungen und Einbindungen.

Ein KNN-basiertes Gesichtserkennungssystem im Training. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf
8: Markov-Entscheidungsprozess (MDP)
Ein mathematischer Rahmen, der vom amerikanischen Mathematiker Richard Bellman eingeführt wurde im Jahr 1957 angegeben, Der Markov-Entscheidungsprozess (MDP) ist einer der grundlegendsten Blöcke von Verstärkung lernen Architekturen. Es handelt sich um einen eigenständigen konzeptionellen Algorithmus, der in eine Vielzahl anderer Algorithmen übernommen wurde und in der aktuellen KI/ML-Forschung häufig wiederkehrt.
MDP untersucht eine Datenumgebung, indem es anhand der Auswertung ihres aktuellen Zustands (d. h. „wo“ sie sich in den Daten befindet) entscheidet, welcher Knoten der Daten als nächstes untersucht werden soll.

Quelle: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420
Ein grundlegender Markov-Entscheidungsprozess priorisiert kurzfristige Vorteile gegenüber wünschenswerteren langfristigen Zielen. Aus diesem Grund ist es in der Regel in den Kontext einer umfassenderen politischen Architektur beim Reinforcement Learning eingebettet und unterliegt häufig einschränkenden Faktoren wie ermäßigten Belohnungen und anderen modifizierenden Umgebungsvariablen, die verhindern, dass es ohne Berücksichtigung auf ein unmittelbares Ziel zusteuert des breiteren gewünschten Ergebnisses.
Beliebte Verwendung
Das Low-Level-Konzept von MDP ist sowohl in der Forschung als auch in der aktiven Anwendung von maschinellem Lernen weit verbreitet. Es wurde vorgeschlagen für IoT-Sicherheitsverteidigungssysteme, Fischernte und Marktprognose.
Neben seiner offensichtliche Anwendbarkeit zu Schach und anderen streng sequentiellen Spielen ist MDP auch ein natürlicher Anwärter für die Verfahrensschulung von Robotiksystemen, wie wir im Video unten sehen können.
9: Termhäufigkeit-inverse Dokumenthäufigkeit
Begriffshäufigkeit (TF) dividiert die Häufigkeit, mit der ein Wort in einem Dokument vorkommt, durch die Gesamtzahl der Wörter in diesem Dokument. So das Wort versiegeln Das einmalige Erscheinen in einem Artikel mit tausend Wörtern hat eine Begriffshäufigkeit von 0.001. Für sich genommen ist TF als Indikator für die Wichtigkeit eines Begriffs weitgehend nutzlos, da bedeutungslose Artikel (wie z a, und, die und it) überwiegen.
Um einen aussagekräftigen Wert für einen Begriff zu erhalten, berechnet Inverse Document Frequency (IDF) die TF eines Wortes über mehrere Dokumente in einem Datensatz hinweg und weist einer sehr hohen Häufigkeit eine niedrige Bewertung zu Stoppwörter, wie zum Beispiel Artikel. Die resultierenden Merkmalsvektoren werden auf ganze Werte normiert, wobei jedem Wort eine entsprechende Gewichtung zugewiesen wird.

TF-IDF gewichtet die Relevanz von Begriffen anhand der Häufigkeit in einer Reihe von Dokumenten, wobei ein selteneres Vorkommen ein Indikator für die Bedeutung ist. Quelle: https://moz.com/blog/inverse-document-frequenz-and-the-importance-of-uniqueness
Allerdings verhindert dieser Ansatz, dass semantisch wichtige Wörter verloren gehen AusreißerDas Invertieren des Frequenzgewichts bedeutet nicht automatisch, dass es sich um einen Niederfrequenzterm handelt kein Frontalunterricht. ein Ausreißer, denn manche Dinge sind selten und wertlos. Daher muss ein Begriff mit geringer Häufigkeit seinen Wert im breiteren architektonischen Kontext unter Beweis stellen, indem er (selbst bei geringer Häufigkeit pro Dokument) in einer Reihe von Dokumenten im Datensatz vorkommt.
Trotz seiner AlterTF-IDF ist eine leistungsstarke und beliebte Methode für erste Filterdurchgänge in Frameworks zur Verarbeitung natürlicher Sprache.
Beliebte Verwendung
Da TF-IDF in den letzten zwanzig Jahren zumindest eine gewisse Rolle bei der Entwicklung des weitgehend geheimen PageRank-Algorithmus von Google gespielt hat, ist es geworden sehr weit verbreitet als manipulative SEO-Taktik, trotz John Muellers 2019 Verweigerung seiner Bedeutung für die Suchergebnisse.
Aufgrund der Geheimhaltung rund um PageRank gibt es keine eindeutigen Beweise dafür, dass es sich um TF-IDF handelt kein Frontalunterricht. derzeit eine effektive Taktik, um in den Google-Rankings aufzusteigen. Brandstiftung Diskussion Unter IT-Fachleuten zeigt sich in letzter Zeit, ob richtig oder nicht, die verbreitete Auffassung, dass der Missbrauch von Begriffen immer noch zu einer verbesserten SEO-Platzierung führen kann (wenn auch zusätzlich). Vorwürfe des Monopolmissbrauchs und übermäßige Werbung verwischen die Grenzen dieser Theorie).
10: Stochastischer Gradientenabstieg
Stochastischer Gradientenabstieg (SGD) ist eine immer beliebter werdende Methode zur Optimierung des Trainings von Modellen für maschinelles Lernen.
Gradient Descent selbst ist eine Methode zur Optimierung und anschließenden Quantifizierung der Verbesserung, die ein Modell während des Trainings erzielt.
In diesem Sinne bezeichnet „Gradient“ einen Abwärtstrend (und nicht eine farbbasierte Abstufung, siehe Abbildung unten), wobei der höchste Punkt des „Hügels“ links den Beginn des Trainingsprozesses darstellt. Zu diesem Zeitpunkt hat das Modell noch nicht einmal alle Daten gesehen und noch nicht genug über die Beziehungen zwischen den Daten gelernt, um effektive Transformationen zu erzeugen.

Ein Gefälleabstieg bei einer FaceSwap-Trainingseinheit. Wir können sehen, dass das Training in der zweiten Hälfte für einige Zeit ein Plateau erreicht hat, sich aber schließlich wieder auf den Weg nach unten in Richtung einer akzeptablen Konvergenz erholt hat.
Der niedrigste Punkt auf der rechten Seite stellt die Konvergenz dar (den Punkt, an dem das Modell unter den auferlegten Einschränkungen und Einstellungen so effektiv ist, wie es jemals erreicht wird).
Der Gradient dient als Aufzeichnung und Prädiktor für die Diskrepanz zwischen der Fehlerrate (wie genau das Modell die Datenbeziehungen aktuell abgebildet hat) und den Gewichten (den Einstellungen, die die Art und Weise beeinflussen, wie das Modell lernt).
Diese Fortschrittsaufzeichnung kann verwendet werden, um a zu informieren Lernratenplan, ein automatischer Prozess, der die Architektur anweist, detaillierter und präziser zu werden, wenn sich die ersten vagen Details in klare Beziehungen und Zuordnungen verwandeln. Tatsächlich liefert der Gradientenverlust eine Just-in-Time-Karte darüber, wohin das Training als nächstes gehen und wie es ablaufen soll.
Die Innovation des stochastischen Gradientenabstiegs besteht darin, dass die Modellparameter pro Iteration für jedes Trainingsbeispiel aktualisiert werden, was den Konvergenzprozess generell beschleunigt. Aufgrund der Einführung von Hyperscale-Datensätzen in den letzten Jahren hat SGD als eine mögliche Methode zur Lösung der daraus resultierenden logistischen Probleme an Popularität gewonnen.
Auf der anderen Seite hat SGD negative Implikationen für die Feature-Skalierung und erfordert möglicherweise mehr Iterationen, um das gleiche Ergebnis zu erzielen, was im Vergleich zum regulären Gradientenabstieg zusätzliche Planung und zusätzliche Parameter erfordert.
Beliebte Verwendung
Aufgrund seiner Konfigurierbarkeit und trotz seiner Mängel ist SGD zum beliebtesten Optimierungsalgorithmus für die Anpassung neuronaler Netze geworden. Eine Konfiguration von SGD, die in neuen KI/ML-Forschungsarbeiten immer dominanter wird, ist die Wahl der Adaptive Moment Estimation (ADAM, eingeführt). im Jahr 2015 angegeben) Optimierer.
ADAM passt die Lernrate für jeden Parameter dynamisch an („adaptive Lernrate“) und bezieht Ergebnisse aus vorherigen Updates in die nachfolgende Konfiguration ein („Momentum“). Darüber hinaus kann es so konfiguriert werden, dass spätere Innovationen genutzt werden, wie z. B. Nesterov-Momentum.
Einige behaupten jedoch, dass die Verwendung von Momentum auch ADAM (und ähnliche Algorithmen) auf a beschleunigen kann suboptimale Schlussfolgerung. Wie die meisten Spitzenreiter im Bereich der maschinellen Lernforschung ist auch SGD noch in Arbeit.
Erstveröffentlichung am 10. Februar 2022. Geändert am 10. Februar um 20.05 Uhr EET – Formatierung.












