Künstliche Intelligenz
Google Research identifiziert einen Engpass bei Hyperscale-Ansätzen für KI
Ein neues Papier von Google Research weist darauf hin, dass der aktuelle Trend zur Kuratierung sehr umfangreicher Datensätze möglicherweise kontraproduktiv für die Entwicklung effektiver Systeme für künstliche Intelligenz ist. Tatsächlich deuten die Untersuchungen darauf hin, dass durch Schulungen bessere Produkte für maschinelles Lernen entstehen können weniger genaue (d. h. technisch „schlechtere“) Datensätze.
Wenn die von den Forschern entwickelten Prinzipien gültig sind, bedeutet dies, dass „Hyperscale“-Datensätze wie die kürzlich erschienen LAION-400M (das 400 Millionen Text-/Bildpaare enthält) und die Daten hinter der neuronalen Sprach-Engine GPT-3 (mit 175 Milliarden Parametern) unterliegen in herkömmlichen und gängigen Architekturen und Methoden des maschinellen Lernens möglicherweise einer Art „thermischer Grenze“, wobei die schiere Datenmenge nachgelagerte Anwendungen „sättigt“ und sie daran hindert, auf nützliche Weise zu verallgemeinern.
Die Forscher schlagen außerdem alternative Methoden vor, um die Architektur von Hyperscale-Datensätzen zu überdenken und das Ungleichgewicht auszugleichen.
Das Papier sagt:
„Indem wir tiefer in die Ursachen dieser Phänomene eintauchen, zeigen wir, dass das beobachtete Sättigungsverhalten eng mit der Art und Weise zusammenhängt, wie sich die Darstellungen durch die Schichten der Modelle entwickeln. Wir zeigen ein noch extremeres Szenario, in dem die Leistung im Upstream- und Downstream-Bereich im Widerspruch zueinander steht. Das heißt: Um eine bessere Downstream-Leistung zu erzielen, müssen wir die Upstream-Genauigkeit verringern.“
Die Studie ist betitelt Erkundung der Grenzen groß angelegter Vorschulungenund stammt von vier Autoren bei Google Research.
Untersuchung der „Sättigung“
Die Autoren stellen die vorherrschenden Annahmen über die Beziehungen zwischen maschinellem Lernen und Daten im Zeitalter der Hyperscale-Daten in Frage: dass die Skalierung von Modellen und Datengröße die Leistung deutlich verbessert (eine Überzeugung, die im Hype um GPT-3 seit seiner Einführung zementiert wurde); und dass diese verbesserte Leistung auf lineare (d. h. wünschenswerte) Weise an nachgelagerte Aufgaben „weitergegeben“ wird, sodass die letztendlich auf den Markt gebrachten On-Device-Algorithmen, die aus den ansonsten unkontrollierbar riesigen Datensätzen und nicht destillierten trainierten Modellen abgeleitet sind, vollständig von den Erkenntnissen der vorgelagerten Architekturen in voller Größe profitieren.
„Diese Ansichten“, stellen die Forscher fest „schlagen vor, dass es sich auszahlen würde, Rechen- und Forschungsaufwand in die Verbesserung der Leistung eines riesigen Korpus zu stecken, weil wir dadurch viele nachgelagerte Aufgaben fast kostenlos lösen könnten.“
Der Artikel argumentiert jedoch, dass ein Mangel an Rechenressourcen und die daraus resultierenden „ökonomischen“ Methoden der Modellbewertung zu einem falschen Bild der Beziehungsdynamik zwischen Datenvolumen und nützlichen KI-Systemen beitragen. Die Autoren bezeichnen diese Gewohnheit als „großes Manko“, da die Forschungsgemeinschaft typischerweise davon ausgeht, dass lokale (positive) Ergebnisse zu nützlichen späteren Implementierungen führen:
„[Aufgrund] von Rechenbeschränkungen wird die Leistung bei unterschiedlichen Auswahlen von Hyperparameterwerten nicht gemeldet. Skalierungsdiagramme scheinen günstiger zu sein, wenn der für jede Skala gewählte Hyperparameter fest ist oder durch eine einfache Skalierungsfunktion bestimmt wird.“
Die Forscher geben außerdem an, dass viele Skalierungsstudien nicht anhand absoluter Maßstäbe gemessen werden, sondern als schrittweise Verbesserungen gegenüber dem aktuellen Stand der Technik (SotA) betrachtet werden. Sie stellen fest, dass „es a priori keinen Grund dafür gibt, dass die Skalierung außerhalb des untersuchten Bereichs liegen sollte“.
Vortraining
Das Papier befasst sich mit der Praxis des „Vortrainings“, einer Maßnahme, die darauf abzielt, Rechenressourcen zu sparen und die oft enormen Zeiträume zu verkürzen, die erforderlich sind, um ein Modell von Grund auf anhand großer Datenmengen zu trainieren. Vortrainings-Snapshots behandeln die Grundlagen der Verallgemeinerung von Daten innerhalb einer Domäne während des Trainings und werden häufig in verschiedenen Bereichen und Fachgebieten des maschinellen Lernens eingesetzt, von der Verarbeitung natürlicher Sprache (NLP) bis hin zu Deepfakes.
Frühere akademische Forschungen haben gefunden dass das Vortraining die Robustheit und Genauigkeit des Modells deutlich verbessern kann, aber das neue Papier legt nahe, dass die Komplexität der Funktionen, selbst in relativ kurz trainierten Vortrainingsvorlagen, von größerem Nutzen sein könnte, wenn sie auf spätere Prozesse in der Pipeline verlagert wird .
Dies ist jedoch nicht möglich, wenn sich Forscher weiterhin auf vortrainierte Modelle verlassen, die aktuelle Best Practices bei der Anwendung von Lernraten verwenden. Dies kann, so das Fazit der Studie, die endgültige Genauigkeit der endgültigen Anwendung der Arbeit erheblich beeinträchtigen. In diesem Zusammenhang weisen die Autoren darauf hin, dass man nicht hoffen kann, einen vortrainierten Kontrollpunkt zu finden, der bei allen möglichen nachgelagerten Aufgaben gute Ergebnisse liefert.
Die Studie
Um den Sättigungseffekt zu ermitteln, führten die Autoren 4800 Experimente mit Vision Transformers, ResNets und MLP-Mixern durch, jeweils mit einer unterschiedlichen Anzahl von Parametern, von 10 Millionen bis 10 Milliarden, alle trainiert mit den umfangreichsten Datensätzen, die in den jeweiligen Sektoren verfügbar sind. einschließlich ImageNet21K und Googles eigene JFT-300M.
Die Ergebnisse, so heißt es in der Zeitung, zeigten das Datenvielfalt sollte als zusätzliche Achse betrachtet werden, wenn versucht wird, Daten, Modellparameter und Rechenzeit zu „skalieren“. Derzeit führt die starke Konzentration der Trainingsressourcen (und der Aufmerksamkeit der Forscher) auf den vorgelagerten Abschnitt einer KI-Pipeline dazu, dass nachgelagerte Anwendungen mit einer Lawine von Parametern bis zu einem Punkt der „Sättigung“ überlastet werden, wodurch die Fähigkeit der eingesetzten Algorithmen, durch Features zu navigieren und Inferenzen oder Effekttransformationen durchzuführen, verringert wird.
Das Papier kommt zu dem Schluss:
„Durch eine umfassende Studie konnten wir feststellen, dass die Leistung der vorgelagerten Aufgaben sättigend ist, wenn wir die Leistung der vorgelagerten Aufgaben entweder durch Skalierung oder durch die Wahl von Hyperparametern und Architektur verbessern. Darüber hinaus liefern wir starke empirische Beweise dafür, dass Skalierung entgegen der landläufigen Meinung nicht zu einer universellen Lösung führt.“












