Artificial Intelligence

Google Research identifiziert einen Engpass bei Hyperscale-Ansätzen für KI

Aktualisiert on 9. Dezember 2022

Ein neues Papier von Google Research weist darauf hin, dass der aktuelle Trend zur Kuratierung sehr umfangreicher Datensätze möglicherweise kontraproduktiv für die Entwicklung effektiver Systeme für künstliche Intelligenz ist. Tatsächlich deuten die Untersuchungen darauf hin, dass durch Schulungen bessere Produkte für maschinelles Lernen entstehen können weniger genaue (dh technisch „schlechtere“) Datensätze.

Wenn die von den Forschern ermittelten Prinzipien gültig sind, bedeutet dies, dass „Hyperscale“-Datensätze wie die kürzlich erschienen LAION-400M (das 400 Millionen Text-/Bildpaare enthält) und die Daten hinter der neuronalen Sprach-Engine GPT-3 (mit 175 Milliarden Parametern) unterliegen in traditionellen und beliebten Architekturen für maschinelles Lernen möglicherweise einer Art „thermischer Grenze“. und Methoden, wobei die schiere Datenmenge nachgelagerte Anwendungen „überlastet“ und verhindert, dass sie sinnvoll verallgemeinert werden können.

Die Forscher schlagen außerdem alternative Methoden vor, um die Architektur von Hyperscale-Datensätzen zu überdenken und das Ungleichgewicht auszugleichen.

Das Papier sagt:

„Wenn wir tiefer gehen, um die Gründe zu verstehen, die zu diesen Phänomenen führen, zeigen wir, dass das von uns beobachtete Sättigungsverhalten eng mit der Art und Weise zusammenhängt, wie sich Darstellungen durch die Schichten der Modelle entwickeln.“ Wir zeigen ein noch extremeres Szenario, in dem die Leistung im Upstream und Downstream im Widerspruch zueinander steht. Das heißt, um eine bessere Downstream-Leistung zu erzielen, müssen wir die Upstream-Genauigkeit verbessern.“

Das Studie ist betitelt Erkundung der Grenzen groß angelegter Vorschulungenund stammt von vier Autoren bei Google Research.

Untersuchung der „Sättigung“

Die Autoren stellen die vorherrschenden Annahmen über maschinelles Lernen und Datenbeziehungen im Hyperscale-Datenzeitalter in Frage: dass die Skalierung von Modellen und Datengrößen die Leistung deutlich verbessert (eine Überzeugung, die seit seiner Einführung im Hype um GPT-3 gefestigt wurde); und dass diese verbesserte Leistung auf lineare (d. h. wünschenswerte) Weise auf nachgelagerte Aufgaben „durchwirkt“, sodass die geräteinternen Algorithmen, die schließlich auf den Markt gebracht werden und aus den ansonsten unkontrollierbar riesigen Datensätzen und nicht destillierten trainierten Modellen abgeleitet werden, vollständig davon profitieren die Erkenntnisse der vollwertigen Upstream-Architekturen.

„Diese Ansichten“ stellen die Forscher fest „schlagen vor, dass es sich lohnen würde, Rechen- und Forschungsaufwand in die Verbesserung der Leistung eines riesigen Korpus zu investieren, da wir dadurch viele nachgelagerte Aufgaben fast kostenlos lösen könnten.“

In dem Papier wird jedoch behauptet, dass ein Mangel an Rechenressourcen und die daraus resultierenden „wirtschaftlichen“ Methoden der Modellevaluierung zu einem falschen Eindruck von der Beziehungsdynamik zwischen Datenvolumen und nützlichen KI-Systemen beitragen. Die Autoren bezeichnen diese Gewohnheit als „einen großen Mangel“, da die Forschungsgemeinschaft typischerweise davon ausgeht, dass lokale (positive) Ergebnisse zu nützlichen späteren Implementierungen führen werden:

„[Aufgrund] von Recheneinschränkungen wird die Leistung für verschiedene Auswahlmöglichkeiten von Hyperparameterwerten nicht gemeldet.“ Skalierungsdiagramme scheinen günstiger zu sein, wenn der für jede Skala ausgewählte Hyperparameter fest ist oder durch eine einfache Skalierungsfunktion bestimmt wird.

Die Forscher geben außerdem an, dass viele Skalierungsstudien nicht an absoluten Skalen, sondern als inkrementelle Verbesserungen gegenüber dem Stand der Technik (SotA) gemessen werden, und stellen fest, dass es „von vornherein keinen Grund dafür gibt, dass die Skalierung außerhalb davon gilt.“ der untersuchte Bereich'.

Vortraining

Das Papier befasst sich mit der Praxis des „Vortrainings“, einer Maßnahme, die darauf abzielt, Rechenressourcen zu sparen und den oft horrenden Zeitrahmen zu verkürzen, der erforderlich ist, um ein Modell auf großen Datenmengen von Null an zu trainieren. Snapshots vor dem Training regeln die Art und Weise, wie Daten innerhalb einer Domäne während des Trainings verallgemeinert werden, und werden häufig in einer Vielzahl von Bereichen und Fachgebieten des maschinellen Lernens verwendet, von der Verarbeitung natürlicher Sprache (NLP) bis hin zu Deepfakes.

Frühere akademische Forschungen haben gefunden dass das Vortraining die Robustheit und Genauigkeit des Modells deutlich verbessern kann, aber das neue Papier legt nahe, dass die Komplexität der Funktionen, selbst in relativ kurz trainierten Vortrainingsvorlagen, von größerem Nutzen sein könnte, wenn sie auf spätere Prozesse in der Pipeline verlagert wird .

Dies kann jedoch nicht passieren, wenn Forscher weiterhin auf vorab trainierte Modelle angewiesen sind, die aktuelle Best Practices bei der Anwendung von Lernraten nutzen, was, so die Schlussfolgerung der Studie, die letztendliche Genauigkeit der endgültigen Anwendungen der Arbeit erheblich beeinträchtigen kann. In diesem Zusammenhang stellen die Autoren fest, dass „man nicht hoffen kann, einen vorab trainierten Kontrollpunkt zu finden, der bei allen möglichen nachgelagerten Aufgaben eine gute Leistung erbringt“.

Die Studie

Um den Sättigungseffekt zu ermitteln, führten die Autoren 4800 Experimente mit Vision Transformers, ResNets und MLP-Mixern durch, jeweils mit einer unterschiedlichen Anzahl von Parametern, von 10 Millionen bis 10 Milliarden, alle trainiert mit den umfangreichsten Datensätzen, die in den jeweiligen Sektoren verfügbar sind. einschließlich ImageNet21K und Googles eigene JFT-300M.

Die Ergebnisse, so heißt es in der Zeitung, zeigten das Datenvielfalt sollte als zusätzliche Achse betrachtet werden, wenn versucht wird, Daten, Modellparameter und Rechenzeit zu „skalieren“. Derzeit führt die starke Konzentration der Schulungsressourcen (und der Aufmerksamkeit der Forscher) auf den Upstream-Abschnitt einer KI-Pipeline dazu, dass Downstream-Anwendungen mit einer Lawine von Parametern bis zu einem Punkt der „Sättigung“ überschwemmt werden, was die Navigationsfähigkeit der eingesetzten Algorithmen verringert durch Features und führen Inferenz- oder Effekttransformationen durch.

Das Papier kommt zu dem Schluss:

„Durch eine umfangreiche Studie stellen wir fest, dass die Leistung nachgelagerter Aufgaben ein Sättigungsverhalten zeigt, wenn wir die Leistung der vorgelagerten Aufgabe entweder durch Skalierung oder durch Auswahl von Hyperparametern und Architektur verbessern. Darüber hinaus liefern wir starke empirische Belege dafür, dass die Skalierung entgegen der gängigen Darstellung nicht zu einer einheitlichen Lösung führt.“

Als nächstes

Auf dem Weg zum automatisierten wissenschaftlichen Schreiben

Verpassen Sie nicht

Gartner würdigt die führende Datenplattform Weka als Visionär

Martin Anderson

Autor über maschinelles Lernen, künstliche Intelligenz und Big Data.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai