Andersons Blickwinkel
Google-Forschung identifiziert ein Engpass bei hyperskaligen AnsĂ€tzen fĂŒr KI
Eine neue Studie von Google-Forschung legt nahe, dass die aktuelle Tendenz zur Erstellung sehr hochvolumiger Datensätze kontraproduktiv für die Entwicklung effektiver künstlicher Intelligenz-Systeme sein kann. Tatsächlich zeigt die Forschung, dass bessere maschinelle Lernprodukte durch die Verwendung von weniger genauen (d. h. technisch “schlechteren”) Datensätzen entstehen können.
Wenn die von den Forschern erzielten Ergebnisse gültig sind, bedeutet dies, dass “Hyperscale”-Datensätze wie der kürzlich veröffentlichten LAION-400M-Datensatz (der 400 Millionen Text/Bild-Paare enthält) und die Daten hinter dem GPT-3-Neural-Language-Engine (der 175 Milliarden Parameter enthält) möglicherweise einem “thermischen Limit” in traditionellen und populären maschinellen Lernarchitekturen und -methoden unterliegen, bei dem die reine Datenmenge “downstream”-Anwendungen sättigt und verhindert, dass sie auf nützliche Weise generalisieren.
Die Forscher schlagen auch alternative Methoden vor, um die Architektur von Hyperscale-Datensätzen zu überdenken, um das Ungleichgewicht zu korrigieren.
Die Studie besagt:
‘Wenn wir tiefer in die Gründe eindringen, die zu diesen Phänomenen führen, zeigen wir, dass das Sättigungsverhalten, das wir beobachten, eng mit der Art und Weise zusammenhängt, wie Repräsentationen durch die Schichten der Modelle evolvieren. Wir präsentieren ein noch extremeres Szenario, in dem die Leistung von Upstream- und Downstream-Anwendungen gegensätzlich ist. D. h., um eine bessere Downstream-Leistung zu erzielen, müssen wir die Upstream-Genauigkeit beeinträchtigen.’
Die Studie trägt den Titel Exploring the Limits of Large Scale Pre-training und stammt von vier Autoren von Google-Forschung.
Untersuchung der ‘Sättigung’
Die Autoren hinterfragen die vorherrschenden Annahmen über die Beziehungen zwischen maschinellem Lernen und Daten im Zeitalter der Hyperscale-Daten: dass die Skalierung von Modellen und Datenvolumen die Leistung erheblich verbessert (eine Überzeugung, die durch die Hype um GPT-3 seit dessen Start zementiert wurde); und dass diese verbesserte Leistung “durchgängig” auf Downstream-Aufgaben übertragen wird, so dass die auf Geräten eingesetzten Algorithmen, die letztendlich auf den Markt gebracht werden, vollständig von den Erkenntnissen der vollständigen, upstream-Architekturen profitieren.
‘Diese Ansichten,’ bemerken die Forscher , ‘deuten darauf hin, dass die Investition von Rechenleistung und Forschungsbemühungen in die Verbesserung der Leistung auf einem riesigen Korpus sich auszahlen würde, da dies es uns ermöglichen würde, viele Downstream-Aufgaben fast kostenlos zu lösen.’
Aber die Studie behauptet, dass ein Mangel an Rechenressourcen und die anschließenden “wirtschaftlichen” Methoden der Modellbewertung zu einem falschen Eindruck der Beziehungsdynamik zwischen Datenvolumen und nützlichen KI-Systemen beitragen. Die Autoren identifizieren diese Angewohnheit als “eine große Schwäche”, da die Forschungsgemeinschaft typischerweise annimmt, dass lokale (positive) Ergebnisse sich in nützliche spätere Implementierungen übersetzen:
‘[Aufgrund] von Rechenleistungsbeschränkungen werden die Leistungen für verschiedene Hyperparameter-Werte nicht gemeldet. Skalierungsplots scheinen günstiger, wenn der Hyperparameter für jeden Maßstab festgelegt oder durch eine einfache Skalierungsfunktion bestimmt wird.’
Die Forscher stellen weiter fest, dass viele Skalierungsstudien nicht gegen absolute Skalen, sondern als inkrementelle Verbesserungen gegen den Stand der Technik (SotA) gemessen werden, und bemerken, dass “es keinen Grund gibt, a priori, für die Skalierung außerhalb des untersuchten Bereichs zu halten”.
Prä-Training
Die Studie behandelt die Praxis des “Prä-Trainings”, einer Maßnahme, die darauf abzielt, Rechenressourcen zu sparen und die oft horrenden Zeitskalen zu verkürzen, die zum Trainieren eines Modells auf großen Datensätzen von Null benötigt werden. Prä-Trainings-Snapshots behandeln die “ABCs” der Art und Weise, wie Daten innerhalb eines Domänenbereichs während des Trainings generalisiert werden, und werden häufig in verschiedenen maschinellen Lernbereichen und Spezialgebieten eingesetzt, von der Natural Language Processing (NLP) bis hin zu Deepfakes.
Frühere akademische Forschungen haben gefunden, dass Prä-Training die Modell-Robustheit und -Genauigkeit erheblich verbessern kann, aber die neue Studie legt nahe, dass die Komplexität von Merkmalen, sogar in relativ kurz trainierten Prä-Trainings-Vorlagen, von Vorteil sein könnte, wenn sie weiter hinten in der Pipeline verarbeitet werden.
Allerdings kann dies nicht passieren, wenn Forscher weiterhin auf prä-trainierte Modelle angewiesen sind, die die aktuelle beste Praxis in der Anwendung von Lernraten verwenden, die, so die Forschung, die endgültige Genauigkeit der finalen Anwendungen erheblich beeinflussen kann. In diesem Zusammenhang bemerken die Autoren, dass “man nicht hoffen kann, einen prä-trainierten Checkpoint zu finden, der auf allen möglichen Downstream-Aufgaben gut funktioniert”.
Die Studie
Um den Sättigungseffekt zu etablieren, führten die Autoren 4800 Experimente mit Vision-Transformern, ResNets und MLP-Mixern durch, jeweils mit einer variablen Anzahl von Parametern, von 10 Millionen bis 10 Milliarden, die alle auf den höchstvolumigen Datensätzen in den jeweiligen Bereichen trainiert wurden, einschließlich ImageNet21K und Googles eigenem JFT-300M.
Die Ergebnisse, so die Studie, zeigen, dass Datenvielfalt als zusätzliche Achse berücksichtigt werden sollte, wenn man versucht, “aufzuskalieren” Daten, Modellparameter und Rechenzeit. Wie es derzeit steht, konzentriert sich die starke Konzentration von Trainingsressourcen (und Forscher-Aufmerksamkeit) auf den Upstream-Bereich einer KI-Pipeline, was effektiv Downstream-Anwendungen mit einer Lawine von Parametern bis zu einem Punkt der “Sättigung” bombardiert, wodurch die Fähigkeit der eingesetzten Algorithmen, durch Merkmale zu navigieren und Inferenz oder Transformationen durchzuführen, verringert wird.
Die Studie schließt:
‘Durch eine umfassende Studie etablieren wir, dass, wenn wir die Leistung der Upstream-Aufgabe durch Skalierung oder Hyperparameter- und Architektur-Auswahl verbessern, die Leistung der Downstream-Aufgaben ein Sättigungsverhalten zeigt. Darüber hinaus liefern wir starke empirische Beweise dafür, dass, entgegen der gängigen Erzählung, Skalierung nicht zu einer Lösung führt, die für alle passt.’












