Künstliche Intelligenz
Forscher entdecken hocheffiziente Subnetze innerhalb neuronaler Deep-Learning-Netze

Deep-Learning-Neuronale Netze sind oft riesig und erfordern enorme Mengen an Rechenleistung. Eine neue Entdeckung zeigt jedoch, wie diese reduziert werden kann, um Aufgaben effizienter zu erledigen. Jonathan Frankle und sein Team vom MIT haben die „Lotteriescheinhypothesen“ aufgestellt, die zeigen, dass es innerhalb der größeren neuronalen Netze schlankere Teilnetze gibt. Diese Subnetzwerke können die anstehende Aufgabe effizienter und mit weniger erforderlicher Rechenleistung erledigen. Eine der größten Herausforderungen besteht darin, diese Subnetzwerke zu finden oder Lottoscheine zu gewinnen, wie das Team sie nennt.
Das Team entdeckte diese Subnetze innerhalb von BERT, der Spitzentechnik des maschinellen Lernens für die Verarbeitung natürlicher Sprache (NLP). NLP, ein Teilgebiet der künstlichen Intelligenz (KI), ist für die Entschlüsselung und Analyse menschlicher Sprache verantwortlich und wird für Anwendungen wie prädiktive Textgenerierung und Chatbots verwendet.
Allerdings ist BERT groß und erfordert Superrechenleistung, die für die meisten Benutzer nicht zugänglich ist. Mit der neuen Entdeckung dieser Subnetzwerke könnte dieser Zugang eröffnet werden, sodass mehr Benutzer die Technologie zur Entwicklung von NLP-Tools nutzen können.
„Wir erreichen den Punkt, an dem wir diese Modelle schlanker und effizienter machen müssen“, sagt Frankle.
Ihm zufolge könnte diese Entwicklung „die Eintrittsbarrieren“ für NLP verringern.
BERT – „Obszön teuer“
BERT ist für Dinge wie die Suchmaschine von Google von grundlegender Bedeutung und hat seit der Veröffentlichung durch Google im Jahr 2018 große Aufmerksamkeit erhalten. Es handelt sich um eine Methode zum Erstellen neuronaler Netze und wird trainiert, indem viele Male versucht wird, die Lücken in Textstücken auszufüllen. Eines der beeindruckendsten Merkmale von BERT ist sein umfangreicher anfänglicher Trainingsdatensatz.
Es kann dann von Benutzern für bestimmte Aufgaben, wie zum Beispiel Kundenservice-Chatbots, optimiert werden, erfordert aber auch hier enorme Mengen an Rechenleistung, wobei die Möglichkeit besteht, dass die Parameter 1 Milliarde erreichen.
„Ein Standard-BERT-Modell – die Gartenvariante – hat heutzutage 340 Millionen Parameter“, sagt Frankle. „Das ist einfach unverschämt teuer. Das übersteigt bei weitem die Rechenkapazitäten von Ihnen oder mir.“
Laut Hauptautor Tianlong Chen von der University of Texas in Austin „leiden Modelle wie BERT unter der enormen Netzwerkgröße“, aber dank der neuen Forschung „scheint die Lotterielos-Hypothese eine Lösung zu sein.“
Effiziente Subnetze
Chen und das Team suchten nach einem kleineren Modell innerhalb von BERT und verglichen die Leistung der entdeckten Teilnetze mit dem ursprünglichen BERT-Modell. Dies wurde anhand verschiedener NLP-Aufgaben getestet, darunter das Beantworten von Fragen und das Ausfüllen leerer Wörter in einem Satz.
Das Team entdeckte erfolgreiche Subnetze, die beeindruckende 40 bis 90 Prozent schlanker waren als das ursprüngliche BERT-Modell, wobei der tatsächliche Prozentsatz von der Aufgabe abhängt. Darüber hinaus könnten sie diese vor der aufgabenspezifischen Feinabstimmung identifizieren, was zu einer noch weiteren Reduzierung der Rechenkosten führt. Ein weiterer Vorteil bestand darin, dass einige der für eine bestimmte Aufgabe ausgewählten Teilnetze anschließend für eine andere umfunktioniert werden konnten.
„Ich war irgendwie schockiert, dass es überhaupt funktioniert hat“, sagt Frankle. „Das ist für mich keine Selbstverständlichkeit. Ich hatte ein viel schlimmeres Ergebnis erwartet, als wir bekommen haben.“
Laut Ari Morcos, einem Wissenschaftler bei Facebook AI Research, ist diese Entdeckung „überzeugend“ und „diese Modelle werden immer weiter verbreitet.“ Daher ist es wichtig zu verstehen, ob die Lotterielos-Hypothese zutrifft.“
Morcos sagt auch, dass es „sehr wirkungsvoll wäre, wenn diese Subnetze mit deutlich weniger Rechenleistung betrieben werden könnten, da der Betrieb dieser extrem großen Modelle derzeit sehr kostspielig ist“.
„Ich weiß nicht, wie viel größer wir mit diesen Berechnungen im Supercomputer-Stil werden können“, fügt Frankle hinzu. „Wir müssen die Eintrittsbarrieren senken.“
„Die Hoffnung ist, dass dadurch die Kosten gesenkt werden und es für alle zugänglicher wird … für die kleinen Leute, die nur einen Laptop haben“, schließt er.
Die Forschung soll auf der vorgestellt werden Konferenz über neuronale Informationsverarbeitungssysteme.