KI-Modelle und Plattformen
Lebenslanges Lernen auf Geräten näher mit neuer Trainingsmethode

Ein Team von Forschern am MIT und dem MIT-IBM Watson AI Lab entwickelte eine neue Methode, die das Training auf Geräten mit weniger als einem Viertel Megabyte Speicher ermöglicht. Diese neue Entwicklung ist ein beeindruckendes Ergebnis, da andere Trainingslösungen normalerweise mehr als 500 Megabyte Speicher benötigen, was die 256-Kilobyte-Kapazität der meisten Mikrocontroller übersteigt.
Durch das Training eines maschinellen Lernmodells auf einem intelligenten Edge-Gerät kann es sich an neue Daten anpassen und bessere Vorhersagen treffen. Allerdings erfordert der Trainingsprozess normalerweise viel Speicher, sodass er oft auf Computern in einem Rechenzentrum durchgeführt wird, bevor das Modell auf einem Gerät bereitgestellt wird. Dieser Prozess ist viel teurer und wirft Datenschutzbedenken auf, im Vergleich zu der neuen Methode, die das Team entwickelt hat.
Die Forscher entwickelten die Algorithmen und die Rahmenbedingungen so, dass der für das Training eines Modells erforderliche Rechenaufwand reduziert wird, was den Prozess schneller und speichereffizienter macht. Die Methode kann dazu beitragen, ein maschinelles Lernmodell auf einem Mikrocontroller in nur wenigen Minuten zu trainieren.
Die neue Methode hilft auch bei der Privatsphäre, da sie die Daten auf dem Gerät hält, was wichtig ist, wenn sensible Daten involviert sind. Gleichzeitig verbessert die Rahmenbedingung die Genauigkeit des Modells im Vergleich zu anderen Ansätzen.
Song Han ist Associate Professor im Department of Electrical Engineering and Computer Science (EECS), Mitglied des MIT-IBM Watson AI Lab und Senior-Autor des Forschungsberichts.
“Unsere Studie ermöglicht es IoT-Geräten, nicht nur Inferenz durchzuführen, sondern auch kontinuierlich die KI-Modelle auf neue Daten zu aktualisieren, was den Weg für lebenslanges Lernen auf Geräten ebnet”, sagte Han. “Die geringe Ressourcennutzung macht Deep Learning zugänglicher und kann eine breitere Reichweite haben, insbesondere für energieeffiziente Edge-Geräte.”
Der Bericht enthält Co-Autoren und EECS-PhD-Studenten Ji Lin und Ligeng Zhu sowie die MIT-Postdocs Wei-Ming Chen und Wei-Chen Wang. Er enthält auch Chuang Gan, ein Principal Research Staff Member am MIT-IBM Watson AI Lab.
Effizienz des Trainingsprozesses erhöhen
Um den Trainingsprozess effizienter und weniger speicherintensiv zu machen, verließ sich das Team auf zwei algorithmische Lösungen. Die erste ist als sparse Update bekannt und verwendet einen Algorithmus, der die wichtigsten Gewichte identifiziert, die während jeder Trainingsrunde aktualisiert werden müssen. Der Algorithmus friert die Gewichte ein nach dem anderen ein, bis die Genauigkeit auf einen bestimmten Schwellenwert fällt, bei dem er anhält. Die verbleibenden Gewichte werden dann aktualisiert und die Aktivierungen, die den eingefrorenen Gewichten entsprechen, müssen nicht im Speicher gespeichert werden.
“Das Aktualisieren des gesamten Modells ist sehr teuer, da es viele Aktivierungen gibt, also neigen die Menschen dazu, nur die letzte Schicht zu aktualisieren, aber wie Sie sich vorstellen können, schadet dies der Genauigkeit”, sagte Han. “Bei unserer Methode aktualisieren wir selektiv die wichtigen Gewichte und stellen sicher, dass die Genauigkeit vollständig erhalten bleibt.”
Die zweite Lösung, die das Team entwickelt hat, umfasst quantifiziertes Training und Vereinfachung der Gewichte. Ein Algorithmus rundet die Gewichte auf acht Bits durch einen Quantifizierungsprozess, der auch die Menge an Speicher für Training und Inferenz reduziert, wobei die Inferenz der Prozess ist, bei dem ein Modell auf einen Datensatz angewendet und eine Vorhersage generiert wird. Der Algorithmus verlässt sich dann auf eine Technik namens Quantifizierungs-bewusste Skalierung (QAS), die wie ein Multiplikator wirkt, um das Verhältnis zwischen Gewicht und Gradienten anzupassen. Dies hilft, einen möglichen Genauigkeitsverlust zu vermeiden, der durch quantifiziertes Training entstehen kann.
Die Forscher entwickelten ein System namens tiny training engine, das die Algorithmus-Neuerungen auf einem einfachen Mikrocontroller ohne Betriebssystem ausführt. Um mehr Arbeit in der Kompilierungsphase zu erledigen, bevor das Modell auf dem Edge-Gerät bereitgestellt wird, ändert das System die Reihenfolge der Schritte im Trainingsprozess.
“Wir verlagern viel Rechenarbeit, wie z.B. Auto-Differenzierung und Graph-Optimierung, auf die Kompilierungszeit. Wir verlagern auch aggressiv redundante Operatoren, um sparse Updates zu unterstützen. Wenn wir dann zur Laufzeit kommen, haben wir viel weniger Arbeit zu erledigen, die auf dem Gerät durchzuführen ist”, sagt Han.
Sehr effiziente Methode
Während traditionelle Methoden, die für leichte Trainingslösungen entwickelt wurden, normalerweise etwa 300 bis 600 Megabyte Speicher benötigen würden, benötigte die Optimierung des Teams nur 157 Kilobyte, um ein maschinelles Lernmodell auf einem Mikrocontroller zu trainieren.
Das Framework wurde getestet, indem ein Computer-Vision-Modell trainiert wurde, um Menschen in Bildern zu erkennen, und es lernte, diese Aufgabe in nur 10 Minuten zu erledigen. Die Methode konnte auch ein Modell mehr als 20-mal schneller trainieren als andere Methoden.
Die Forscher werden nun versuchen, die Techniken auf Sprachmodelle und verschiedene Arten von Daten anzuwenden. Sie möchten auch diese erworbenen Kenntnisse nutzen, um größere Modelle ohne Genauigkeitsverlust zu verkleinern, was auch dazu beitragen könnte, den Kohlenstoff-Fußabdruck des Trainings großer maschineller Lernmodelle zu reduzieren.












