Künstliche Intelligenz

Der Aufstieg neuronaler Verarbeitungseinheiten: Verbesserung der generativen KI auf dem Gerät für Geschwindigkeit und Nachhaltigkeit

Veröffentlicht 20. Juni 2024

Dr. Tehseen Zia

Die Evolution generative KI verändert nicht nur unsere Interaktion und Erfahrungen mit Computergeräten, sondern definiert auch das Kern-Computing neu. Einer der Haupttreiber der Transformation ist die Notwendigkeit, generative KI auf Geräten mit begrenzten Rechenressourcen zu betreiben. Dieser Artikel erörtert die damit verbundenen Herausforderungen und wie neuronale Verarbeitungseinheiten (NPUs) Es tauchen neue Lösungen auf, um diese Probleme zu lösen. Darüber hinaus stellt der Artikel einige der neuesten NPU-Prozessoren vor, die auf diesem Gebiet führend sind.

Herausforderungen der generativen KI-Infrastruktur auf Geräten

Generative KI, die treibende Kraft hinter Bildsynthese, Textgenerierung und Musikkomposition, erfordert erhebliche Rechenressourcen. Bisher wurden diese Anforderungen durch die Nutzung der enormen Kapazitäten von Cloud-Plattformen erfüllt. Dieser Ansatz ist zwar effektiv, bringt aber für die generative KI auf Geräten auch seine eigenen Herausforderungen mit sich, darunter die Abhängigkeit von einer ständigen Internetverbindung und einer zentralisierten Infrastruktur. Diese Abhängigkeit führt zu Latenz, Sicherheitslücken und erhöhtem Energieverbrauch.

Das Rückgrat der Cloud-basierten KI-Infrastruktur basiert größtenteils auf zentralen Verarbeitungseinheiten (CPUs) und Grafikprozessoren (GPUs) um die Rechenleistungsanforderungen der generativen KI zu bewältigen. Bei der Anwendung auf generative KI auf Geräten stoßen diese Prozessoren jedoch auf erhebliche Hindernisse. CPUs sind für allgemeine Aufgaben konzipiert und verfügen nicht über die spezielle Architektur, die für eine effiziente und stromsparende Ausführung von generativen KI-Workloads erforderlich ist. Ihre begrenzten Parallelverarbeitungsfunktionen führen zu geringerem Durchsatz, längerer Latenz und höherem Stromverbrauch, was sie für geräteinterne KI weniger ideal macht. GPUs hingegen können zwar bei der Parallelverarbeitung hervorragende Ergebnisse erzielen, sind jedoch in erster Linie für Grafikverarbeitungsaufgaben konzipiert. Um generative KI-Aufgaben effektiv ausführen zu können, benötigen GPUs spezielle integrierte Schaltkreise, die viel Strom verbrauchen und erhebliche Wärme erzeugen. Darüber hinaus stellt ihre große physische Größe Hindernisse für ihren Einsatz in kompakten geräteinternen Anwendungen dar.

Die Entstehung neuronaler Verarbeitungseinheiten (NPUs)

Als Antwort auf die oben genannten Herausforderungen neuronale Verarbeitungseinheiten (NPUs) entwickeln sich zu einer bahnbrechenden Technologie für die Implementierung generativer KI auf Geräten. Die Architektur von NPUs ist in erster Linie von der Struktur und Funktion des menschlichen Gehirns inspiriert, insbesondere davon, wie Neuronen und Synapsen bei der Informationsverarbeitung zusammenarbeiten. In NPUs fungieren künstliche Neuronen als Grundeinheiten und spiegeln biologische Neuronen wider, indem sie Eingaben empfangen, verarbeiten und Ausgaben produzieren. Diese Neuronen sind durch künstliche Synapsen miteinander verbunden, die Signale zwischen Neuronen mit unterschiedlichen Stärken übertragen, die sich während des Lernprozesses anpassen. Dies emuliert den Prozess der synaptischen Gewichtungsänderungen im Gehirn. NPUs sind in Schichten organisiert: Eingabeschichten, die Rohdaten empfangen, verborgene Schichten, die Zwischenverarbeitung durchführen, und Ausgabeschichten, die die Ergebnisse generieren. Diese Schichtstruktur spiegelt die mehrstufige und parallele Informationsverarbeitungsfähigkeit des Gehirns wider. Da generative KI ebenfalls auf einer ähnlichen Struktur künstlicher neuronaler Netzwerke basiert, eignen sich NPUs gut für die Verwaltung generativer KI-Workloads. Diese strukturelle Ausrichtung reduziert den Bedarf an spezialisierten integrierten Schaltkreisen und führt zu kompakteren, energieeffizienteren, schnelleren und nachhaltigeren Lösungen.

Die vielfältigen Rechenleistungsanforderungen der generativen KI erfüllen

Generative KI umfasst eine breite Palette von Aufgaben, darunter Bildsynthese, Textgenerierung und Musikkomposition, die jeweils ihre eigenen, einzigartigen Rechenanforderungen haben. So basiert die Bildsynthese stark auf Matrixoperationen, während die Textgenerierung eine sequentielle Verarbeitung erfordert. Um diesen unterschiedlichen Rechenanforderungen effektiv gerecht zu werden, werden neuronale Verarbeitungseinheiten (NPUs) oft in System-on-Chip (SoC) Technologie neben CPUs und GPUs.

Jeder dieser Prozessoren bietet unterschiedliche Rechenstärken. CPUs sind besonders gut für sequentielle Steuerung und Unmittelbarkeit geeignet, GPUs zeichnen sich durch paralleles Streaming von Daten aus und NPUs sind auf grundlegende KI-Operationen abgestimmt und verarbeiten Skalar-, Vektor- und Tensormathematik. Durch die Nutzung einer heterogenen Computerarchitektur können Aufgaben den Prozessoren basierend auf ihren Stärken und den Anforderungen der jeweiligen Aufgabe zugewiesen werden.

NPUs sind für KI-Workloads optimiert und können generative KI-Aufgaben effizient von der Haupt-CPU entlasten. Diese Entlastung sorgt nicht nur für schnelle und energieeffiziente Vorgänge, sondern beschleunigt auch KI-Inferenzaufgaben, sodass generative KI-Modelle auf dem Gerät reibungsloser ausgeführt werden können. Da NPUs die KI-bezogenen Aufgaben übernehmen, können CPUs und GPUs Ressourcen anderen Funktionen zuweisen, wodurch die Gesamtleistung der Anwendung verbessert und gleichzeitig die thermische Effizienz aufrechterhalten wird.

Beispiele für NPUs aus der Praxis

Die Weiterentwicklung von NPUs nimmt Fahrt auf. Hier sind einige Beispiele aus der Praxis:

Hexagon NPUs von Qualcomm wurde speziell für die Beschleunigung von KI-Inferenzaufgaben auf Geräten mit geringem Stromverbrauch und geringen Ressourcen entwickelt. Es ist für generative KI-Aufgaben wie Textgenerierung, Bildsynthese und Audioverarbeitung konzipiert. Die Hexagon NPU ist in die Snapdragon-Plattformen von Qualcomm integriert und ermöglicht die effiziente Ausführung neuronaler Netzwerkmodelle auf Geräten mit Qualcomm KI-Produkte.
Apples Neural Engine ist ein wesentlicher Bestandteil der Chips der A-Serie und M-Serie, die verschiedene KI-gesteuerte Funktionen wie Face ID, Siri und Augmented Reality (AR). Die Neural Engine beschleunigt Aufgaben wie Gesichtserkennung für sicheres Face ID, natürliche Sprachverarbeitung (NLP) für Siri sowie verbessertes Objekt-Tracking und Szenenverständnis für AR-Anwendungen. Sie verbessert die Leistung von KI-bezogenen Aufgaben auf Apple-Geräten erheblich und bietet ein nahtloses und effizientes Benutzererlebnis.
Samsungs NPU ist ein spezieller Prozessor für KI-Berechnungen, der Tausende von Berechnungen gleichzeitig durchführen kann. Integriert in die neuesten Samsung Exynos SoCs, die viele Samsung-Telefone antreiben, ermöglicht diese NPU-Technologie generative KI-Berechnungen mit geringem Stromverbrauch und hoher Geschwindigkeit. Die NPU-Technologie von Samsung ist auch in Flaggschiff-Fernsehern integriert und ermöglicht KI-gesteuerte Klanginnovationen und ein verbessertes Benutzererlebnis.
Huaweis Da Vinci-Architektur dient als Kern ihrer Ascend AI-Prozessor, entwickelt, um die KI-Rechenleistung zu verbessern. Die Architektur nutzt eine leistungsstarke 3D-Cube-Computing-Engine und ist damit leistungsstark für KI-Workloads.

Fazit

Generative KI verändert unsere Interaktion mit Geräten und definiert Computing neu. Die Ausführung generativer KI auf Geräten mit begrenzten Rechenressourcen ist eine große Herausforderung, und herkömmliche CPUs und GPUs reichen oft nicht aus. Neuronale Prozessoren (NPUs) bieten mit ihrer speziellen Architektur, die speziell auf die Anforderungen generativer KI zugeschnitten ist, eine vielversprechende Lösung. Durch die Integration von NPUs in die System-on-Chip-Technologie (SoC) neben CPUs und GPUs können wir die Stärken jedes Prozessors nutzen und so eine schnellere, effizientere und nachhaltigere KI-Leistung auf Geräten erzielen. Die Weiterentwicklung von NPUs wird die KI-Funktionen auf Geräten verbessern und Anwendungen reaktionsschneller und energieeffizienter machen.

Dr. Tehseen Zia

Dr. Tehseen Zia ist außerordentlicher Professor an der COMSATS-Universität Islamabad und hat einen Doktortitel in KI von der Technischen Universität Wien, Österreich. Er ist auf künstliche Intelligenz, maschinelles Lernen, Datenwissenschaft und Computer Vision spezialisiert und hat mit Veröffentlichungen in renommierten wissenschaftlichen Fachzeitschriften bedeutende Beiträge geleistet. Dr. Tehseen hat außerdem als Hauptforscher verschiedene Industrieprojekte geleitet und war als KI-Berater tätig.