Künstliche Intelligenz
Der Aufstieg von Neural Processing Units: Verbesserung der On-Device-Generative-AI für Geschwindigkeit und Nachhaltigkeit
Die Evolution der generativen AI verändert nicht nur unsere Interaktion und Erfahrungen mit Computgeräten, sondern definiert auch die Kerncomputing neu. Einer der wichtigsten Treiber dieser Transformation ist die Notwendigkeit, generative AI auf Geräten mit begrenzten Rechenressourcen zu betreiben. Dieser Artikel diskutiert die Herausforderungen, die sich daraus ergeben, und wie Neural Processing Units (NPUs) entstehen, um diese zu lösen. Darüber hinaus stellt der Artikel einige der neuesten NPU-Prozessoren vor, die in diesem Bereich führend sind.
Herausforderungen der On-Device-Generative-AI-Infrastruktur
Generative AI, der Motor hinter Bildsynthese, Textgenerierung und Musikkomposition, erfordert erhebliche Rechenressourcen. Üblicherweise werden diese Anforderungen durch die Nutzung der umfassenden Fähigkeiten von Cloud-Plattformen erfüllt. Während dieser Ansatz effektiv ist, kommt er mit seinem eigenen Satz an Herausforderungen für die On-Device-Generative-AI, einschließlich der Abhängigkeit von konstanter Internetverbindung und zentraler Infrastruktur. Diese Abhängigkeit führt zu Latenz, Sicherheitslücken und erhöhtem Energieverbrauch.
Die Grundlage der cloud-basierten AI-Infrastruktur basiert hauptsächlich auf Central Processing Units (CPUs) und Graphic Processing Units (GPUs), um die Rechenanforderungen der generativen AI zu bewältigen. Wenn diese Prozessoren jedoch auf die On-Device-Generative-AI angewendet werden, stoßen sie auf erhebliche Hürden. CPUs sind für allgemeine Aufgaben konzipiert und verfügen nicht über die spezialisierte Architektur, die für eine effiziente und energiesparende Ausführung von generativen AI-Arbeitslasten erforderlich ist. Ihre begrenzten parallelen Verarbeitungsfähigkeiten resultieren in reduzierter Durchsatzleistung, erhöhter Latenz und höherem Energieverbrauch, was sie weniger ideal für die On-Device-AI macht. Andererseits können GPUs bei der parallelen Verarbeitung hervorragend sein, sind jedoch hauptsächlich für die Verarbeitung von Grafikaufgaben konzipiert. Um generative AI-Aufgaben effektiv auszuführen, benötigen GPUs spezielle integrierte Schaltungen, die viel Energie verbrauchen und erhebliche Wärme erzeugen. Darüber hinaus schafft ihre große physische Größe Hindernisse für ihre Verwendung in kompakten, On-Device-Anwendungen.
Das Entstehen von Neural Processing Units (NPUs)
Als Reaktion auf die oben genannten Herausforderungen entstehen Neural Processing Units (NPUs) als transformative Technologie für die Implementierung von generativer AI auf Geräten. Die Architektur von NPUs ist hauptsächlich von der Struktur und Funktion des menschlichen Gehirns inspiriert, insbesondere von der Art und Weise, wie Neuronen und Synapsen zusammenarbeiten, um Informationen zu verarbeiten. In NPUs fungieren künstliche Neuronen als grundlegende Einheiten, die biologische Neuronen nachahmen, indem sie Eingaben empfangen, verarbeiten und Ausgaben produzieren. Diese Neuronen sind durch künstliche Synapsen miteinander verbunden, die Signale zwischen den Neuronen mit variierenden Stärken übertragen, die sich während des Lernprozesses anpassen. Dies emuliert den Prozess der synaptischen Gewichtsänderungen im Gehirn. NPUs sind in Schichten organisiert; Eingabeschichten, die rohe Daten empfangen, versteckte Schichten, die Zwischenverarbeitungen durchführen, und Ausgabeschichten, die die Ergebnisse erzeugen. Diese schichtweise Struktur spiegelt die mehrstufige und parallele Informationsverarbeitungsfähigkeit des Gehirns wider. Da auch die generative AI aus einer ähnlichen Struktur von künstlichen neuronalen Netzen besteht, sind NPUs gut geeignet, um generative AI-Arbeitslasten zu bewältigen. Diese strukturelle Ausrichtung reduziert die Notwendigkeit für spezielle integrierte Schaltungen, was zu kompakten, energiesparenden, schnellen und nachhaltigen Lösungen führt.
Abdeckung der vielfältigen Rechenanforderungen der generativen AI
Die generative AI umfasst eine breite Palette von Aufgaben, einschließlich Bildsynthese, Textgenerierung und Musikkomposition, jede mit ihren eigenen einzigartigen Rechenanforderungen. Zum Beispiel basiert die Bildsynthese stark auf Matrixoperationen, während die Textgenerierung sequenzielle Verarbeitung beinhaltet. Um diese vielfältigen Rechenanforderungen effektiv zu erfüllen, werden Neural Processing Units (NPUs) oft in System-on-Chip (SoC)-Technologie neben CPUs und GPUs integriert.
Jeder dieser Prozessoren bietet unterschiedliche Rechenstärken. CPUs sind besonders gut für sequenzielle Steuerung und Unmittelbarkeit, GPUs sind hervorragend für die Verarbeitung von parallelen Datenströmen, und NPUs sind fein auf die Kern-AI-Operationen abgestimmt, die mit Skalar-, Vektor- und Tensor-Rechen arbeiten. Durch die Nutzung einer heterogenen Rechenarchitektur können Aufgaben den Prozessoren basierend auf ihren Stärken und den Anforderungen der spezifischen Aufgabe zugewiesen werden.
NPUs, die für AI-Arbeitslasten optimiert sind, können generative AI-Aufgaben effizient von der Haupt-CPU entlasten. Diese Entlastung stellt nicht nur schnelle und energiesparende Operationen sicher, sondern beschleunigt auch AI-Schlussfolgerungsaufgaben, sodass generative AI-Modelle auf dem Gerät reibungsloser laufen. Wenn NPUs die AI-bezogenen Aufgaben übernehmen, können CPUs und GPUs Ressourcen für andere Funktionen zuweisen, wodurch die Gesamtleistung der Anwendung verbessert und die thermische Effizienz erhalten wird.
Echte Beispiele von NPUs
Die Weiterentwicklung von NPUs gewinnt an Momentum. Hier sind einige Beispiele für NPUs:
- Hexagon NPUs von Qualcomm sind speziell für die Beschleunigung von AI-Schlussfolgerungsaufgaben bei geringer Leistung und geringen Ressourcen konzipiert. Sie sind für die Verarbeitung von generativen AI-Aufgaben wie Textgenerierung, Bildsynthese und Audiodatenverarbeitung ausgelegt. Der Hexagon NPU ist in Qualcomms Snapdragon-Plattformen integriert, was eine effiziente Ausführung von neuronalen Netzmodellen auf Geräten mit Qualcomm AI-Produkten ermöglicht.
- Apples Neural Engine ist ein wichtiger Bestandteil der A-Serie- und M-Serie-Chips, der verschiedene AI-getriebene Funktionen wie Face ID, Siri und erweiterte Realität (AR) antreibt. Der Neural Engine beschleunigt Aufgaben wie Gesichtserkennung für sichere Face ID, natürliche Sprachverarbeitung (NLP) für Siri und verbessertes Objektverfolgen und Szenenverständnis für AR-Anwendungen. Er verbessert erheblich die Leistung von AI-bezogenen Aufgaben auf Apple-Geräten und bietet so ein nahtloses und effizientes Benutzererlebnis.
- Samsungs NPU ist ein spezieller Prozessor, der für AI-Berechnungen konzipiert ist und tausende von Berechnungen gleichzeitig ausführen kann. Integriert in die neuesten Samsung Exynos SoCs, die viele Samsung-Telefone antreiben, ermöglicht diese NPU-Technologie niedrigenergetische, hochgeschwindigkeitsgenerative AI-Berechnungen. Samsungs NPU-Technologie ist auch in Flaggschiff-Fernsehern integriert, was AI-getriebene Klanginnovationen ermöglicht und das Benutzererlebnis verbessert.
- Huaweis Da-Vinci-Architektur dient als Kern ihrer Ascend-AI-Prozessor, der für die Verbesserung der AI-Rechenleistung konzipiert ist. Die Architektur nutzt einen leistungsstarken 3D-Würfel-Rechenmotor, der für AI-Arbeitslasten leistungsstark ist.
Fazit
Die generative AI verändert unsere Interaktion mit Geräten und definiert das Computing neu. Die Herausforderung, generative AI auf Geräten mit begrenzten Rechenressourcen zu betreiben, ist erheblich, und herkömmliche CPUs und GPUs kommen oft nicht aus. Neural Processing Units (NPUs) bieten eine vielversprechende Lösung mit ihrer spezialisierten Architektur, die den Anforderungen der generativen AI gerecht wird. Durch die Integration von NPUs in System-on-Chip (SoC)-Technologie neben CPUs und GPUs können wir die Stärken jedes Prozessors nutzen, was zu schnellerer, effizienterer und nachhaltigerer AI-Leistung auf Geräten führt. Wenn NPUs weiterentwickelt werden, werden sie die On-Device-AI-Fähigkeiten verbessern und Anwendungen responsiver und energiesparender machen.












