Stummel Die Zukunft der generativen KI liegt am Rande – Unite.AI
Vernetzen Sie sich mit uns

Vordenker

Die Zukunft der generativen KI liegt am Rande

mm

Veröffentlicht

 on

Das Aufkommen von ChatGPT und Generative KI Im Allgemeinen ist dies ein Wendepunkt in der Geschichte der Technologie und wird mit den Anfängen des Internets und des Smartphones verglichen. Generative KI hat gezeigt, dass ihr Potenzial bei der Führung intelligenter Gespräche, dem Bestehen von Prüfungen, der Generierung komplexer Programme/Codes sowie der Erstellung auffälliger Bilder und Videos grenzenlos ist. Während GPUs die meisten KI-Modelle der Generation in der Cloud ausführen – sowohl für Training als auch für Inferenz – ist dies aufgrund von Faktoren wie Kosten, Leistung, Latenz, Datenschutz und Sicherheit keine langfristig skalierbare Lösung, insbesondere für Inferenz. In diesem Artikel geht es um jeden dieser Faktoren sowie um motivierende Beispiele, um Rechenlasten der Generation AI an den Rand zu verlagern.

Die meisten Anwendungen laufen auf Hochleistungsprozessoren – entweder auf Geräten (z. B. Smartphones, Desktops, Laptops) oder in Rechenzentren. Da der Anteil der Anwendungen, die KI nutzen, zunimmt, sind diese Prozessoren mit nur CPUs nicht mehr ausreichend. Darüber hinaus führt die schnelle Ausweitung generativer KI-Workloads zu einer exponentiellen Nachfrage nach KI-fähigen Servern mit teuren, stromhungrigen GPUs, was wiederum die Infrastrukturkosten in die Höhe treibt. Diese KI-fähigen Server können bis zum Siebenfachen des Preises eines normalen Servers kosten, und GPUs machen 7 % dieser zusätzlichen Kosten aus.

Darüber hinaus verbraucht ein Cloud-basierter Server 500 bis 2000 W, während ein KI-fähiger Server zwischen 2000 und 8000 W verbraucht – viermal mehr! Um diese Server zu unterstützen, benötigen Rechenzentren zusätzliche Kühlmodule und Infrastruktur-Upgrades – die sogar höher sein können als die Recheninvestitionen. Rechenzentren verbrauchen bereits 4 TWH pro Jahr, fast 1 % des gesamten weltweiten Stromverbrauchs Wenn sich der Trend zur KI-Einführung fortsetzt, könnten bis 5 bis zu 2030 % des weltweiten Stroms durch Rechenzentren verbraucht werden. Darüber hinaus gibt es beispiellose Investitionen in generative KI-Rechenzentren. Es wird geschätzt, dass Rechenzentren bis zu verbrauchen werden 500 Milliarden US-Dollar für Investitionen bis 2027, hauptsächlich angetrieben durch Anforderungen an die KI-Infrastruktur.

Der Stromverbrauch von Rechenzentren, der bereits 300 TwH beträgt, wird mit der Einführung generativer KI erheblich steigen.

Die KI-Rechenkosten sowie der Energieverbrauch werden die Masseneinführung generativer KI behindern. Skalierungsherausforderungen können bewältigt werden, indem die KI-Rechenleistung an den Rand verlagert wird und für KI-Workloads optimierte Verarbeitungslösungen verwendet werden. Mit diesem Ansatz ergeben sich für den Kunden auch weitere Vorteile, darunter Latenz, Datenschutz, Zuverlässigkeit sowie erhöhte Leistungsfähigkeit.

Compute folgt den Daten bis zum Edge

Seit die KI vor einem Jahrzehnt aus der akademischen Welt hervortrat, finden Training und Inferenz von KI-Modellen in der Cloud/im Rechenzentrum statt. Da ein Großteil der Daten am Rand generiert und konsumiert wird – insbesondere Videos –, war es nur sinnvoll, die Schlussfolgerung der Daten an den Rand zu verlagern und so die Gesamtbetriebskosten (TCO) für Unternehmen aufgrund geringerer Netzwerk- und Rechenkosten zu senken. Während die KI-Inferenzkosten in der Cloud wiederkehrend anfallen, sind die Kosten für die Inferenz am Edge ein einmaliger Hardwareaufwand. Im Wesentlichen senkt die Erweiterung des Systems mit einem Edge AI-Prozessor die Gesamtbetriebskosten. Wie die Migration herkömmlicher KI-Workloads zum Edge (z. B. Appliance, Gerät) werden auch generative KI-Workloads diesem Beispiel folgen. Dies wird Unternehmen und Verbrauchern erhebliche Einsparungen bringen.

Der Übergang zum Edge in Verbindung mit einem effizienten KI-Beschleuniger zur Ausführung von Inferenzfunktionen bietet noch weitere Vorteile. Die wichtigste davon ist die Latenz. Beispielsweise können in Spieleanwendungen Nicht-Spieler-Charaktere (NPCs) mithilfe generativer KI gesteuert und erweitert werden. Mithilfe von LLM-Modellen, die auf Edge-KI-Beschleunigern in einer Spielekonsole oder einem PC laufen, können Spieler diesen Charakteren spezifische Ziele geben, damit sie sinnvoll an der Geschichte teilnehmen können. Die geringe Latenz der lokalen Edge-Inferenz ermöglicht es NPC-Sprachen und -Bewegungen, in Echtzeit auf die Befehle und Aktionen der Spieler zu reagieren. Dadurch wird ein äußerst immersives Spielerlebnis auf kostengünstige und energieeffiziente Weise ermöglicht.

In Anwendungen wie dem Gesundheitswesen sind Datenschutz und Zuverlässigkeit äußerst wichtig (z. B. Patientenbewertung, Arzneimittelempfehlungen). Daten und die zugehörigen Gen-KI-Modelle müssen vor Ort sein, um Patientendaten (Privatsphäre) zu schützen, und jegliche Netzwerkausfälle, die den Zugriff auf KI-Modelle in der Cloud blockieren, können katastrophale Folgen haben. Eine Edge-KI-Appliance, die ein Gen-KI-Modell ausführt, das speziell für jeden Unternehmenskunden – in diesem Fall einen Gesundheitsdienstleister – entwickelt wurde, kann die Probleme der Privatsphäre und Zuverlässigkeit nahtlos lösen und gleichzeitig geringere Latenz und Kosten liefern.

Generative KI auf Edge-Geräten sorgt für eine geringe Latenz beim Spielen, bewahrt Patientendaten und verbessert die Zuverlässigkeit im Gesundheitswesen.

Viele KI-Modelle der Generation, die in der Cloud ausgeführt werden, können nahezu eine Billion Parameter haben – diese Modelle können allgemeine Abfragen effektiv bearbeiten. Bei unternehmensspezifischen Anwendungen müssen die Modelle jedoch Ergebnisse liefern, die für den Anwendungsfall relevant sind. Nehmen Sie das Beispiel eines Gen AI-basierten Assistenten, der für die Annahme von Bestellungen in einem Fast-Food-Restaurant entwickelt wurde. Damit dieses System eine nahtlose Kundeninteraktion ermöglicht, muss das zugrunde liegende Gen AI-Modell auf die Menüpunkte des Restaurants trainiert werden und auch die Allergene und Zutaten kennen . Die Modellgröße kann optimiert werden, indem ein übergeordnetes Large Language Model (LLM) verwendet wird, um ein relativ kleines LLM mit 10 bis 30 Milliarden Parametern zu trainieren und dann eine zusätzliche Feinabstimmung mit den kundenspezifischen Daten vorzunehmen. Ein solches Modell kann Ergebnisse mit erhöhter Genauigkeit und Leistungsfähigkeit liefern. Und da das Modell kleiner ist, kann es effektiv auf einem KI-Beschleuniger am Edge eingesetzt werden.

Gen KI wird am Edge gewinnen

Es wird immer einen Bedarf für die Ausführung von KI der Generation in der Cloud geben, insbesondere für Allzweckanwendungen wie ChatGPT und Claude. Aber wenn es um unternehmensspezifische Anwendungen wie das generative Fill von Adobe Photoshop oder Github Copilot geht, ist Generative AI bei Edge nicht nur die Zukunft, sondern auch die Gegenwart. Der Schlüssel dazu sind speziell entwickelte KI-Beschleuniger.

Als Silicon Valley-Veteran und CEO von Kinara Inc, Ravi Annavajjhala bringt mehr als 20 Jahre Erfahrung in den Bereichen Geschäftsentwicklung, Marketing und Engineering sowie in der Entwicklung von Spitzentechnologieprodukten mit
sie auf den Markt zu bringen. In seiner aktuellen Rolle als Chief Executive Officer von Deep Vision ist Ravi tätig
sein Vorstand und hat 50 Millionen US-Dollar gesammelt, um den Ara-1-Prozessor des Unternehmens von Pre-Silicon auf zu bringen
Serienproduktion und Steigerung der Stückzahl des Prozessors der zweiten Generation, Ara-2. Vor dem Beitritt
Deep Vision hatte Ravi Führungspositionen bei Intel und SanDisk inne, wo er Schlüsselrollen innehatte
bei der Förderung des Umsatzwachstums, der Entwicklung strategischer Partnerschaften und der Entwicklung von Produkt-Roadmaps
Führend in der Branche mit innovativen Funktionen und Fähigkeiten.