Connect with us

Verbesserung der AI-Schlußfolgerung: Erweiterte Techniken und Best Practices

Vordenker

Verbesserung der AI-Schlußfolgerung: Erweiterte Techniken und Best Practices

mm

Wenn es um Echtzeit-AI-Anwendungen wie selbstfahrende Autos oder Gesundheitsüberwachung geht, kann bereits eine zusätzliche Sekunde zur Verarbeitung einer Eingabe schwerwiegende Folgen haben. Echtzeit-AI-Anwendungen erfordern zuverlässige GPUs und Rechenleistung, was sehr teuer und kostenaufwändig für viele Anwendungen war – bis jetzt.

Durch die Übernahme eines optimierten Inferenzprozesses können Unternehmen nicht nur die AI-Effizienz maximieren, sondern auch den Energieverbrauch und die Betriebskosten (um bis zu 90%) reduzieren, die Privatsphäre und Sicherheit verbessern und sogar die Kundenzufriedenheit steigern.

Häufige Inferenzprobleme

Einige der häufigsten Probleme, mit denen Unternehmen bei der Verwaltung von AI-Effizienzen konfrontiert sind, sind unterausgelastete GPU-Cluster, die Standardmäßige Verwendung allgemeiner Modelle und mangelnde Einblicke in die damit verbundenen Kosten.

Teams stellen oft GPU-Cluster für Spitzenlasten bereit, aber zwischen 70 und 80 Prozent der Zeit sind sie aufgrund ungleicher Workflows unterausgelastet.

Zusätzlich greifen Teams auf große allgemeine Modelle (GPT-4, Claude) zurück, auch für Aufgaben, die auf kleineren, günstigeren Open-Source-Modellen ausgeführt werden könnten. Die Gründe? Ein Mangel an Wissen und eine steile Lernkurve beim Erstellen von benutzerdefinierten Modellen.

Schließlich fehlt es Ingenieuren an Einblicken in die Echtzeitkosten für jeden Anfrage, was zu hohen Rechnungen führt. Tools wie PromptLayer, Helicone können helfen, diese Einblicke zu liefern.

Aufgrund mangelnder Kontrollen über die Modellauswahl, Batchverarbeitung und Auslastung können die Inferenzkosten exponentiell ansteigen (um bis zu 10 Mal), Ressourcen verschwenden, die Genauigkeit einschränken und die Benutzererfahrung beeinträchtigen.

Energieverbrauch und Betriebskosten

Das Ausführen größerer LLMs wie GPT-4, Llama 3 70B oder Mixtral-8x7B erfordert erheblich mehr Leistung pro Token. Im Durchschnitt verbrauchen 40 bis 50 Prozent der Energie, die von einem Rechenzentrum verbraucht wird, die Computeranlagen, und weitere 30 bis 40 Prozent werden für die Kühlung der Anlagen aufgewendet.

Daher ist es für ein Unternehmen, das rund um die Uhr Inferenz im großen Maßstab ausführt, vorteilhafter, einen On-Premises-Anbieter zu betrachten, anstatt einen Cloud-Anbieter, um keine Premiumkosten zu zahlen und mehr Energie zu verbrauchen.

Privatsphäre und Sicherheit

Laut Cisco’s 2025 Data Privacy Benchmark Study, 64% der Befragten machen sich Sorgen darüber, versehentlich sensible Informationen öffentlich oder mit Wettbewerbern zu teilen, doch fast die Hälfte gibt zu, personenbezogene Mitarbeiter- oder nicht-öffentliche Daten in GenAI-Tools einzugeben.” Dies erhöht das Risiko der Nichteinhaltung, wenn die Daten nicht ordnungsgemäß protokolliert oder zwischengespeichert werden.

Eine weitere Gelegenheit für Risiken besteht darin, Modelle über verschiedene Kundenorganisationen auf einer gemeinsamen Infrastruktur auszuführen; dies kann zu Datenlecks und Leistungsproblemen führen, und es besteht das Risiko, dass die Aktionen eines Benutzers andere Benutzer beeinträchtigen. Daher bevorzugen Unternehmen in der Regel Dienste, die in ihrer Cloud bereitgestellt werden.

Kundenzufriedenheit

Wenn Antworten mehr als ein paar Sekunden dauern, um zu erscheinen, geben Benutzer normalerweise auf, was die Bemühungen der Ingenieure unterstützt, auf null Latenz zu optimieren. Zusätzlich stellen Anwendungen “Hindernisse wie Halluzinationen und Ungenauigkeiten dar, die die weitverbreitete Auswirkung und Übernahme einschränken können”, laut einer Gartner-Pressemitteilung.

Geschäftliche Vorteile der Bewältigung dieser Probleme

Die Optimierung der Batchverarbeitung, die Auswahl der richtigen Modelle (z. B. das Umschalten von Llama 70B oder Closed-Source-Modellen wie GPT auf Gemma 2B, wo möglich) und die Verbesserung der GPU-Auslastung können die Inferenzkosten um 60 bis 80 Prozent senken. Die Verwendung von Tools wie vLLM kann helfen, sowie das Umschalten auf ein serverloses Pay-as-you-go-Modell für eine spitze Arbeitslast.

Nehmen wir beispielsweise Cleanlab. Cleanlab startete das Vertrauenswürdiges Sprachmodell (TLM), um einen Vertrauenswert zu jeder LLM-Antwort hinzuzufügen. Es ist für hochwertige Ausgaben und verbesserte Zuverlässigkeit konzipiert, was für Unternehmensanwendungen entscheidend ist, um unkontrollierte Halluzinationen zu verhindern. Bevor Inferless kam, erlebte Cleanlabs erhöhte GPU-Kosten, da GPUs auch dann liefen, wenn sie nicht aktiv verwendet wurden. Ihre Probleme waren typisch für traditionelle Cloud-GPU-Anbieter: hohe Latenz, ineffizientes Kostenmanagement und eine komplexe Umgebung zur Verwaltung. Mit serverloser Inferenz senkten sie die Kosten um 90 Prozent, während sie die Leistungsstufe beibehielten. Wichtigster war, dass sie innerhalb von zwei Wochen ohne zusätzliche Ingenieurkosten live gingen.

Optimierung der Modellarchitektur

Grundmodelle wie GPT und Claude werden oft für Allgemeingültigkeit und nicht für Effizienz oder spezifische Aufgaben trainiert. Durch die Nichtanpassung von Open-Source-Modellen an spezifische Anwendungsfälle verschwenden Unternehmen Speicher und Rechenzeit für Aufgaben, die diese Größe nicht benötigen.

Neue GPU-Chips wie H100 sind schnell und effizient. Diese sind besonders wichtig, wenn große Operationen wie Videogenerierung oder AI-bezogene Aufgaben ausgeführt werden. Mehr CUDA-Kerne erhöhen die Verarbeitungsgeschwindigkeit und überbieten kleinere GPUs; NVIDIA’s Tensor-Kerne sind für die Beschleunigung dieser Aufgaben im großen Maßstab konzipiert.

Die GPU-Speicher sind ebenfalls wichtig für die Optimierung der Modellarchitektur, da große KI-Modelle erheblichen Speicherplatz benötigen. Dieser zusätzliche Speicher ermöglicht es der GPU, größere Modelle ohne Kompromisse bei der Geschwindigkeit auszuführen. Umgekehrt leidet die Leistung kleinerer GPUs mit weniger VRAM, da sie Daten auf ein langsames System-RAM verschieben.

Einige Vorteile der Optimierung der Modellarchitektur sind Zeit- und Geldersparnis. Zunächst kann das Umschalten von dichten Transformationsmodellen auf LoRA-optimierte oder FlashAttention-basierte Varianten zwischen 200 und 400 Millisekunden von der Antwortzeit pro Abfrage abschneiden, was in Chatbots und Spielen beispielsweise entscheidend ist. Zusätzlich benötigen quantisierte Modelle (wie 4-Bit- oder 8-Bit-Modelle) weniger VRAM und laufen auf billigeren GPUs schneller.

Langfristig spart die Optimierung der Modellarchitektur Geld für die Inferenz, da optimierte Modelle auf kleineren Chips ausgeführt werden können.

Die Optimierung der Modellarchitektur umfasst die folgenden Schritte:

  • Quantisierung — Reduzierung der Genauigkeit (FP32 → INT4/INT8), Speicherplatz sparen und Rechenzeit beschleunigen
  • Baum — Entfernen weniger nützlicher Gewichte oder Schichten (strukturiert oder unstrukturiert)
  • Destillation — Trainieren eines kleineren “Schüler”-Modells, um die Ausgabe eines größeren Modells nachzuahmen

Komprimierung der Modellgröße

Kleinere Modelle bedeuten schnellere Inferenz und weniger teure Infrastruktur. Große Modelle (13B+, 70B+) erfordern teure GPUs (A100s, H100s), hohe VRAM und mehr Leistung. Durch die Komprimierung können sie auf billigeren Hardware wie A10s oder T4s mit viel geringerer Latenz ausgeführt werden.

Komprimierte Modelle sind auch entscheidend für die Ausführung auf Geräten (Telefonen, Browsern, IoT) von Inferenz, da kleinere Modelle es ermöglichen, mehr gleichzeitige Anfragen ohne Skalierung der Infrastruktur zu bedienen. In einem Chatbot mit mehr als 1.000 gleichzeitigen Benutzern ermöglichte das Umschalten von einem 13B- auf ein komprimiertes 7B-Modell es einem Team, mehr als doppelt so viele Benutzer pro GPU ohne Latenzspitzen zu bedienen.

Nutzung spezieller Hardware

Allgemeine CPUs sind nicht für Tensor-Operationen konzipiert. Spezielle Hardware wie NVIDIA A100s, H100s, Google TPUs oder AWS Inferentia kann eine schnellere Inferenz (zwischen 10 und 100 Mal) für LLMs mit besserer Energieeffizienz bieten. Das Abschneiden von nur 100 Millisekunden pro Anfrage kann einen Unterschied machen, wenn täglich Millionen von Anfragen verarbeitet werden.

Betrachten Sie dieses hypothetische Beispiel:

Ein Team führt LLaMA-13B auf Standard-A10-GPUs für sein internes RAG-System aus. Die Latenz beträgt etwa 1,9 Sekunden, und sie können nicht viel batchen, da die VRAM-Begrenzungen vorliegen. Also wechseln sie zu H100s mit TensorRT-LLM, aktivieren FP8 und optimieren das Aufmerksamkeitskern, erhöhen die Batch-Größe von acht auf 64. Das Ergebnis ist die Reduzierung der Latenz auf 400 Millisekunden mit einer fünffachen Erhöhung der Durchsatzrate.Dadurch können sie Anfragen fünf Mal auf dem gleichen Budget bedienen und Ingenieure von der Navigation von Infrastruktur-Engpässen befreien.

Bewertung der Bereitstellungsoptionen

Unterschiedliche Prozesse erfordern unterschiedliche Infrastrukturen; ein Chatbot mit 10 Benutzern und eine Suchmaschine, die täglich eine Million Anfragen bedient, haben unterschiedliche Bedürfnisse. Die vollständige Ausrichtung auf die Cloud (z. B. AWS Sagemaker) oder die DIY-GPU-Server ohne Bewertung der Kosten-Leistungs-Verhältnisse führt zu verschwendeten Ausgaben und einer schlechten Benutzererfahrung. Beachten Sie, dass die frühzeitige Bindung an einen geschlossenen Cloud-Anbieter eine schmerzhafte Migration der Lösung später bedeutet. Die frühzeitige Bewertung mit einer pay-as-you-go-Struktur bietet jedoch Optionen auf dem Weg.

Die Bewertung umfasst die folgenden Schritte:

  • Modell-Latenz und -Kosten über Plattformen hinweg benchmarken: Führen Sie A/B-Tests auf AWS, Azure, lokalen GPU-Clustern oder serverlosen Tools aus, um zu replizieren.
  • Kaltstartleistung messen: Dies ist besonders wichtig für serverlose oder ereignisgesteuerte Workloads, da Modelle schneller laden.
  • Beurteilen Sie die Beobachtbarkeit und die Skalierungsgrenzen: Bewerten Sie die verfügbaren Metriken und bestimmen Sie, was die maximale Anzahl von Anfragen pro Sekunde ist, bevor die Leistung abnimmt.
  • Überprüfen Sie die Unterstützung für die Einhaltung von Vorschriften: Bestimmen Sie, ob Sie geo-basierte Datenregeln oder Prüflisten durchsetzen können.
  • Schätzen Sie die Gesamtkosten des Besitzes. Dazu gehören GPU-Stunden, Speicher, Bandbreite und Overhead für Teams.

Das Wesentliche

Die Inferenz ermöglicht es Unternehmen, ihre AI-Leistung zu optimieren, den Energieverbrauch und die Kosten zu senken, die Privatsphäre und Sicherheit zu wahren und die Kunden zufriedenzustellen.

Aishwarya Goel ist Mitbegründer und CEO von Inferless, einer stateful serverless Plattform, die Entwicklern hilft, benutzerdefinierte und Open-Source-Modelle mit geringen Cold Starts und effizienter Autoskalierung zu deployen.