Vordenker
Verbesserung der KI-Inferenz: Fortgeschrittene Techniken und Best Practices

Wenn es um Echtzeit-KI-gesteuerte Anwendungen wie selbstfahrende Autos oder GesundheitsüberwachungSelbst eine zusätzliche Sekunde zur Verarbeitung einer Eingabe kann schwerwiegende Folgen haben. Echtzeit-KI-Anwendungen erfordern zuverlässige GPUs und Rechenleistung, die bisher für viele Anwendungen sehr teuer und unerschwinglich waren.
Durch die Einführung eines optimierenden Inferenzprozesses können Unternehmen nicht nur die KI-Effizienz maximieren, sondern auch den Energieverbrauch und die Betriebskosten (um bis zu 90 %) senken, den Datenschutz und die Sicherheit verbessern und sogar die Kundenzufriedenheit steigern.
Häufige Inferenzprobleme
Zu den häufigsten Problemen, mit denen Unternehmen bei der Verwaltung der KI-Effizienz konfrontiert sind, zählen nicht ausgelastete GPU-Cluster, die Verwendung allgemeiner Modelle und ein Mangel an Einblicken in die damit verbundenen Kosten.
Teams stellen häufig GPU-Cluster für Spitzenlasten bereit, doch zwischen 70 und 80 Prozent der Zeit sind sie aufgrund ungleichmäßiger Arbeitsabläufe nicht ausgelastet.
Darüber hinaus greifen Teams selbst bei Aufgaben, die mit kleineren, günstigeren Open-Source-Modellen ausgeführt werden könnten, standardmäßig auf große Allzweckmodelle (GPT-4, Claude) zurück. Die Gründe dafür? Mangelndes Wissen und eine steile Lernkurve bei der Erstellung benutzerdefinierter Modelle.
Schließlich fehlt Ingenieuren in der Regel der Einblick in die Echtzeitkosten jeder Anfrage, was zu hohen Rechnungen führt. Tools wie PromptLayer und Helicone können dabei helfen, diesen Einblick zu gewinnen.
Mangels Kontrolle bei der Modellauswahl, Stapelverarbeitung und Nutzung können die Inferenzkosten exponentiell (bis auf das Zehnfache) ansteigen, Ressourcen verschwenden, die Genauigkeit einschränken und die Benutzererfahrung verschlechtern.
Energieverbrauch und Betriebskosten
Der Betrieb größerer LLMs wie GPT-4, Llama 3 70B oder Mixtral-8x7B erfordert deutlich mehr Leistung pro Token. Durchschnittlich 40 bis 50 Prozent der Energie, die ein Rechenzentrum verbraucht, werden für den Betrieb der Computerausrüstung verwendet, weitere 30 bis 40 Prozent werden für die Kühlung der Ausrüstung benötigt.
Daher ist es für ein Unternehmen, das rund um die Uhr Inferenzen im großen Maßstab benötigt, vorteilhafter, einen Vor-Ort-Anbieter anstelle eines Cloud-Anbieters in Betracht zu ziehen, um die Zahlung von Premium-Kosten zu vermeiden und mehr Energie verbrauchen.
Datenschutz und Sicherheit
Laut Cisco ist Benchmarkstudie zum Datenschutz 2025, "64 % der Befragten befürchten, vertrauliche Informationen versehentlich öffentlich oder an Wettbewerber weiterzugeben, doch fast die Hälfte gibt zu, persönliche Mitarbeiterdaten oder nicht öffentliche Daten in GenAI-Tools eingegeben zu haben.“ Dadurch erhöht sich das Risiko einer Nichteinhaltung, wenn die Daten nicht ordnungsgemäß protokolliert oder zwischengespeichert werden.
Ein weiteres Risiko besteht darin, Modelle in verschiedenen Kundenorganisationen auf einer gemeinsamen Infrastruktur auszuführen. Dies kann zu Datenverlusten und Leistungsproblemen führen. Zudem besteht das Risiko, dass die Aktionen eines Benutzers Auswirkungen auf andere Benutzer haben. Daher bevorzugen Unternehmen im Allgemeinen Dienste, die in ihrer Cloud bereitgestellt werden.
Kundenzufriedenheit
Wenn Antworten länger als ein paar Sekunden dauern, brechen Benutzer in der Regel ab, was die Bemühungen der Ingenieure unterstützt, die Latenz auf Null zu optimieren. Darüber hinaus präsentieren Anwendungen „Hindernisse wie Halluzinationen und Ungenauigkeiten, die eine breite Wirkung und Akzeptanz einschränken können“, so ein Gartner-Pressemitteilung.
Geschäftsvorteile durch die Bewältigung dieser Probleme
Durch die Optimierung der Batchverarbeitung, die Auswahl der passenden Modelle (z. B. durch den Wechsel von Llama 70B oder Closed-Source-Modellen wie GPT zu Gemma 2B, sofern möglich) und die Verbesserung der GPU-Auslastung können die Inferenzkosten um 60 bis 80 Prozent gesenkt werden. Der Einsatz von Tools wie vLLM kann hilfreich sein, ebenso wie der Wechsel zu einem serverlosen Pay-as-you-go-Modell für einen Workflow mit hohen Schwankungen.
Nehmen wir zum Beispiel Cleanlab. startete die Vertrauenswürdiges Sprachmodell (TLM) zu hinzufügen Jeder LLM-Antwort wird ein Vertrauenswürdigkeitswert zugewiesen. Es ist auf qualitativ hochwertige Ergebnisse und erhöhte Zuverlässigkeit ausgelegt, was für Unternehmensanwendungen entscheidend ist, um unkontrollierte Trugschlüsse zu verhindern. Vor Inferless hatte Cleanlabs mit steigenden GPU-Kosten zu kämpfen, da GPUs auch dann liefen, wenn sie nicht aktiv genutzt wurden. Die Probleme waren typisch für traditionelle Cloud-GPU-Anbieter: hohe Latenz, ineffizientes Kostenmanagement und eine komplexe Umgebung. Mit serverloser Inferenz konnten die Kosten um 90 Prozent gesenkt und gleichzeitig das Leistungsniveau beibehalten werden. Noch wichtiger: Die Inbetriebnahme erfolgte innerhalb von zwei Wochen ohne zusätzliche Engineering-Kosten.
Optimierung von Modellarchitekturen
Basismodelle wie GPT und Claude sind oft auf Allgemeingültigkeit trainiert, nicht auf Effizienz oder spezifische Aufgaben. Indem Unternehmen Open-Source-Modelle nicht für spezifische Anwendungsfälle anpassen, verschwenden sie Speicher und Rechenzeit für Aufgaben, die diese Skalierung nicht benötigen.
Neuere GPU-Chips wie der H100 sind schnell und effizient. Dies ist besonders wichtig bei umfangreichen Operationen wie der Videogenerierung oder KI-bezogenen Aufgaben. Mehr CUDA-Kerne erhöhen die Verarbeitungsgeschwindigkeit und übertreffen kleinere GPUs; NVIDIAs Tensorkerne sind darauf ausgelegt, diese Aufgaben im großen Maßstab zu beschleunigen.
Der GPU-Speicher ist auch für die Optimierung von Modellarchitekturen wichtig, da große KI-Modelle viel Speicherplatz benötigen. Dieser zusätzliche Speicher ermöglicht es der GPU, größere Modelle ohne Geschwindigkeitseinbußen auszuführen. Umgekehrt leidet die Leistung kleinerer GPUs mit weniger VRAM, da sie Daten in einen langsameren System-RAM verschieben.
Zu den Vorteilen der Optimierung der Modellarchitektur zählen Zeit- und Kosteneinsparungen. Erstens kann der Wechsel vom Dense Transformer zu LoRA-optimierten oder FlashAttention-basierten Varianten die Antwortzeit pro Abfrage um 200 bis 400 Millisekunden verkürzen, was beispielsweise bei Chatbots und Gaming entscheidend ist. Zudem benötigen quantisierte Modelle (wie 4-Bit oder 8-Bit) weniger VRAM und laufen auf günstigeren GPUs schneller.
Langfristig spart die Optimierung der Modellarchitektur Kosten bei der Inferenz, da optimierte Modelle auf kleineren Chips ausgeführt werden können.
Die Optimierung der Modellarchitektur umfasst die folgenden Schritte:
- Quantisierung — Reduzierung der Präzision (FP32 → INT4/INT8), Einsparung von Speicher und Beschleunigung der Rechenzeit
- Beschneidung — Entfernen weniger nützlicher Gewichte oder Schichten (strukturiert oder unstrukturiert)
- Destillation — Training eines kleineren „Studenten“-Modells, um die Ergebnisse eines größeren nachzuahmen
Komprimieren der Modellgröße
Kleinere Modelle bedeuten schnellere Inferenz und eine kostengünstigere Infrastruktur. Große Modelle (13B+, 70B+) erfordern teure GPUs (A100, H100), viel VRAM und mehr Leistung. Durch Komprimierung können sie auf günstigerer Hardware wie A10 oder T4 mit deutlich geringerer Latenz ausgeführt werden.
Komprimierte Modelle sind auch für die Ausführung von Inferenzen auf Geräten (Telefone, Browser, IoT) von entscheidender Bedeutung, da kleinere Modelle die Bearbeitung von mehr gleichzeitigen Anfragen ermöglichen, ohne die Infrastruktur skalieren zu müssen. Bei einem Chatbot mit mehr als 1,000 gleichzeitigen Benutzern konnte ein Team durch die Umstellung von einem 13-B- auf ein 7-B-komprimiertes Modell mehr als die doppelte Anzahl an Benutzern pro GPU ohne Latenzspitzen bedienen.
Nutzung spezialisierter Hardware
Standard-CPUs sind nicht für Tensoroperationen ausgelegt. Spezialisierte Hardware wie NVIDIA A100s, H100s, Google TPUs oder AWS Inferentia bietet schnellere Inferenz (zwischen 10 und 100x) für LLMs bei besserer Energieeffizienz. Schon 100 Millisekunden pro Anfrage können bei der täglichen Verarbeitung von Millionen von Anfragen einen großen Unterschied machen.
Betrachten Sie dieses hypothetische Beispiel:
Ein Team betreibt LLaMA-13B auf Standard-A10-GPUs für sein internes RAG-System. Die Latenz beträgt etwa 1.9 Sekunden, und aufgrund von VRAM-Limits ist eine hohe Batchverarbeitung nicht möglich. Daher wird auf H100s mit TensorRT-LLM umgestiegen, FP8 aktiviert und der Attention Kernel optimiert. Die Batchgröße wird von acht auf 64 erhöht. Das Ergebnis: Die Latenz wird auf 400 Millisekunden reduziert und der Durchsatz verfünffacht.
Dadurch können sie Anfragen mit demselben Budget fünfmal bearbeiten und ihre Ingenieure von der Bewältigung von Infrastrukturengpässen entlasten.
Auswerten von Bereitstellungsoptionen
Unterschiedliche Prozesse erfordern unterschiedliche Infrastrukturen. Ein Chatbot mit zehn Nutzern und eine Suchmaschine, die täglich eine Million Anfragen bearbeitet, haben unterschiedliche Anforderungen. Die vollständige Nutzung der Cloud (z. B. AWS Sagemaker) oder selbstgebauter GPU-Server ohne Berücksichtigung des Preis-Leistungs-Verhältnisses führt zu unnötigen Ausgaben und einer schlechten Benutzererfahrung. Beachten Sie: Wenn Sie sich frühzeitig für einen geschlossenen Cloud-Anbieter entscheiden, ist die spätere Migration der Lösung mühsam. Eine frühzeitige Evaluierung mit einer Pay-as-you-go-Struktur eröffnet Ihnen jedoch spätere Optionen.
Die Evaluierung umfasst die folgenden Schritte:
- Benchmarken Sie die Modelllatenz und -kosten plattformübergreifend: Führen Sie zur Replikation A/B-Tests auf AWS, Azure, lokalen GPU-Clustern oder serverlosen Tools durch.
- Messen Sie die Kaltstartleistung: Dies ist besonders wichtig für serverlose oder ereignisgesteuerte Workloads, da Modelle schneller geladen werden.
- Bewerten Sie die Beobachtbarkeit und Skalierungsgrenzen: Werten Sie die verfügbaren Messgrößen aus und ermitteln Sie die maximale Anzahl an Abfragen pro Sekunde, bevor Sie eine Herabstufung vornehmen.
- Überprüfen Sie die Compliance-Unterstützung: Stellen Sie fest, ob Sie geogebundene Datenregeln oder Prüfprotokolle durchsetzen können.
- Schätzen Sie die Gesamtbetriebskosten. Diese sollten GPU-Stunden, Speicher, Bandbreite und den Overhead für Teams umfassen.
Unter dem Strich
Inference ermöglicht es Unternehmen, ihre KI-Leistung zu optimieren, Energieverbrauch und -kosten zu senken, Datenschutz und Sicherheit zu wahren und die Kundenzufriedenheit zu gewährleisten.










