Künstliche Intelligenz
Warum AI-Inferenz, nicht Training, die nächste große ingenieurtechnische Herausforderung ist

Für das vergangene Jahrzehnt war der Fokus in der künstlichen Intelligenz von der Ausbildung monopolisiert. Die Durchbrüche kamen größtenteils von massiven Rechenclustern, Trillionen-Parameter-Modellen und den Milliarden von Dollar, die in die Lehre von Systemen investiert wurden, um “zu denken”. Wir haben die AI-Entwicklung größtenteils als Bauprojekt behandelt: das Bauwerk der Intelligenz. Aber jetzt, da dieses Bauwerk errichtet wurde, ist die wahre Herausforderung, herauszufinden, wie man es ermöglichen kann, dass Millionen von Menschen darin leben und gleichzeitig operieren. Dies verschiebt den Fokus von AI-Forschern und Ingenieuren von Ausbildung (der Schaffung von Intelligenz) zu Inferenz (der Nutzung davon). Während die Ausbildung ein massiver, einmaliger Kapitaleinsatz (CapEx) ist, ist die Inferenz ein laufender Betriebseinsatz (OpEx), der unendlich weiterläuft. Wenn Unternehmen Agenten bereitstellen, die Millionen von Benutzern rund um die Uhr bedienen, entdecken sie eine harte Realität: Inferenz ist nicht nur “Ausbildung in umgekehrter Reihenfolge”. Es ist eine grundlegend andere und vielleicht schwierigere ingenieurtechnische Herausforderung.
Warum Inferenzkosten mehr als je zuvor zählen
Um die ingenieurtechnische Herausforderung zu verstehen, muss man zunächst die zugrunde liegende wirtschaftliche Notwendigkeit verstehen. In der Ausbildungsphase ist Ineffizienz tolerierbar. Wenn ein Ausbildungslauf vier Wochen statt drei dauert, ist es eine Unannehmlichkeit. Bei der Inferenz jedoch kann Ineffizienz für das Geschäft katastrophal sein. Zum Beispiel kann das Training eines Frontier-Modells 100 Millionen Dollar kosten. Aber das Bereitstellen dieses Modells, um 10 Millionen Anfragen pro Tag zu beantworten, kann diesen Kosten in nur wenigen Monaten übersteigen, wenn es nicht optimiert wird. Deshalb erleben wir einen Marktwandel, bei dem Inferenzinvestitionen projiziert werden, um die Ausbildungsinvestitionen zu übersteigen.
Für Ingenieure verschiebt sich das Ziel. Wir optimieren nicht mehr für die Durchsatzrate (wie schnell kann ich diese massive Datenmenge verarbeiten?). Wir optimieren für Latenz (wie schnell kann ich ein einzelnes Token zurückgeben?) und Konkurrenz (wie viele Benutzer kann ich auf einem GPU bedienen?). Der “Brutal”-Ansatz, der die Ausbildungsphase durch das Hinzufügen von mehr Rechenleistung dominierte, funktioniert hier nicht. Man kann nicht mehr H100s auf ein Latenzproblem werfen, wenn der Engpass die Speicherbandbreite ist.
Die Speicherwand: Der wahre Engpass
Die little-known Wahrheit über Large Language Model (LLM)-Inferenz ist, dass sie selten durch Rechenleistung begrenzt ist, sondern durch Speicher. Während der Ausbildung verarbeiten wir Daten in großen Batches, um die GPU-Recheneinheiten voll auszulasten. Bei der Inferenz, insbesondere für Echtzeit-Anwendungen wie Chatbots oder Agenten, kommen Anfragen sequentiell. Jedes generierte Token erfordert, dass das Modell seine Milliarden von Parametern aus High-Bandwidth-Speicher (HBM) in die Recheneinheiten lädt. Dies ist die “Speicherwand“. Es ist wie ein Ferrari-Motor (der GPU-Kern) im Stau (der begrenzten Speicherbandbreite).
Diese Herausforderung zwingt Ingenieurteams, die Systemarchitektur bis hin zum Silizium-Level neu zu überdenken. Deshalb sehen wir den Aufstieg von Linear Processing Units (LPUs) wie denen von Groq und speziellen Neural Processing Units (NPUs). Diese Chips sind designed, um den HBM-Engpass zu umgehen, indem sie massive Mengen an On-Chip-SRAM verwenden und den Speicherzugriff als kontinuierlichen Datenfluss und nicht als einfache Fetch-Operation behandeln. Für den Software-Ingenieur signalisiert dies das Ende der “default to CUDA”-Ära. Wir müssen jetzt Code schreiben, der hardware-bewusst ist und genau versteht, wie Daten durch das Kabel fließen.
Die neue Grenze der AI-Effizienz
Da wir die Hardware nicht immer ändern können, liegt die nächste Grenze der Ingenieurtechnik in der Software-Optimierung. Hier geschehen einige der innovativsten Durchbrüche. Wir erleben eine Renaissance von Techniken, die neu definieren, wie Computer neuronale Netze implementieren und ausführen.
- kontinuierliches Batching: Traditionelles Batching wartet, bis ein “Bus” voll ist, bevor er abfährt, was Verzögerungen einführt. Kontinuierliches Batching (von Frameworks wie vLLM entwickelt) funktioniert wie ein U-Bahn-System, das es neuen Anfragen ermöglicht, dem GPU-Verarbeitungszug bei jedem Schritt beizutreten oder auszusteigen. Es maximiert die Durchsatzrate, ohne die Latenz zu opfern, und löst ein komplexes Scheduling-Problem, das tiefes OS-Know-how erfordert.
- Spekulative Dekodierung: Diese Technik verwendet ein kleines, schnelles und preisgünstiges Modell, um eine Antwort zu entwerfen, während ein größeres, langsameres und leistungsfähigeres Modell es in Parallelität überprüft. Sie basiert auf der Tatsache, dass die Überprüfung von Text viel weniger rechenintensiv ist als die Generierung.
- KV-Cache-Management: In langen Gesprächen wächst die “Historie” (der Key-Value-Cache) schnell und verbraucht große Mengen an GPU-Speicher. Ingenieure implementieren jetzt “PagedAttention”, eine Technik, die von der virtuellen Speicherverwaltung in Betriebssystemen inspiriert ist. Diese Technik bricht den Speicher in Fragmente und verwaltet ihn nicht-kontinuierlich.
Die agentische Komplexität
Wenn Standard-Inferenz bereits schwierig ist, macht Agentic-AI es exponentiell schwieriger. Ein standardmäßiger Chatbot ist zustandslos: Benutzer fragt, AI antwortet, Prozess endet. Ein AI-Agent jedoch hat eine Schleife. Er plant, führt Werkzeuge aus, beobachtet Ergebnisse und iteriert. Aus ingenieurtechnischer Sicht ist dies ein Albtraum. Diese architektonische Verschiebung stellt mehrere grundlegende Herausforderungen dar:
- Zustandsverwaltung: Der Inferenz-Motor muss den “Zustand” des Agenten-Gedankenprozesses über mehrere Schritte hinweg aufrechterhalten, oft über Minuten hinweg.
- Unendliche Schleifen: Im Gegensatz zu einem vorhersehbaren Forward-Pass kann ein Agent in einer Denkschleife stecken bleiben. Die Entwicklung robuster “Wachhunde” und “Sicherungen” für probabilistischen Code ist ein völlig neues Feld.
- Variable Rechenleistung: Eine Benutzeranfrage kann einen einzelnen Inferenz-Aufruf auslösen, während eine andere fünfzig auslösen kann. Die Verwaltung von Last und Auto-Scaling-Infrastruktur, wenn jede Anfrage eine extreme Varianz aufweist, erfordert eine völlig neue Klasse von Orchestrierungslogik.
Wir bewegen uns im Wesentlichen von “Modell-Diensten” zu “Kognitiv-Architektur-Orchestrierung”.
AI auf alltägliche Geräte bringen
Schließlich werden die Grenzen von Energie und Netzwerklatenz die Inferenz zwangsläufig an den Rand drängen. Wir können nicht erwarten, dass jeder intelligente Lichtschalter, jedes autonome Fahrzeug oder jede Fabrikroboter seine Anfragen durch ein Rechenzentrum leitet. Die ingenieurtechnische Herausforderung hier ist die Komprimierung. Wie passt man ein Modell, das aus dem gesamten Internet gelernt hat, auf einen Chip, der kleiner ist als ein Fingernagel, und der mit einer Batterie läuft?
Techniken wie Quantifizierung (die Präzision von 16 Bit auf 4 Bit oder sogar 1 Bit reduzieren) und Modell-Destillation (ein kleines Studenten-Modell lehrt, ein großes Lehrer-Modell nachzuahmen) werden zur Standardpraxis. Aber die wahre Herausforderung ist, diese Modelle auf ein fragmentiertes Ökosystem von Milliarden von Geräten wie Android, iOS, eingebettetem Linux, benutzerdefinierten Sensoren zu deployen, jedes mit seinen eigenen Hardware-Einschränkungen. Es ist der “Fragmentierungs-Albtraum” der mobilen Entwicklung, multipliziert mit der Komplexität von neuronalen Netzen.
Die Bottom Line
Wir betreten die “Tag 2”-Ära der generativen AI. Tag 1 war es, zu demonstrieren, dass die AI Gedichte schreiben kann. Tag 2 ist es, die Ingenieurtechnik zu machen, um diese Fähigkeit zuverlässiger, erschwinglicher und allgegenwärtiger zu machen. Die Ingenieure, die das nächste Jahrzehnt definieren werden, sind nicht unbedingt diejenigen, die neue Modell-Architekturen erfinden. Sie sind die System-Ingenieure, die Kernel-Hacker und die Infrastruktur-Architekten, die herausfinden können, wie man eine Milliarde Token pro Sekunde ohne das Abschmelzen des Stromnetzes oder das Bankrottieren des Unternehmens bedienen kann. AI-Inferenz ist nicht mehr nur ein Laufzeit-Detail. Es ist das Produkt. Und es zu optimieren ist die nächste große ingenieurtechnische Herausforderung.












