Künstliche Intelligenz
Warum AI-Inferenz, nicht Training, die nächste große Ingenieurherausforderung ist

Für das vergangene Jahrzehnt stand die künstliche Intelligenz im Rampenlicht, und die Durchbrüche kamen hauptsächlich durch massive Rechencluster, trillionen-Parameter-Modelle und die Milliarden von Dollar, die in die Lehre von Systemen investiert wurden, um “zu denken”. Wir haben die Entwicklung von künstlicher Intelligenz größtenteils als ein Bauprojekt behandelt: das Bauwerk der Intelligenz. Aber jetzt, da dieses Bauwerk errichtet wurde, ist die eigentliche Herausforderung, herauszufinden, wie man die Millionen von Menschen, die darin leben und arbeiten müssen, gleichzeitig bedienen kann. Dies verlagert den Fokus von AI-Forschern und Ingenieuren von Training (der Schaffung von Intelligenz) auf Inferenz (der Verwendung davon). Während Training ein massiver, einmaliger Kapitalaufwand (CapEx) ist, ist Inferenz ein laufender Betriebsaufwand (OpEx), der unendlich fortbesteht. Wenn Unternehmen Agenten einsetzen, die Millionen von Benutzern rund um die Uhr bedienen, entdecken sie eine harte Realität: Inferenz ist nicht nur “Training in umgekehrter Reihenfolge”. Es ist eine grundlegend andere und vielleicht schwierigere Ingenieurherausforderung.
Warum Inferenzkosten mehr als je zuvor zählen
Um die Ingenieurherausforderung zu verstehen, muss man zunächst die zugrunde liegende wirtschaftliche Notwendigkeit verstehen. In der Trainingsphase ist Ineffizienz tolerierbar. Wenn ein Trainingslauf vier Wochen statt drei dauert, ist es eine Unannehmlichkeit. Bei der Inferenz jedoch kann Ineffizienz für das Geschäft katastrophal sein. Zum Beispiel kann das Training eines frontier-Modells 100 Millionen Dollar kosten. Aber wenn man dieses Modell einsetzt, um 10 Millionen Anfragen pro Tag zu beantworten, kann dies die Kosten übersteigen, wenn es nicht optimiert wird. Deshalb erleben wir einen Marktwandel, bei dem Investitionen in Inferenz die Investitionen in Training übersteigen sollen.
Für Ingenieure verschiebt sich das Ziel. Wir optimieren nicht mehr für Durchsatz (wie schnell kann ich diese massive Datenmenge verarbeiten?). Wir optimieren für Latenz (wie schnell kann ich ein einzelnes Token zurückgeben?) und Konkurrenz (wie viele Benutzer kann ich auf einem GPU bedienen?). Der “Brute-Force”-Ansatz, der in der Trainingsphase durch das Hinzufügen von mehr Rechenleistung dominierte, funktioniert hier nicht. Man kann nicht einfach mehr H100s auf ein Latenzproblem werfen, wenn der Flaschenhals die Speicherbandbreite ist.
Die Speicherwand: Der wahre Flaschenhals
Die wenig bekannte Wahrheit über Large Language Model (LLM)-Inferenz ist, dass sie selten durch Rechenleistung begrenzt ist, sondern durch Speicher. Während der Trainingsphase verarbeiten wir Daten in großen Batches, um die Recheneinheiten der GPU voll auszulasten. Bei der Inferenz, insbesondere für Echtzeit-Anwendungen wie Chatbots oder Agenten, kommen Anfragen sequentiell herein. Jedes generierte Token erfordert, dass das Modell seine Milliarden von Parametern aus High-Bandwidth-Speicher (HBM) in die Recheneinheiten lädt. Dies ist die “Speicherwand“. Es ist wie ein Ferrari-Motor (der GPU-Kern), der in einem Verkehrsstau (der begrenzten Speicherbandbreite) steckt.
Diese Herausforderung zwingt Ingenieurteams, die Systemarchitektur bis hin zum Silizium-Level neu zu überdenken. Deshalb sehen wir den Aufstieg von Linear Processing Units (LPUs) wie denen von Groq und spezialisierten Neural Processing Units (NPUs). Diese Chips sind so konzipiert, dass sie den HBM-Flaschenhals umgehen, indem sie massive Mengen an On-Chip-SRAM verwenden und den Speicherzugriff als kontinuierlichen Datenfluss behandeln, anstatt als einfache Leseoperation. Für den Software-Ingenieur bedeutet dies das Ende der “CUDA-Standard”-Ära. Wir müssen nun Code schreiben, der hardware-bewusst ist und genau versteht, wie Daten durch das Kabel fließen.
Die neue Front der AI-Effizienz
Da wir die Hardware nicht immer ändern können, liegt die nächste Front der Ingenieurarbeit in der Software-Optimierung. Hier geschehen einige der innovativsten Durchbrüche. Wir erleben eine Renaissance von Techniken, die neu definieren, wie Computer neuronale Netze implementieren und ausführen.
- kontinuierliche Batch-Verarbeitung: Traditionelle Batch-Verarbeitung wartet darauf, dass ein “Bus” voll wird, bevor er abfährt, was Verzögerungen einführt. Kontinuierliche Batch-Verarbeitung (von Frameworks wie vLLM entwickelt) funktioniert wie ein U-Bahn-System, das es neuen Anfragen ermöglicht, dem GPU-Verarbeitungszug bei jedem Schritt beizutreten oder zu verlassen. Es maximiert den Durchsatz, ohne die Latenz zu opfern, und löst ein komplexes Scheduling-Problem, das tiefere OS-Ebene-Expertenwissen erfordert.
- Spekulative Dekodierung : Diese Technik verwendet ein kleines, schnelles und preisgünstiges Modell, um einen Entwurf einer Antwort zu erstellen, während ein größeres, langsameres und leistungsfähigeres Modell es parallel überprüft. Sie basiert auf der Tatsache, dass die Überprüfung von Texten viel weniger rechenintensiv ist als die Generierung.
- KV-Cache-Verwaltung : In langen Gesprächen wächst die “Historie” (der Key-Value-Cache) schnell und verbraucht große Mengen an GPU-Speicher. Ingenieure setzen nun “PagedAttention” um, eine Technik, die von der virtuellen Speicherverwaltung in Betriebssystemen inspiriert ist. Diese Technik teilt den Speicher in Fragmente und verwaltet ihn nicht-kontinuierlich.
Die Agente-Komplexität
Wenn Standard-Inferenz bereits schwierig ist, macht Agente-AI es exponentiell schwieriger. Ein Standard-Chatbot ist zustandslos: Benutzer fragt, AI antwortet, Prozess endet. Ein AI-Agent hingegen hat eine Schleife. Er plant, führt Werkzeuge aus, beobachtet Ergebnisse und iteriert. Aus ingenieurtechnischer Sicht ist dies ein Albtraum. Diese architektonische Verschiebung stellt mehrere grundlegende Herausforderungen dar:
- Zustandsverwaltung: Der Inferenz-Engine muss den “Zustand” des Agenten-Gedankenprozesses über mehrere Schritte hinweg aufrechterhalten, oft über Minuten hinweg.
- Unendliche Schleifen: Im Gegensatz zu einem vorhersehbaren Forward-Pass kann ein Agent in einer Denkschleife stecken bleiben. Die Entwicklung robuster “Wachhunde” und “Sicherungen” für probabilistischen Code ist ein völlig neues Feld.
- Variable Rechenleistung: Eine Benutzeranfrage kann einen einzelnen Inferenz-Aufruf auslösen, während eine andere 50 Aufrufe auslösen kann. Die Verwaltung der Last und die Automatisierung der Infrastruktur, wenn jede Anfrage eine so extreme Varianz mit sich bringt, erfordert eine völlig neue Klasse von Orchestrierungslogik.
Wir bewegen uns im Wesentlichen von “Modell-Diensten” zu “kognitiven Architekturen-Orchestrierung”.
AI auf alltägliche Geräte bringen
Schließlich werden die Grenzen von Energie und Netzwerk-Latenz die Inferenz zwangsläufig an den Rand bringen. Wir können nicht erwarten, dass jeder intelligente Lichtschalter, jedes autonome Fahrzeug oder jeder Fabrikroboter seine Anfragen durch ein Rechenzentrum leitet. Die ingenieurtechnische Herausforderung besteht hier in der Komprimierung. Wie kann man ein Modell, das aus dem gesamten Internet gelernt hat, auf einen Chip kleiner als ein Fingernagel passen, der auf einer Batterie läuft?
Techniken wie Quantifizierung (die Genauigkeit von 16 Bit auf 4 Bit oder sogar 1 Bit reduzieren) und Modell-Destillation (ein kleines Studenten-Modell lehrt, ein großes Lehrer-Modell nachzuahmen) werden zur Standardpraxis. Aber die eigentliche Herausforderung besteht darin, diese Modelle auf ein fragmentiertes Ökosystem von Milliarden von Geräten wie Android, iOS, eingebettetem Linux, benutzerdefinierten Sensoren zu verteilen, jedes mit seinen eigenen Hardware-Einschränkungen. Es ist der “Fragmentierungs-Albtraum” der mobilen Entwicklung, multipliziert mit der Komplexität von neuronalen Netzen.
Die Bottom Line
Wir betreten das “Tag 2”-Zeitalter der generativen KI. Tag 1 war es, zu demonstrieren, dass die KI Gedichte schreiben kann. Tag 2 ist es, die Ingenieurarbeit zu machen, um diese Fähigkeit zuverlässiger, erschwinglicher und allgegenwärtiger zu machen. Die Ingenieure, die das nächste Jahrzehnt definieren werden, sind nicht unbedingt diejenigen, die neue Modell-Architekturen erfinden. Sie sind die System-Ingenieure, die Kernel-Hacker und die Infrastruktur-Architekten, die herausfinden können, wie man eine Milliarde Token pro Sekunde bedienen kann, ohne das Stromnetz zu überlasten oder das Unternehmen zu ruinieren. AI-Inferenz ist nicht mehr nur ein Laufzeit-Detail. Es ist das Produkt. Und es zu optimieren ist die nächste große ingenieurtechnische Herausforderung.












