Vordenker

KI schreibt Code, aber kann Ihre Infrastruktur mithalten?

Veröffentlicht am 25. November 2025

Aktualisiert am 17. Mai 2026

Von

Michael Stahnke, VP of Engineering, Flox

Wir erleben eine der seltsamsten Umkehrungen in der Geschichte der Softwareentwicklung. Jahrzehntelang war das Ziel die Deterministik; das Erstellen von Systemen, die immer gleich reagieren. Jetzt legen wir probabilistische KI-Agents auf diese Grundlage, generieren Code in alarmierendem Umfang und Tempo. Und ehrlich gesagt? Die meisten unserer Infrastrukturen waren nicht für dies konzipiert.

Ich habe Jahre damit verbracht, an DevOps-Tools zu arbeiten, Forschung zu betreiben und Entwicklungsteams zu helfen, ihre höchste Leistung zu erreichen. Was ich jetzt mit KI-getriebener Entwicklung sehe, ist mehr als nur eine Evolution. Es deckt jeden Riss in unseren bestehenden Workflows auf.

Das Problem ist bereits hier

Eine 2025-GitClear-Studie fand heraus, dass fast 7% der Commits jetzt AI-generierten Code enthalten. Ihre frühere Analyse von 153 Millionen geänderten Codezeilen ergab die Kosten: “Code-Churn” – Code, der innerhalb von zwei Wochen neu geschrieben oder gelöscht wird – verdoppelte sich bis 2024 im Vergleich zu den Vorgaben vor der KI.

Die Sicherheitsimplikationen sind ebenso dramatisch. Eine aktuelle Analyse von 80 kuratierten Codierungsaufgaben über mehr als 100 große Sprachmodelle ergab, dass AI-generierter Code in 45% der Fälle Sicherheitslücken einführt. Die realen Auswirkungen? Ein von fünf CISOs berichtet jetzt über große Vorfälle, die direkt durch AI-generierten Code verursacht wurden.

Die Gewinne an Geschwindigkeit sind real, aber auch die Stabilitätskosten.

Der Amplifikationseffekt

Eine Sache, die ich gelernt habe, ist, dass KI alles amplifiziert. Wenn Sie gute Praktiken haben, macht KI sie besser und schneller. Wenn Ihre Prozesse chaotisch sind, verschlimmert KI diesen Chaos auch. Dies spiegelt ein Muster wider, das Jahr für Jahr in den DORA-DevOps-Berichten erscheint: Weniger Variablen führen zu besseren Ergebnissen. Erfolgreiche Teams standardisieren auf weniger Betriebssysteme, weniger Programmiersprachen, weniger Vorgehensweisen. Sie reduzieren die Komplexität bewusst.

KI-Agents folgen dem gleichen Muster. Geben Sie ihnen eine konsistente Umgebung, in der Python die gleiche Version auf jedem Entwicklerrechner bedeutet, in der Abhängigkeiten gesperrt und verfolgt werden, und sie excellieren. Zwingen Sie sie, 17 verschiedene Konfigurationen zu navigieren, jede mit subtilen Unterschieden, und Sie verbrennen Token, um Umgebungsmerkmale zu klären, anstatt tatsächliche Probleme zu lösen.

Das Determinismus-Paradox

Dies schafft eine faszinierende Spannung. Jahrzehntelang verfolgte die Informatik die Deterministik als ultimales Ziel. Jetzt führen wir probabilistische Workloads, KI-Modelle, die buchstäblich nicht garantieren können, dass sie zweimal das gleiche Ergebnis liefern, auf Systemen aus, die für Vorhersehbarkeit konzipiert sind.

Meine Antwort? Halten Sie so viel des Stacks wie möglich deterministisch. Wenn Sie 80% Ihrer Infrastruktur auf einem deterministischen Level halten können, haben Ihre KI-Agents weniger Variablen zu verwalten. Sie verbringen nicht ihre Kontextfenster mit “Warum wurde diese Abhängigkeit nicht installiert?” oder “Lass mich diesen Build-Befehl noch einmal versuchen.” Sie konzentrieren sich auf die tatsächliche Arbeit, die Sie ihnen zu tun auftragen.

Denken Sie darüber nach: Wenn ein Agent versucht, etwas zu kompilieren und native Bindungen fehlschlagen, weil ImageMagick nicht installiert ist, ist das ein teures Umweg. Wenn Ihre Umgebung bereits alles enthält, was benötigt wird (Compiler, Bibliotheken, die vollständige Abhängigkeitsstruktur bis hin zu libc), funktioniert der Agent einfach. Kein Debugging, kein Trial-and-Error, einfach Fortschritt.

Spezifikation und Validierung sind Schlüssel

Was klar wird, ist, dass KI-getriebene Entwicklung uns zwingt, härter über zwei historisch unterbewertete Fähigkeiten nachzudenken: Spezifikation und Validierung. Sie müssen artikulieren, was Sie tatsächlich bauen, und Sie benötigen robuste Wege, um zu überprüfen, ob Sie es bekommen haben.

Ich habe etwas Interessantes bemerkt: Menschen mit Produktmanagement- oder Produktentwicklungs-Hintergrund sind oft erfolgreicher mit KI-Agents. Sie sind bereits darauf trainiert, in Bezug auf Anforderungen, Erfolgskriterien und Kompromisse zu denken. Sie sind es gewohnt, “Warum haben Sie diese Wahl getroffen?” zu fragen und basierend auf der Begründung anzupassen.

Validierung, das Wissen, ob die Sache tatsächlich korrekt ist, war immer das schwierigste Problem der Softwareentwicklung. QA wurde jahrzehntelang kriminell unterbewertet, und es ist der schwierigste Teil: zu bestimmen, ob die Software das tatsächliche Benutzerbedürfnis löst. KI löst dieses Problem nicht. Wenn überhaupt, macht es es noch kritischer, weil Sie jetzt probabilistische Ausgaben gegen deterministische Anforderungen validieren.

Vertrauen, aber überprüfen (und kontrollieren)

Es gibt eine Meinung, die ich beginne, zu akzeptieren: Wir sollten annehmen, dass Code, der von KI generiert wird, feindlich ist, bis das Gegenteil bewiesen ist. Nicht, weil KI böswillig ist, sondern weil wir einfach nicht wissen. Wir können nicht jeden Codezeile auditen, wenn Agents Tausende von Zeilen pro Tag generieren.

Dies bedeutet, dass Kontrollpunkte verschoben werden müssen. Wenn wir nicht alles während der Entwicklung kontrollieren können, benötigen wir stärkere Kontrollen während der Laufzeit. Operatoren, SREs, Plattformteams, wer auch immer für die Produktion verantwortlich ist, benötigen bessere Sichtbarkeit in das, was läuft, vollständige Abhängigkeitsverfolgung und klare Herkunft für jedes Artefakt.

Hier wird Reproduzierbarkeit essentiell. Wenn Sie mathematisch beweisen können, dass das Artefakt, das Sie lokal getestet haben, identisch mit dem ist, das in der Produktion läuft – gleiche Eingaben, gleiche Ausgaben, gleiche Abhängigkeitsstruktur -, können Sie beginnen, intelligente Entscheidungen zu treffen. Vielleicht müssen Sie keine Unit-Tests in der CI erneut ausführen, wenn Sie sie bereits lokal ausgeführt haben und nichts geändert wurde. Vielleicht können Sie Testabdeckung mit Codeänderungen verbinden und irrelevante Test-Suiten überspringen.

Was kommt als Nächstes

Wir stehen an einem Wendepunkt. Teams, die bereits gute Praktiken hatten, sehen massive Produktivitätsgewinne mit KI. Teams, die bereits kämpften, kämpfen jetzt schneller.

Die Infrastruktur, die KI-getriebene Entwicklung antreibt, muss von Grund auf für Reproduzierbarkeit konzipiert werden. Nicht nachträglich mit Scanning-Tools und Audits, sondern in die Art und Weise, wie Entwickler von Tag eins arbeiten, integriert. Wenn Ihre Entwicklungsumgebung auf Mac und Linux identisch ist, wenn jede Abhängigkeit verfolgt und gesperrt wird, wenn Sie vollständige Herkunft für jedes Artefakt haben, werden KI-Agents zu Multiplikatorern anstelle von Chaos-Generatoren.

Hier ist mein größter Rat für Teams, die im Zeitalter der KI erfolgreich sein wollen:

Standardisieren Sie skrupellos. Weniger Variablen korrelieren mit höherer Leistung. Sperren Sie Ihre Technologie-Stack, erzwingen Sie konsistente Umgebungen auf allen Plattformen und eliminieren Sie Konfigurations-Drift, bevor KI sie amplifiziert. Wenn Python-Versionen-Ungleichheiten jetzt Probleme verursachen, werden sie 10-mal mehr Probleme verursachen, wenn KI Code im großen Maßstab generiert.
Bauen Sie Validierung in Ihren Workflow ein, nicht am Ende. Mit KI, die Code schneller generiert, als Menschen ihn überprüfen können, können Sie sich nicht allein auf manuelle Code-Überprüfung verlassen. Implementieren Sie automatisierte Tests, die validieren, ob der Code nicht nur läuft, sondern auch die tatsächliche Anforderung löst. Machen Sie Ihre CI/CD-Pipeline zu Ihrem Sicherheitsnetz, mit starken Toren während der Laufzeit für Produktions-Deployments.
Investieren Sie in Reproduzierbarkeit als Infrastruktur. Behandeln Sie Umgebungs-Konsistenz als eine erste-Klasse-Infrastruktur-Bedenken. Wenn Sie mathematisch beweisen können, dass Ihre lokale Umgebung, CI-Umgebung und Produktionsumgebung identisch sind, eliminieren Sie eine ganze Klasse von “funktioniert auf meinem Rechner”-Problemen. Diese deterministische Grundlage ist es, was es Ihnen ermöglicht, probabilistische KI-Workloads sicher aufzuschichten.

Die Frage ist nicht, ob KI den größten Teil unseres Codes schreiben wird. Sie tut es bereits für viele Teams. Die Frage ist, ob unsere Infrastruktur mithalten kann.

Michael Stahnke, VP of Engineering, Flox

Michael Stahnke ist ein erfahrener Engineering-Executive, der in den letzten 15+ Jahren im Bereich Entwicklung und operativer Tooling tätig war, wo er auch Forschung betrieb und Co-Autor von Puppets State of DevOps Reports war.

Michael ist derzeit VP of Engineering bei Flox. Er war zuvor in leitenden Engineering-Positionen bei CircleCI und Puppet, wo er Engineering-Teams um das 5-fache oder mehr vergrößerte. Er hat Zeit damit verbracht, hochleistungsfähige Teams, Organisationen und Forschung zur Effektivität von Engineering sowie Hacking auf Packaging- und Release-Systeme zu bauen. Er spricht seit 2007 auf DevOps- und Automatisierungs-Veranstaltungen. Er gründete das Paket-Repository Extra Packages for Enterprise Linux (EPEL) und schrieb 2005 ein Buch über OpenSSH.

Unite.AI

KI schreibt Code, aber kann Ihre Infrastruktur mithalten?

Das Problem ist bereits hier

Der Amplifikationseffekt

Das Determinismus-Paradox

Spezifikation und Validierung sind Schlüssel

Vertrauen, aber überprüfen (und kontrollieren)

Was kommt als Nächstes

You may like