Interviews

Nikunj Bajaj, Co-Founder und CEO von TrueFoundry – Interview-Serie

Published February 26, 2026

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nikunj Bajaj ist Co-Founder und CEO von TrueFoundry, wo er die Vision und Strategie des Unternehmens für den Bau von zuverlässigen, unternehmensweiten AI-Plattformen leitet. Mit Erfahrung im Skalieren von Technologieprodukten und -teams konzentriert er sich darauf, Organisationen zu ermöglichen, AI-Systeme sicher und effizient zu deployen und zu betreiben. Er schreibt über die Einführung von Unternehmens-AI, AI-Plattform-Strategie und aufkommende Trends in der Produktions-AI.

TrueFoundry ist eine Unternehmens-AI-Infrastrukturplattform, die Organisationen hilft, maschinelles Lernen und generative AI-Anwendungen auf Kubernetes-basierten Umgebungen aufzubauen, bereitzustellen, zu verwalten und zu skalen, egal ob in der Cloud, on-premises oder hybrid, mit starker Governance, Sicherheit und Kostenkontrolle. Sie kombiniert ein AI-Gateway, um den Zugriff auf Modelle, LLMs und Agent-Workflows zu zentralisieren, mit Tools für Modellfeinabstimmung, Deployment, Überwachung und Autoskalierung, um MLOps zu vereinfachen und die Zeit bis zum Wert für Data-Science- und Ingenieurteams zu beschleunigen. Der entwicklerorientierte, cloud-agnostic-Ansatz von TrueFoundry betont die Unternehmenskonformität und Flexibilität, ermöglicht es Teams, komplexe AI-Workloads ohne Vendor-Lock-in zu verwalten, während Standards wie SOC 2, HIPAA und ITAR durchgesetzt werden.

Sie haben an maschinellem Lernen, Produktions-AI bei Facebook und großen Empfehlungssystemen gearbeitet, bevor Sie TrueFoundry gegründet haben – welche Erfahrungen haben Sie direkt dazu gebracht, ein Unternehmen für Unternehmens-AI-Infrastruktur aufzubauen, und welchen Schmerz fühlten Sie, der zum damaligen Zeitpunkt nicht gelöst wurde?

Bei Meta betrachteten wir maschinelles Lernen als einen speziellen Fall von Software und GenAI als einen speziellen Fall von maschinellem Lernen, was zu einem vertikalen Stapel führte, bei dem Software am unteren Ende, maschinelles Lernen in der Mitte und GenAI am oberen Ende war. In diesem Setup ist es, wenn ich ein maschinelles Lernen-Entwickler bin, der Deploy-Prozess der Modelle, die ich baue, derselbe wie der Rest der Software, was das Skalieren von Systemen sehr einfach macht.

Die meisten Unternehmen setzen jedoch parallele Stacks ein, was bedeutet, dass sie separate Stacks für Software, maschinelles Lernen und GenAI haben. Im Moment, in dem Sie diese parallelen Stacks haben, wird das Skalieren komplexer, weil die Übergabe zwischen maschinellem Lernen und der Software-Welt erforderlich ist.

Unser Team hat immer an der Schnittstelle zwischen dem Aufbau von maschinellem Lernen-Modellen und maschinellem Lernen-Infrastruktur gearbeitet, also hatten wir eine einzigartige Perspektive, die wir ähnliche vertikale Stacks zu Unternehmen bringen und sie für ihre spezifischen Anforderungen anpassen konnten. Wir hatten auch eine Hypothese gegen Ende 2021, dass maschinelles Lernen einen Wendepunkt erreichen würde, und wenn es das täte, würden mehr Unternehmen einen vertikal integrierten Stapel benötigen, um diese Systeme effektiv zu deployen und zu skalen. Dies führte letztendlich dazu, dass wir TrueFoundry gründeten, und unsere Hypothese war richtig. Die AI-Einführung beschleunigte sich nach dem Launch von ChatGPT Ende 2022.

Wie AI-Systeme von Experimenten in den täglichen Betrieb übergehen, was hat sich geändert, wie Organisationen über Zuverlässigkeit und Ausfälle nachdenken sollten?

Die Einsätze bei Gen AI sind im Vergleich zu herkömmlichen maschinellem Lernen-Systemen deutlich höher. Wenn diese Systeme in die Produktion gehen, haben Organisationen es mit einer viel höheren Ambiguität und Nichtdeterminismus zu tun, weil LLMs von Natur aus stochastisch sind. Agente-Systeme, die auf ihnen aufbauen, fügen weitere Ambiguität hinzu.

Zusätzlich sind Ausfälle nicht mehr binär. Anstatt dass Systeme einfach ausfallen oder nicht ausfallen, treten viele Probleme als partielle Ausfälle oder stille Verschlechterungen auf. Systeme können mit höherer Latenz, verringerter Qualität oder falschem Verhalten über die Zeit reagieren. In vielen Fällen können diese Verschlechterungen schwerer zu erkennen sein und manchmal sogar schädlicher sein als ein harter Ausfall.

Organisationen müssen über Zuverlässigkeit nicht nur in Bezug auf die Betriebszeit, sondern auch auf Leistungsverschlechterungen im Laufe der Zeit nachdenken.

TrueFailover wurde während einer Welle von hohen Ausfällen von Cloud- und AI-Diensten gestartet. Welche jüngsten Ereignisse machten deutlich, dass die Zuverlässigkeit von AI von einem “nice to have” zu einer Kernarchitekturanforderung geworden ist?

Einer unserer Gesundheitskunden, der Echtzeit-Anfragen von Patienten im Zusammenhang mit Rezepten verarbeitet, war von einem Ausfall betroffen, der durch ein Modellversagen verursacht wurde. Ihre Workflows generieren Tausende von Dollar Umsatz pro Sekunde, und der Ausfall störte einige dieser kritischen Workflows. Als früher TrueFailover-Kunde konnten wir helfen, den Ausfall schnell zu beheben, und der Ausfall wurde eingedämmt.

Vorfälle wie dieser werfen eine wichtige Frage auf. Warum sind Wiederherstellungsprozesse immer noch größtenteils manuell, wenn die Einsätze von Gen-AI-Systemen weiter steigen? Dies bestärkte die Idee, dass Systeme so konzipiert werden sollten, dass sie von vornherein mit dem Ausfall rechnen und sich automatisch selbst korrigieren sollten. Zuverlässigkeit muss auch in den AI-Stack selbst durch den Einsatz von AI-Gateways integriert werden, die zentrales Routing, Überwachung, Schutz und intelligente Modellumschaltung zwischen Anbietern bieten können.

Viele AI-Ausfälle werden immer noch als technische Pannen dargestellt. Wo sehen Sie die realen wirtschaftlichen und menschlichen Kosten beginnen, wenn AI-Systeme ausfallen?

Unternehmens-AI hat sich so weit entwickelt, dass diese Pannen nicht mehr nur interne Workflows beeinträchtigen. Heute haben Ausfälle und Verschlechterungen direkte Auswirkungen auf die öffentliche Wahrnehmung und die Gewinne, da die Produktionsanwendungsfälle jetzt kundenorientiert sind. Diese Verlagerung von internem Testen zu hochriskanten, öffentlich zugänglichen Anwendungen ist der Grund, warum wir eine zunehmende Nachfrage nach Aufmerksamkeit und Aufsicht durch die Geschäftsleitung sehen.

Wenn AI-Systeme tiefer in die betrieblichen Workflows eingebettet werden, werden Ausfälle nicht mehr nur technische Probleme. Sie haben zunehmend direkte geschäftliche, kundenspezifische und reputationsbezogene Konsequenzen.

In mission-kritischen Umgebungen wie Apotheken, Gesundheitsbetrieben oder Kundensupport – wie schnell kann AI-Downtime in operatives oder reputationsbezogenes Risiko umschlagen?

In mission-kritischen Umgebungen tritt die Eskalation fast sofort ein, da diese Systeme Echtzeit-, zeitkritische Workflows unterstützen. Selbst eine kurze Unterbrechung kann kritische Prozesse stoppen, die Servicebereitstellung verzögern oder nachgelagerte Systeme stören, die von diesen Ausgaben abhängig sind, und so operative Effekte über das gesamte Unternehmen hinweg erzeugen.

In Branchen wie der Gesundheitsversorgung erstreckt sich der Einfluss über die operative Störung hinaus auf die Kundenerfahrung und die Serviceergebnisse. Wenn ein Patient seine Medikation nicht rechtzeitig einnehmen kann, kann dies reale Konsequenzen haben. Dies ist nicht nur ein Problem für den Patienten, sondern kann auch den Ruf einer Apotheke oder eines Gesundheitsdienstleisters schädigen. In mission-kritischen Umgebungen, in denen Vertrauen eine Rolle spielt, ist es von entscheidender Bedeutung, dass Systeme online bleiben. Deshalb erkennen Organisationen zunehmend, dass AI-Systeme so konzipiert werden müssen, dass sie mit dem Ausfall rechnen und Wiederherstellungsmechanismen automatisch aktivieren, um das Risiko zu minimieren.

Sie haben gesagt, dass viele Teams eher für Fähigkeiten als für Kontinuität architektieren. Warum denken Sie, dass Widerstandsfähigkeit historisch in der AI-Systementwicklung vernachlässigt wurde?

Dies liegt hauptsächlich an den Anreizen innerhalb von Organisationen. Neue Fähigkeiten sind sichtbar und aufregend. Sie ermöglichen Demos, Funktionen und Produktmöglichkeiten, die die Führungskräfte sofort sehen können.

Kontinuität ist per Definition unsichtbar, wenn alles gut funktioniert. Da dies der Fall ist, neigen Belohnungssysteme dazu, sich stärker auf die Bereitstellung neuer Funktionen zu konzentrieren als auf die Gewährleistung, dass nichts kaputt geht. Als Ergebnis investieren Organisationen oft unverhältnismäßig viel in die Entwicklung von Fähigkeiten und nicht in die Widerstandsfähigkeit.

Wenn Unternehmen zunehmend auf externe Modelle und APIs angewiesen sind, welche neuen Fragilitäten werden in den AI-Stack eingeführt, die Führungskräfte noch nicht vollständig zu schätzen wissen?

LLMs sind grundlegend gemeinsam genutzte Ressourcen, und Unternehmen besitzen sie nicht wie herkömmliche Infrastruktur. Darüber hinaus laufen wichtige geschäftskritische Systeme bei Unternehmen auf externen Systemen, die nicht vollständig zeitgetestet sind. LLMs selbst entwickeln sich schnell weiter, was bedeutet, dass ein Modellanbieter nicht für Dinge wie Latenz oder leichte Verschlechterung der Modellleistung verantwortlich gemacht werden kann, da sie ihre Forschung sehr schnell weiterentwickeln.

Da LLMs gemeinsam genutzte Ressourcen sind, kann die Latenz ansteigen, weil ein anderer Verbraucher dieser LLMs eine bestimmte Aktion ausführt. Es gibt viele dieser Fehlerpunkte, die durch die grundlegende Natur von LLMs eingeführt werden, und Unternehmen haben in dieser neuen Welt einfach keine vollständige Kontrolle. Ohne vollständige Kontrolle kann das Beste, was ein Unternehmen tun kann, darin bestehen, ausreichende Systemredundanzen zu schaffen, um ein widerstandsfähiges System zu entwerfen.

Ohne sich auf bestimmte Produkte zu konzentrieren, wie sollten Organisationen die AI-Architektur neu denken, um Ausfälle anzunehmen, anstatt Ausfälle als seltene Randfälle zu behandeln?

Organisationen sollten zu den Grundprinzipien des verteilten Systemdesigns zurückkehren. Software-Systeme wurden auf der Annahme aufgebaut, dass Netzkomponenten und Maschinen ausfallen und dass eine gesamte Region ausfallen kann.

AI-Systeme sollten nicht anders sein. Wir sollten annehmen, dass Modellanbieter Latenzprobleme, Verschlechterungen oder Ausfälle erleben, und Redundanz einbauen, damit Anwendungen über verschiedene Fehlerzenarien hinweg widerstandsfähig bleiben.

Erwarten Sie, dass AI-Widerstandsfähigkeit zu einem entscheidenden Faktor bei der Plattform- und Anbieterauswahl wird, ähnlich wie bei der Entscheidung über die Cloud-Infrastruktur, bei der Betriebszeit und Redundanz eine Rolle spielen?

Wenn mehr AI-Systeme in die Produktion gehen, wird Widerstandsfähigkeit zu einem Muss. Wenn ein Anbieter seine Grafiken und Metriken zu Betriebszeit und Gesamtwiderstandsfähigkeit nicht vorzeigen kann, wird er nicht einmal in Betracht gezogen. Sobald Widerstandsfähigkeit zu einer grundlegenden Erwartung bei Anbietern wird, werden die entscheidenden Faktoren zu Benutzererfahrung, Leistungsoptimierung, Überwachung und höheren Produktfunktionen wechseln. Im Laufe der Zeit werden Komponenten wie ein AI-Gateway und automatisierte Failover-Funktionen zu grundlegenden Elementen der Unternehmens-AI-Infrastruktur werden.

Wenn man in die Zukunft blickt, was bedeutet “produktionsreife” AI in einer Welt, in der AI kontinuierlich verfügbar und nicht nur gelegentlich nützlich sein soll?

Produktionsreife AI-Systeme sollten beobachtbar, steuerbar und wiederherstellbar sein. Alle drei dieser Punkte müssen erfüllt sein.

Damit Produktions-AI beobachtbar ist, benötigen Teams eine tiefe Einsicht in das Modellverhalten, Latenz, Fehlerquoten, Token-Nutzung, Drift und Ausfallmuster. Ohne starke Beobachtbarkeit wird es sehr schwierig, Verschlechterungen zu erkennen, bevor Benutzer beginnen, sie zu bemerken.

Damit Systeme steuerbar sind, umfasst dies Verkehrsformung, Rate-Limiting, Schutz, Richtlinien-Durchsetzung und intelligente Routing zwischen Modellen und Anbietern. Hier wird ein AI-Gateway grundlegend, indem es als zentrale Steuerungsebene fungiert, die Schutz, konsistente Governance und dynamisches Modellumschalten bei Leistungs- oder Zuverlässigkeitsabfall ermöglicht.

Und schließlich, wenn es um die Wiederherstellbarkeit geht, sollten Systeme so konzipiert werden, dass sie davon ausgehen, dass Komponenten teilweise oder vollständig defekt sein können, sei es aufgrund von Anbieterausfällen, verringerter Modellqualität, Rate-Limits oder unerwarteter Eingaben von bösartigen Akteuren. Automatisierte Failover- und Selbstheilungsmechanismen sollten der Architektur native sein, nicht manuelle Spielbücher, die nach einem Fehler ausgelöst werden.

Dies ist die Richtung, in die wir bei TrueFoundry arbeiten. Anbieter, die Produktionsreife auf diese Weise definieren, indem sie Beobachtbarkeit, zentrale Steuerung und automatische Wiederherstellung kombinieren, werden langfristiges Vertrauen der Kunden gewinnen und in der Lage sein, neue Probleme zu lösen, wenn sie auftreten.

Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten TrueFoundry besuchen.

Unite.AI

Nikunj Bajaj, Co-Founder und CEO von TrueFoundry – Interview-Serie

You may like