Connect with us

Warum Enterprise-KI nach der Bereitstellung fehlschlägt – und was dagegen getan werden kann

Vordenker

Warum Enterprise-KI nach der Bereitstellung fehlschlägt – und was dagegen getan werden kann

mm

Warnung: Das Problem liegt nicht im Modell

Im Jahr 2023 startete New York City den MyCity-Chatbot, um Unternehmen bei der Navigation durch komplexe Vorschriften zu helfen. Die Idee war einfach: Rechtsinformationen leichter zugänglich machen.

In der Praxis produzierte das System Antworten, die nicht nur falsch, sondern auch rechtlich irreführend waren – von Trinkgeldern bis hin zu Wohnungsdiskriminierung und Zahlungsgesetzen.

Ein späterer Audit ergab, dass 71,4% der Nutzerfeedbacks negativ waren. Anstatt die zugrunde liegenden Probleme zu beheben, wurde die Reaktion, Warnhinweise hinzuzufügen. Der Chatbot blieb sogar über zwei Jahre lang in der “Beta”-Phase, bevor er abgeschaltet wurde.

Das Versagen war nicht technischer Natur. Das System brach in der Produktion zusammen, weil es keine Mechanismen gab, um die Genauigkeit zu gewährleisten, keine klare Verantwortung und keine Möglichkeit, einzugreifen, wenn etwas schiefging.

Das ist das Muster hinter der Enterprise-KI von heute: Die Technologie funktioniert, aber die Organisationen sind nicht darauf vorbereitet, sie zuverlässig zu betreiben, sobald sie live ist.

Vom Piloten zur Produktion: Wo alles auseinanderfällt

Der Aufbau eines Piloten ist relativ einfach – man wählt einen Anwendungsfall, wählt ein Modell, bereitet Daten vor und findet einen Sponsor. Das Betreiben eines Systems in der Produktion ist jedoch eine ganz andere Liga.

Die Lücke ist wie der Unterschied zwischen dem Sprung in einen Pool und dem Sprung aus der Stratosphäre, wie Felix Baumgartner es 2012 getan hat. Dieselbe grundlegende Physik, völlig unterschiedliche Bedingungen – und sehr unterschiedliche Konsequenzen im Falle eines Versagens.

In der Produktion wird die KI in reale Entscheidungsflüsse einbezogen, interagiert mit Kunden und hat rechtliche und betriebliche Konsequenzen. Dort beginnen die Lücken zu erscheinen – nicht im Modell, sondern in der Art und Weise, wie es regiert wird.

Europa macht dies sichtbarer als die meisten Regionen. Vorschriften wie die EU-KI-Verordnung, die DSGVO und die NIS2-Richtlinie verlangsamen die Einführung nicht – sie zeigen an, ob Organisationen in der Lage sind, KI-Systeme unter realen Einschränkungen zu betreiben.

Im Jahr 2025 nutzten bereits 55% der großen EU-Unternehmen KI. Die Einführung erfolgt bereits im großen Maßstab. Die Herausforderung besteht darin, was nach der Bereitstellung passiert.

Zu diesem Zeitpunkt tauchen grundlegende betriebliche Fragen auf. Und oft kann niemand sie beantworten: Wer ist für die KI-Ausgaben und autonomen Entscheidungen verantwortlich? Was passiert, wenn das System auf unerwartete Weise funktioniert? Und wer wird es vor dem Medienrummel stoppen?

Die Haftung liegt bei dem Unternehmen, nicht bei der Technologie. Air Canadas Chatbot gab einem Kunden falsche Informationen über Beerdigungstarife. Der Kunde vertraute darauf und wurde später nicht erstattet. Ein Schiedsgericht entschied, dass die Fluggesellschaft verantwortlich war – der Chatbot war keine separate Einheit.

Dasselbe Problem, ein anderer Winkel: McDonalds McHire-System gab sensible Daten von fast 64.000 Bewerbern preis. Die Ursache war kein komplexer Angriff – der Admin-Login verwendete “admin” und “123456”. Das System sah fortschrittlich aus. Das Versagen war jedoch elementar.

Wenn man die Regierungsführung auf ein live-System aufsetzt, ist es bereits zu spät. Die Bereitstellung eines Systems ist eine technische Entscheidung. Es zuverlässig zu betreiben, ist eine organisatorische Entscheidung. Und das ist der Teil, den die meisten Unternehmen unterschätzen.

Wer trägt tatsächlich das Risiko der KI? Niemand.

Dies ist das Kernproblem und paradoxerweise das am wenigsten diskutierte. IT verwaltet die Infrastruktur. Rechtliche Abteilungen befassen sich mit der Einhaltung von Vorschriften. Geschäftsteams fördern Anwendungsfälle. Aber niemand trägt die Gesamtrisiken der KI.

Dadurch entstehen zwei unmittelbare Probleme. Die “Go”-Entscheidung verzögert sich – weil niemand die Verantwortung übernehmen möchte. Und die “Stop”-Entscheidung verzögert sich ebenso – weil niemand weiß, wer es kann.

Die Daten spiegeln dies wider. Weniger als 10% der KI-Anwendungsfälle schaffen es von der Pilotphase in die Produktion, und die meisten Organisationen kämpfen darum, messbare Geschäftsergebnisse zu erzielen. Gleichzeitig setzen viele bereits KI ein – aber laut einer Umfrage zur Reifegradentwicklung der Governance hatten nur 7% eine gut strukturierte und konsistent angewendete Governance.

Warum passiert dies so konsequent? Weil die meisten Rahmenbedingungen und Unternehmensrichtlinien definieren, was passieren sollte – nicht, wer verantwortlich ist, wenn es wichtig wird. Wenn ein System beginnt, falsche Ausgaben zu produzieren, ist die Frage nicht theoretisch. Wer handelt? Und wer hat die Autorität, zu entscheiden?

Dies wird mit der Skalierung nur schlimmer. Ein System kann informell gemanagt werden. Wenn man jedoch dreißig Systeme hat, fragmentiert sich die Verantwortung über Teams, und niemand hat das gesamte Bild.

Die Commonwealth Bank of Australia liefert ein deutliches Beispiel. Die Bank ersetzte 45 Kundenberater durch KI-Stimmenbots, in der Erwartung, dass die Nachfrage sinken würde. Sie stieg jedoch. Die Manager mussten den Überlauf bewältigen, und die Bank musste alle 45 Mitarbeiter wieder einstellen. Als sie herausgefordert wurde, konnte sie nicht nachweisen, dass die Automatisierung die Arbeitsbelastung reduziert hatte.

Niemand hatte die Annahmen vor der Bereitstellung validiert. Niemand war für das Ergebnis verantwortlich, als diese Annahmen fehl schlugen. Das ist, was ein Vakuum der Verantwortung in der Praxis aussieht.

Regeln allein reichen nicht. Man braucht einen Mechanismus

Die meisten Organisationen haben keine Richtlinien. Sie haben Systeme, die funktionieren, wenn etwas schiefgeht.

Eine Richtlinie definiert, was passieren sollte. Ein Mechanismus bestimmt, was tatsächlich passiert – wenn ein Modell falsche Ausgaben produziert, wenn ein Anbieter etwas im Hintergrund ändert oder wenn ein System auf unerwartete Weise funktioniert.

Dieser Unterschied wird in der Produktion sichtbar – wenn Entscheidungen unter realen Bedingungen getroffen werden müssen.

Diese Fehler folgen einer konsistenten Dynamik. In jedem Fall erscheinen dieselben betrieblichen Lücken – nur in unterschiedlichen Formen.

Die Verantwortung kommt zuerst

Jedes bereitgestellte KI-System benötigt einen klar verantwortlichen Besitzer – eine Person, nicht ein Team oder eine Abteilung, mit der Autorität, es zu genehmigen, zu pausieren und abzuschalten.

Ohne dies ist weder eine schnelle Bereitstellung noch ein sicheres Eingreifen möglich. Wie im Beispiel der Commonwealth Bank zu sehen ist, führt das Fehlen einer klaren Verantwortung direkt zum betrieblichen Versagen.

Daten- und Rechtsklarheit fehlen oft

Viele Systeme gehen live, ohne dass Datenflüsse dokumentiert, eine rechtliche Grundlage verifiziert oder Klarheit über die Verpflichtungen besteht, die nach der Bereitstellung gelten.

Die Maßnahme des italienischen Regulators gegen DeepSeek im Jahr 2025 veranschaulicht dies deutlich. Das Problem lag nicht in der Modellqualität – es lag in der Unfähigkeit, zu erklären, wie personenbezogene Daten gehandhabt wurden. Das Ergebnis war eine plötzliche Unterbrechung des Dienstes für europäische Nutzer.

Tests spiegeln die reale Nutzung selten wider

Systeme werden oft auf Szenarien bewertet, bei denen sie gut funktionieren, aber nicht auf Fälle, bei denen ein Versagen am meisten zählen würde.

Der MyCity-Chatbot ist ein deutliches Beispiel. Grundlegende Randfälle – um Arbeitsrecht, Wohnungsdiskriminierung oder Zahlungsvorschriften – wurden vor der Bereitstellung nicht erfasst. Sobald sie realen Nutzern ausgesetzt waren, wurden diese Fehler sofort öffentlich.

Das Testen ist nicht nur eine Frage der Leistung – es geht darum, zu identifizieren, wo das System versagt, bevor Nutzer, Aufsichtsbehörden oder Journalisten es tun.

Das Eingreifen ist unklar oder zu langsam

Selbst wenn Probleme sichtbar sind, gibt es oft keinen klaren Auslöser oder keine Autorität, das System zu pausieren oder abzuschalten.

Zillow Offers demonstriert dies im großen Maßstab. Das System verwendete einen Algorithmus, um Häuser zu bewerten und zu kaufen. Als der Markt 2021 abkühlte, kaufte das System weiterhin zu überhöhten Preisen. Es gab keinen Mechanismus, um die Abweichung rechtzeitig zu erkennen, und keinen klaren Entscheidungspunkt, um es zu stoppen. Das Ergebnis waren Verluste von über 880 Millionen Dollar und die Schließung der gesamten Abteilung.

Überwachung ist nicht dasselbe wie Verantwortung

Überwachung wird oft auf Dashboards reduziert, aber das ist nicht das, was das Versagen verhindert.

Was zählt, ist die definierte Verantwortung: Wer verfolgt Signale, was löst eine Eskalation aus und wer wird erwartet, zu handeln?

Deloitte Australien zeigt, was passiert, wenn dies fehlt. Ein Regierungsbericht enthielt halluzinierte Zitate und falsche Rechtsverweise, weil niemand explizit für die Überprüfung der Ausgaben vor der Lieferung verantwortlich war. Das Ergebnis war eine teilweise Rückerstattung und ein Reputationsschaden.

Agente KI: Was kommt, wird noch schwieriger

Generative KI produziert Ausgaben. Agente KI trifft Entscheidungen. Das ändert das Risiko vollständig.

Anstatt einer einzelnen Antwort zu bewerten, kann ein Befehl eine Kette von Entscheidungen über Systeme hinweg auslösen – API-Aufrufe, Datenzugriff, Transaktionen, Aktualisierungen – oft ohne menschliche Intervention an jedem Schritt.

Wenn etwas schiefgeht, ist das Problem nicht mehr die Genauigkeit. Es ist die Rückverfolgbarkeit. Welcher Schritt hat das Problem verursacht? Welche Daten wurden verwendet? Wer hat die Aktion genehmigt? In vielen Fällen sind diese Fragen schwer zu beantworten, nachdem es passiert ist.

Dort werden die bestehenden Lücken kritisch. Unklare Verantwortung, schwache Überwachung und mangelndes Eingreifen persistieren nicht nur – sie verschlimmern sich. Eine fehlerhafte Antwort kann korrigiert werden. Eine fehlerhafte Aktion kann Konsequenzen haben, bevor jemand es bemerkt.

Frühe Signale deuten bereits in diese Richtung. Gartner schätzt, dass mehr als 40% der agentenbasierten KI-Projekte bis 2027 abgesagt werden – nicht wegen der Modellbegrenzungen, sondern weil Organisationen Schwierigkeiten haben, Kosten, Risiken und Ergebnisse zu kontrollieren. Das ist dasselbe Muster, das wir bei generativer KI nach der Bereitstellung sehen. Nur mit höheren Einsätzen.

Die Aufsichtsbehörden reagieren bereits mit einem einfachen Prinzip: Automatisierung nimmt nicht die Verantwortung. Für Organisationen bedeutet dies: Wenn die Verantwortung und Kontrolle heute unklar sind, wird das Skalieren in agentenbasierte Systeme das Problem nicht lösen. Es wird es verschlimmern.

Betreiben Sie es – oder verlieren Sie es

KI ist nicht länger der Engpass. Modelle sind weit verbreitet, leistungsfähig und zunehmend kommodifiziert. Der wahre Differenzierer ist nicht, ob eine Organisation KI aufbauen kann – sondern ob sie es zuverlässig betreiben kann, sobald es live ist.

Dort liegen die meisten Fehler – in der Art und Weise, wie Systeme betrieben werden, nicht in der Art und Weise, wie sie aufgebaut werden. Die Organisationen, die erfolgreich sind, werden nicht diejenigen mit den fortschrittlichsten Modellen sein. Sie werden diejenigen mit den klarsten betrieblichen Strukturen um sie herum sein.

Dies kann direkt getestet werden. Nehmen Sie Ihr wichtigstes KI-System und beantworten Sie drei Fragen:

  • Wer kann es abschalten?
  • Wie wissen Sie, wenn es fehlschlägt?
  • Was passiert, wenn es fehlschlägt?

Wenn diese Antworten unklar sind, ist das System nicht bereit für die Produktion.

Das Modell könnte es sein. Die Organisation ist es nicht.

Zuzana Drotárová leitet die Geschäftsanalyse bei Avenga, wobei sie etwa 100 Analysten in Unternehmensprogrammen in Tschechien und der Slowakei beaufsichtigt. Sie konzentriert sich auf die operativen und entscheidungsrelevanten Strukturen, die bestimmen, ob Unternehmensinitiativen, einschließlich KI, in der Produktion funktionieren.