Vernetzen Sie sich mit uns

Vordenker

Warum die Datenqualität über Erfolg oder Misserfolg von KI-Systemen in Unternehmen entscheidet

mm

Seit OpenAI Ende 2022 ChatGPT auf den Markt brachte, wetteifern alle Unternehmen darum, die KI-Entwicklung zu beschleunigen. Große Hardwarehersteller wie Nvidia verkaufen mehr GPUs als je zuvor, während große Modellentwickler wie OpenAI und Anthropic immer größere Modelle erstellen.

Doch selbst mit den fortschrittlichsten Modellen und größten Budgets scheitern viele KI-Projekte. Dies beobachten wir branchenübergreifend, vom Gesundheitswesen über den Transportsektor bis hin zum Finanzwesen und vielen weiteren Bereichen. Der Grund dafür liegt auf der Hand: KI ist nur so gut wie die Daten, mit denen sie trainiert wird und die sie in Echtzeit erhält. Sind diese Daten schlecht beschriftet, veraltet oder unvollständig, kann kein Modell konsistente oder verlässliche Ergebnisse liefern.

Und genau das ist das große Problem, mit dem viele Unternehmen heute konfrontiert sind. Sie investieren massiv in KI-Tools, während ihre Datensysteme weiterhin fragmentiert und unzuverlässig sind. Das Ergebnis ist eine Illusion von Fortschritt. Zwar liefern die Modelle beeindruckende Ergebnisse, doch die Erkenntnisse basieren oft auf schwachen Grundlagen. Die eigentliche Hürde für den Erfolg von KI ist nicht die Modellleistung, sondern die Datenqualität.

Was gute Daten wirklich bedeuten

Hochwertige Daten zeichnen sich nicht nur durch Genauigkeit aus. Sie umfassen aktuelle, vollständige und für das jeweilige Problem relevante Informationen. Stellen Sie sich einen Kunden vor, der eine Bestellung in einem Onlineshop stornieren möchte. Das System muss die Bestelldetails, den Versandstatus und den Zahlungsverlauf prüfen. Befinden sich diese Datenpunkte in unterschiedlichen Systemen, die nicht miteinander kommunizieren, kann der KI-Assistent keine hilfreiche Antwort geben.

Gute Daten verknüpfen diese Punkte sofort. Sie ermöglichen der KI, ein vollständiges Bild zu erhalten, anstatt nur Bruchstücke davon. Schlechte Daten hingegen zwingen das Modell zum Raten. Und wenn die KI anfängt zu raten, macht sie Fehler, die Geld kosten und das Vertrauen untergraben. Aktuelle Beispiele zeigen, wie gefährlich solche Annahmen sein können.

New Yorks Business-Chatbot Die Beratung war rechtswidrig, da sie auf veralteten oder unvollständigen Rechtsinformationen beruhte. Der Kundenservice-Bot von Air Canada Sie stellten falsche Rückerstattungsanträge, weil ihnen der Kontext der Unternehmensrichtlinien fehlte. Selbst große Einstellungssysteme haben Kandidaten aufgrund verzerrter oder falsch gekennzeichneter Daten fälschlicherweise aussortiert, wie man im folgenden Beispiel sehen konnte: EEOCs erste Einigung im Zusammenhang mit KIDiese Fehler sind nicht nur technischer Natur. Sie haben auch Auswirkungen auf den Ruf und die Finanzen und resultieren aus KI-Systemen, die mit unzuverlässigen Daten trainiert wurden.

Branchenstudien bestätigen das Ausmaß dieses Problems. Gartner berichtet, dass 80 Prozent der KI-Projekte scheitern Aufgrund mangelhafter Datenqualität und unzureichender Datenverwaltung ist eine Skalierung nicht möglich. Ähnliches gilt für eine Studie des MIT Sloan Management Review. Umfrage Die Autoren stellten fest, dass Datenprobleme und nicht Algorithmen der Hauptgrund für das Scheitern von KI-Projekten in Unternehmen sind.

Kultur ist genauso wichtig wie Code.

Die Verbesserung der Datenqualität lässt sich nicht mit einem einzigen Tool oder Befehl bewerkstelligen. Sie erfordert einen Kulturwandel. Deshalb müssen Führungskräfte Daten als lebendiges System behandeln, das Pflege und Verantwortlichkeit benötigt. Es reicht nicht aus, einfach nur zu erklären, man wolle „die Daten verbessern“. Jeder Bereich des Unternehmens muss verstehen, wie Informationen fließen, wem sie gehören und was passiert, wenn sie sich ändern.

Wir haben gesehen, wie sich das in realen Systemen auswirkt. Viele KI-Anwendungen sind auf nächtliche Datenaktualisierungen angewiesen. Wird Ihre Datenbank nur einmal täglich aktualisiert, hinkt das Wissen Ihres Modells der Realität stets hinterher. In schnelllebigen Umgebungen kann diese Verzögerung zu veralteten Erkenntnissen und Fehlentscheidungen führen. Unternehmen müssen ihren gesamten Datenfluss überdenken – von der Datenerfassung bis zur Bereitstellung der Daten für das Modell.

Eine gelungene Umsetzung kann enorm viel Zeit und Kosten sparen. Sind Datenpipelines klar und zielgerichtet gestaltet, können KI-Systeme die aktuellsten und relevantesten Informationen nutzen und darauf reagieren. Andernfalls verbringen Teams mehr Zeit mit der Datenbereinigung als mit der Datennutzung.

Als Experte im Datenmanagement Oft wird betont, dass der Schlüssel zu hoher Datenqualität in einem Feedback-Kreislauf zwischen Menschen, Prozessen und Plattformen liegt. Ohne diesen Kreislauf veralten Informationen und Modelle verlieren den Bezug zur Realität – ein Problem, das mitunter als Datendrift bezeichnet wird.

Geschwindigkeit und Integrität im Einklang

Oftmals besteht ein Spannungsverhältnis zwischen schnellem Handeln und Genauigkeit. Viele Unternehmen wünschen sich sofortige Ergebnisse ihrer KI-Investitionen, doch übereiltes Handeln kann später zu größeren Problemen führen. Ziel sollte Datenagilität bei gleichzeitiger Datenintegrität sein. Anders ausgedrückt: Systeme zu entwickeln, die schnell reagieren können, ohne an Präzision einzubüßen.

Bis dahin sollte jedes Unternehmen klare Wege für den Datenfluss von der Quelle zum Modell in Echtzeit definieren. Es ist außerdem hilfreich festzulegen, welche Informationen zugelassen und welche ausgeschlossen werden müssen. Sensible oder private Daten dürfen niemals in das Modell gelangen, selbst wenn der Nutzer technisch Zugriff darauf hat. Der Schutz dieser Grenze schafft Vertrauen und verhindert, dass KI-Systeme Informationen preisgeben oder missbrauchen.

Mit zunehmender Autonomie der KI bleibt die menschliche Aufsicht unerlässlich. Das Modell sollte keine vollständige Kontrolle über Geschäftsprozesse haben und keinesfalls selbstständig Entscheidungen treffen. Stattdessen sollte es Anfragen stellen. Noch wichtiger ist, dass Menschen seine Aktionen stets überprüfen und genehmigen müssen, um sicherzustellen, dass sie mit den Unternehmensrichtlinien und -vorschriften übereinstimmen.

Qualität von Grund auf bauen

Die Sicherstellung hoher Datenqualität im großen Maßstab beschränkt sich nicht allein auf die Fehlerbehebung. Sie beginnt mit der Architektur. Sie müssen herausfinden, wo Ihre zuverlässigsten Daten gespeichert sind, und anschließend ein System entwickeln, das diese an einem zentralen, vertrauenswürdigen Ort zusammenführt. Von dort aus können Sie nachverfolgen, welche Daten das Modell verwendet und woher sie stammen.

Dieser Ansatz beugt Verwirrung vor und sorgt für Transparenz im System. Er hilft Teams außerdem, Fehler schneller zu beheben. Wenn genau bekannt ist, welche Daten die Antwort des Modells beeinflusst haben, lassen sich Probleme erkennen und korrigieren, bevor sie sich ausbreiten.

Die Zukunft der KI in Unternehmen gehört Firmen, die Qualität standardmäßig in ihre Infrastruktur integrieren. Wir erwarten vermehrt sofort einsatzbereite KI-Systeme, die sowohl logisches Denken als auch Datenintegration in einem Paket vereinen. Diese „KI-Appliances“ könnten es Unternehmen erleichtern, intelligente Systeme einzuführen, ohne die Kontrolle über ihre Daten zu verlieren.

Analysten prognostizieren, dass Organisationen, die ihre Daten effektiv vereinheitlichen und verwalten können, eine schnellere Akzeptanz und einen höheren ROI von KI-Projekten erzielen werden. Bericht zur Datenbereitschaft erklärt, dass diese Fähigkeit Unternehmen, die kontinuierlich Innovationen vorantreiben, von solchen unterscheidet, die nach ersten Pilotprojekten stagnieren. Der Unterschied liegt oft darin, ob ihre KI-Systeme auf konsistenten und gut strukturierten Informationen basieren.

Fazit

Datenqualität mag im Vergleich zu bahnbrechenden Modellentwicklungen weniger aufregend klingen, doch sie ist die stille Kraft, die über Erfolg oder Misserfolg von KI entscheidet. Ohne saubere, aktuelle und konsistente Daten geraten selbst die intelligentesten Systeme ins Stocken. Mit ihr können selbst bescheidene KI-Projekte nachhaltigen Wert schaffen.

Jede Führungskraft, die in KI investiert, sollte sich eine einfache Frage stellen: Vertrauen wir den Daten, die unseren Entscheidungen zugrunde liegen? Nach unseren Beobachtungen sind die Unternehmen, die diese Frage mit gutem Gewissen mit „Ja“ beantworten können, bereits führend im KI-Wettlauf.

Oren Eini ist Gründer und CEO von RavenDBRavenDB ist eine Multi-Modell-NoSQL-Dokumentendatenbank, der Entwickler und Unternehmen weltweit vertrauen. Oren ist nicht nur die treibende Kraft hinter dem Wachstum und der Erweiterung der RavenDB-Datenbank, sondern auch ein begeisterter Blogger und regelmäßiger Redner auf Branchenveranstaltungen weltweit.