Vordenker
Bedeutung der Datenqualität bei der Implementierung von KI

Künstliche Intelligenz und Machine-Learning-Technologien können Unternehmen aller Größen erheblich zugutekommen. Laut einem McKinsey Bericht werden Unternehmen, die künstliche Intelligenztechnologien einsetzen, ihren Cashflow bis 2030 verdoppeln. Umgekehrt werden Unternehmen, die keine KI einsetzen, einen Rückgang ihres Cashflows um 20% erleben. Diese Vorteile gehen jedoch über die Finanzen hinaus. KI kann Unternehmen bei der Bekämpfung von Arbeitskräftemangel helfen. KI verbessert auch erheblich die Kundenerfahrung und die Geschäftsergebnisse, was Unternehmen zuverlässiger macht.
Da KI so viele Vorteile hat, warum setzt nicht jeder KI ein? Im Jahr 2019 enthüllte eine PwC -Umfrage, dass 76% der Unternehmen planen, KI zu nutzen, um ihren Geschäftswert zu verbessern. Allerdings haben nur 15% Zugang zu hochwertigen Daten, um ihre Geschäftsziele zu erreichen. Eine weitere Studie von Refinitiv ergab, dass 66% der Befragten angaben, dass schlechte Datenqualität ihre Fähigkeit, KI effektiv einzusetzen, beeinträchtigt.
Die Umfrage ergab, dass die drei größten Herausforderungen bei der Arbeit mit Machine-Learning- und KI-Technologien darin bestehen, „genaue Informationen über den Umfang, die Geschichte und die Bevölkerung der Daten“, „die Identifizierung unvollständiger oder fehlerhafter Datensätze“ und „die Reinigung und Normalisierung der Daten“ zu erhalten. Dies zeigt, dass schlechte Datenqualität das Haupthindernis für Unternehmen ist, um hochwertige KI-gestützte Analysen zu erhalten.
Warum sind Daten so wichtig?
Es gibt viele Gründe, warum die Datenqualität bei der KI-Implementierung so wichtig ist. Hier sind einige der wichtigsten:
1. Müll rein, Müll raus
Es ist ziemlich einfach zu verstehen, dass die Ausgabe stark von der Eingabe abhängt. In diesem Fall, wenn die Datensätze voller Fehler oder verzerrt sind, wird das Ergebnis auch falsch sein. Die meisten datenbezogenen Probleme sind nicht unbedingt mit der Menge der Daten zusammenhängend, sondern mit der Qualität der Daten, die Sie in das KI-Modell einfüllen. Wenn Sie schlechte Daten haben, funktionieren Ihre KI-Modelle nicht ordnungsgemäß, egal wie gut sie sein mögen.
2. Nicht alle KI-Systeme sind gleich
Wenn wir an Datensätze denken, denken wir normalerweise in quantitativen Daten. Es gibt jedoch auch qualitative Daten in Form von Videos, persönlichen Interviews, Meinungen, Bildern usw. In KI-Systemen sind quantitative Datensätze strukturiert und qualitative Datensätze unstrukturiert. Nicht alle KI-Modelle können mit beiden Arten von Datensätzen umgehen. Daher ist es wichtig, den richtigen Datentyp für das geeignete Modell auszuwählen, um das erwartete Ergebnis zu erhalten.
3. Qualität vs. Menge
Es wird angenommen, dass KI-Systeme große Mengen an Daten benötigen, um daraus zu lernen. In einer Debatte über Qualität versus Menge wird normalerweise die letztere von Unternehmen bevorzugt. Wenn die Datensätze jedoch von hoher Qualität sind, aber kürzer, bietet dies eine Garantie, dass die Ausgabe relevant und robust ist.
4. Merkmale eines guten Datensatzes
Die Merkmale eines guten Datensatzes können subjektiv sein und hängen hauptsächlich von der Anwendung ab, die die KI unterstützt. Es gibt jedoch einige allgemeine Merkmale, die man bei der Analyse von Datensätzen suchen sollte:
- Vollständigkeit: Der Datensatz muss vollständig sein, ohne leere Felder oder Lücken in den Datensätzen. Jedes Feld sollte ein Datenstück enthalten.
- Umfang: Die Datensätze sollten so umfassend wie möglich sein. Wenn Sie beispielsweise nach einem Cyber-Bedrohungsvektor suchen, müssen Sie alle Signaturprofile und alle notwendigen Informationen haben.
- Konsistenz: Die Datensätze müssen den definierten Variablen entsprechen, denen sie zugewiesen wurden. Wenn Sie beispielsweise Pakete modellieren, müssen Ihre ausgewählten Variablen (Kunststoff, Papier, Karton usw.) die entsprechenden Preisdaten haben, um in diese definierten Kategorien zu passen.
- Genauigkeit: Genauigkeit ist der Schlüssel zu einem guten Datensatz. Alle Informationen, die Sie dem KI-Modell zuführen, müssen vertrauenswürdig und vollständig genau sein. Wenn große Teile Ihrer Datensätze falsch sind, wird die Ausgabe auch ungenau sein.
- Einzigartigkeit: Dieser Punkt ist ähnlich wie Konsistenz. Jeder Datenpunkt muss einzigartig für die Variable sein, der er dient. Beispielsweise möchten Sie nicht, dass der Preis einer Plastikfolie in eine andere Kategorie der Verpackung fällt.
Sicherstellung der Datenqualität
Es gibt viele Möglichkeiten, um sicherzustellen, dass die Datenqualität hoch ist, wie z. B. die Sicherstellung, dass die Datenquelle vertrauenswürdig ist. Hier sind einige der besten Techniken, um sicherzustellen, dass Sie die beste Datenqualität für Ihre KI-Modelle erhalten:
1. Datenprofilierung
Datenprofilierung ist unerlässlich, um die Daten vor ihrer Verwendung zu verstehen. Datenprofilierung bietet Einblicke in die Verteilung der Werte, die maximalen, minimalen, durchschnittlichen Werte und Ausreißer. Darüber hinaus hilft sie bei der Formatierung von Inkonsistenzen in den Daten. Datenprofilierung hilft, zu verstehen, ob der Datensatz verwendbar ist oder nicht.
2. Bewertung der Datenqualität
Mithilfe einer zentralen Bibliothek vordefinierter Datenqualitätsregeln können Sie jeden Datensatz mit einer zentralen Bibliothek validieren. Wenn Sie einen Datenkatalog mit integrierten Datenwerkzeugen haben, können Sie diese Regeln einfach wiederverwenden, um Kundenamen, E-Mails und Produktcodes zu validieren. Darüber hinaus können Sie auch einige Daten anreichern und standardisieren.
3. Überwachung und Bewertung der Datenqualität
Wissenschaftler haben die Datenqualität für die meisten Datensätze, die sie verwenden möchten, vorab berechnet. Sie können sie auf ein bestimmtes Problem hinweisen und dann entscheiden, ob sie dieses Attribut verwenden oder nicht.
4. Datenvorbereitung
Forscher und Wissenschaftler müssen die Daten normalerweise ein wenig anpassen, um sie für die KI-Modellierung vorzubereiten. Diese Forscher benötigen benutzerfreundliche Tools, um Attribute zu parsen, Spalten zu transponieren und Werte aus den Daten zu berechnen.
Die Welt der künstlichen Intelligenz ändert sich ständig. Während jedes Unternehmen Daten auf unterschiedliche Weise nutzt, bleibt die Datenqualität für jedes KI-Implementierungsprojekt von entscheidender Bedeutung. Wenn Sie vertrauenswürdige, hochwertige Daten haben, eliminieren Sie die Notwendigkeit für massive Datensätze und erhöhen Ihre Chancen auf Erfolg. Wie alle anderen Organisationen, wenn Ihre Organisation auf die KI-Implementierung umstellt, überprüfen Sie, ob Sie gute Datenqualität haben. Stellen Sie sicher, dass Ihre Quellen vertrauenswürdig sind und führen Sie die erforderliche Sorgfaltspflicht durch, um zu überprüfen, ob sie Ihren Datenanforderungen entsprechen.












