Myslitelé

Důležitost kvality dat při implementaci umělé inteligence

Published September 7, 2022

Updated April 5, 2026

Amy Groden-Morrison

Technologie umělé inteligence a strojového učení mohou významně prospět odvětvím všech velikostí. Podle zprávy McKinsey budou podniky, které využívají technologie umělé inteligence, mít do roku 2030 dvojnásobný peněžní tok. Naopak, společnosti, které nebudou využívat umělou inteligenci, budou svědky 20% snížení peněžního toku. Avšak takové výhody sahají za hranice financí. Umělá inteligence může pomoci společnostem bojovat proti nedostatkům pracovních sil. Umělá inteligence také významně zlepšuje zákaznickou zkušenost a obchodní výsledky, což dělá podniky spolehlivějšími.

Protože umělá inteligence má tolik výhod, proč ji tedy nikdo nevyužívá? V roce 2019 odhalila PwC průzkum, že 76 % společností plánuje využít umělou inteligenci ke zlepšení své obchodní hodnoty. Avšak pouze 15 % má přístup ke kvalitním datům, aby dosáhli svých obchodních cílů. Další studie od Refinitiv naznačila, že 66 % respondentů uvedlo, že špatná kvalita dat brání jejich schopnosti nasadit a přijmout umělou inteligenci účinně.

Průzkum zjistil, že tři největší výzvy při práci s technologiemi strojového učení a umělé inteligence se týkají – „přesných informací o pokrytí, historii a populaci dat“, „identifikace neúplných nebo poškozených záznamů“ a „čištění a normalizace dat“. To ukazuje, že špatná kvalita dat je hlavním překážkou pro podniky, aby získaly kvalitní analýzy založené na umělé inteligenci.

Proč jsou data tak důležitá?

Existuje mnoho důvodů, proč je kvalita dat důležitá při implementaci umělé inteligence. Zde jsou některé z nejvýznamnějších:

1. Špatná data vedou ke špatným výsledkům

Je poměrně jednoduché pochopit, že výstup závisí silně na vstupu. V tomto případě, pokud jsou datové sady plné chyb nebo zkreslené, výsledek bude také špatný. Většina problémů souvisejících s daty nejsou nutně o množství dat, ale o kvalitě dat, které zadáváte do modelu umělé inteligence. Pokud máte nízkokvalitní data, vaše modely umělé inteligence nebudou fungovat správně, bez ohledu na to, jak dobré mohou být.

2. Ne všechny systémy umělé inteligence jsou stejné

Když přemýšlíme o datech, obvykle přemýšlíme v termínech kvantitativních dat. Existují však také kvalitativní data ve formě videí, osobních rozhovorů, názorů, obrázků atd. V systémech umělé inteligence jsou kvantitativní datové sady strukturované a kvalitativní datové sady jsou nestrukturované. Ne všechny modely umělé inteligence mohou zpracovat obě typy dat. Proto je výběr správného typu dat pro vhodný model nezbytný pro získání očekávaného výstupu.

3. Kvalita vs. kvantita

Je obecně přijímané, že systémy umělé inteligence potřebují k učení velké množství dat. V debatě o kvalitě versus kvantitě je obvykle preferována kvantita společnostmi. Avšak pokud jsou datové sady kvalitní, i když kratší, poskytnou vám jistotu, že výstup je relevantní a robustní.

4. Charakteristiky kvalitní datové sady

Charakteristiky kvalitní datové sady mohou být subjektivní a závisí hlavně na aplikaci, kterou umělá inteligence slouží. Existují však některé obecné rysy, které je třeba hledat při analýze dat.

Úplnost: Datová sada musí být úplná, bez prázdných buněk nebo míst v datech. Každá buňka by měla mít kus dat.
Úplnost: Datové sady by měly být co nejúplnější. Například, pokud hledáte vektor kybernetické hrozby, musíte mít všechny signaturní profily a všechny nezbytné informace.
Konzistence: Datové sady musí odpovídat definovaným proměnným, kterým jsou přiřazeny. Například, pokud modelujete krabice, vaše vybrané proměnné (plast, papír, karton atd.) musí mít odpovídající cenová data, aby padly do těchto definovaných kategorií.
Přesnost: Přesnost je klíčem ke kvalitní datové sadě. Všechny informace, které zadáváte do modelu umělé inteligence, musí být důvěryhodné a zcela přesné. Pokud jsou velké části vašich dat nesprávné, vaše výstupní data budou také nesprávná.
Jedinečnost: Tento bod je podobný konzistenci. Každý datový bod musí být jedinečný pro proměnnou, kterou slouží. Například, nechcete, aby cena plastové obálky spadala do jiné kategorie balení.

Zajištění kvality dat

Existuje mnoho způsobů, jak zajistit, že kvalita dat je vysoká, jako je například zajištění, že zdroj dat je důvěryhodný. Zde jsou některé z nejlepších technik, aby jste získali kvalitní data pro vaše modely umělé inteligence:

1. Profilování dat

Profilování dat je nezbytné pro pochopení dat před jejich použitím. Profilování dat nabízí přehled o distribuci hodnot, maximálních, minimálních, průměrných hodnotách a odlehlých hodnotách. Kromě toho pomáhá v konzistenci formátování dat. Profilování dat pomáhá pochopit, zda je datová sada použitelná nebo ne.

2. Hodnocení kvality dat

Pomocí centrální knihovny předem vytvořených pravidel kvality dat můžete ověřit jakoukoli datovou sadu s centrální knihovnou. Pokud máte datový katalog s vestavěnými nástroji pro data, můžete jednoduše znovu použít tato pravidla pro ověření jmen zákazníků, e-mailů a kódů produktů. Kromě toho můžete také obohatit a standardizovat některá data.

3. Monitorování a hodnocení kvality dat

Vědci mají předem vypočítanou kvalitu dat pro většinu datových sad, které chtějí použít. Mohou ji zúžit, aby viděli, jaký konkrétní problém má atribut, a poté rozhodnout, zda použít tento atribut nebo ne.

4. Příprava dat

Vědci a výzkumníci obvykle potřebují upravit data trochu, aby je připravili pro modelování umělé inteligence. Tito výzkumníci potřebují snadno použitelné nástroje pro rozbor atributů, transponování sloupců a výpočet hodnot z dat.

Svět umělé inteligence se neustále mění. Zatímco každá společnost používá data jiným způsobem, kvalita dat zůstává zásadní pro jakýkoli projekt implementace umělé inteligence. Pokud máte spolehlivá, kvalitní data, eliminujete potřebu masivních datových sad a zvyšujete své šance na úspěch. Stejně jako všechny ostatní organizace, pokud vaše organizace přechází na implementaci umělé inteligence, zkontrolujte, zda máte kvalitní data. Zajistěte, aby vaše zdroje byly důvěryhodné, a proveďte due diligence, aby jste ověřili, zda odpovídají vašim požadavkům na data.

Unite.AI