Connect with us

Proč kvalita dat rozhoduje o tom, zda podniková AI uspěje nebo selže

Myslitelé

Proč kvalita dat rozhoduje o tom, zda podniková AI uspěje nebo selže

mm

Od té doby, co OpenAI představil ChatGPT na konci roku 2022, se každé společnosti snaží urychlit tempo s AI. Velké hráči v oblasti hardwaru, jako je Nvidia, prodávají více GPU než kdykoli předtím, zatímco velké modelové stavitele, jako OpenAI a Anthropic, pokračují ve vývoji stále větších modelů.

Přesto, i s nejmodernějšími modely a největšími rozpočty, mnoho projektů AI stále selhává. Viděli jsme, jak k tomu dochází napříč odvětvími, od zdravotnictví po dopravu, finance a další. Důvod není příliš složitý: AI je tak dobrá, jako jsou data, na kterých byla vyškolena, a data, která dostává v reálném čase. Když tato data jsou špatně označena, zastaralá nebo neúplná, žádný model nemůže poskytnout konzistentní nebo důvěryhodné výsledky.

A to je velký problém, se kterým se mnoho společností dnes potýká. Investují大量ně do nástrojů AI, zatímco jejich datové systémy zůstávají rozptýlené a nespolehlivé. Výsledkem je iluze pokroku. Zatímco modely produkují působivé odpovědi, informace jsou často založeny na slabých základech. Skutečnou překážkou úspěchu AI není výkon modelu. Je to kvalita dat.

Co realmente znamená dobrá data

Dobrá data nejsou jen o přesnosti. To znamená informace, které jsou aktuální, kompletní a relevantní pro daný problém. Představte si zákazníka, který se snaží zrušit objednávku na e-commerce webu. Systém musí zkontrolovat podrobnosti objednávky, stav dodání a platební záznam. Pokud některá z těchto datových bodů žijí v různých systémech, které spolu nemluví, AI asistent selže při poskytování užitečné odpovědi.

Dobrá data spojují tyto body okamžitě. Umožňují AI vidět úplný obraz místo fragmentů. Špatná data naopak nutí model hádat. A když AI začne hádat, dělá chyby, které stojí peníze a poškozují důvěru. Nedávné příklady ukazují, jak nebezpečné takové předpoklady mohou být.

New York City’s business chatbot poskytoval nelegální rady, protože čerpal z zastaralých nebo neúplných právních informací. Air Canada’s customer-service bot činil falešné refundační nároky, protože mu chyběl kontext z firemní politiky. I velké hiring systémy nesprávně filtrovaly kandidáty kvůli zaujatým nebo špatně označeným datům, jak je vidět v EEOC’s first AI-related settlement. Tyto selhání nejsou pouze technické. Jsou to reputační a finanční, a pocházejí z AI systémů, které byly vyškoleny na nespolehlivých datech.

Průmyslové studie potvrzují rozsah tohoto problému. Gartner uvádí, že 80 procent projektů AI selhává při škálování kvůli špatné kvalitě dat a řízení. Podobně průzkum MIT Sloan Management Review zjistil, že datové problémy, ne algoritmy, jsou nejčastějším důvodem, proč podnikové projekty AI selhávají.

Kultura má stejnou váhu jako kód

Zlepšení kvality dat není něco, co můžete opravit pomocí jednoho nástroje nebo příkazu. Vyžaduje kulturní posun. Proto musí lídři podniků pohlížet na data jako na živý systém, který potřebuje péči a odpovědnost. To není jen o tom, že prohlašujete, že „chcete data zlepšit“ – to nestačí. Každá část organizace musí rozumět, jak se informace pohybují, kdo je vlastní, a co se stane, když se změní.

Viděli jsme, jak se to projevuje v reálných systémech. Mnoho aplikací AI závisí na nočních aktualizacích dat. Pokud se vaše databáze obnovuje jednou denně, znalosti vašeho modelu budou vždy pozadu za realitou. V rychle se měnících prostředích může tento zpoždění znamenat zastaralé poznatky a špatná rozhodnutí. Společnosti musí přehodnotit celý svůj datový tok, od toho, jak se informace sbírají, až po to, jak se dodávají modelu.

Pokud se to udělá dobře, může to ušetřit enormní čas a náklady. Když jsou datové potrubí navrženy s jasností a účelem, AI systémy mohou se učit a jednat na základě nejaktuálnějších a nejrelevantnějších informací. Když tomu tak není, týmy tráví více času čištěním dat než jejich používáním.

Odborníci na řízení dat často poukazují na to, že klíčem k silné kvalitě dat je zpětná vazba mezi lidmi, procesy a platformami. Bez této zpětné vazby se informace stávají zastaralými a modely ztrácejí kontakt s realitou – problém, který se někdy nazývá datový drift.

Rovnováha mezi rychlostí a integritou

Často existuje napětí mezi rychlým pohybem a zachováním přesnosti. Mnoho organizací chce okamžitých výsledků ze svých investic do AI, ale spěchání může vést k větším problémům později. Cílem by mělo být datové agilita s integritou. Jinými slovy, budování systémů, které mohou pohybovat rychle bez ztráty přesnosti.

K tomuto bodu by měla každá společnost definovat jasnou cestu pro data, aby plynula ze zdroje k modelu v reálném čase. Také pomáhá definovat, jaký druh informací je povolen a co musí zůstat venku. Citlivá nebo soukromá data by nikdy neměla dosáhnout modelu, i když uživatel technicky má přístup k nim. Ochrana této hranice buduje důvěru a brání AI systémům v úniku nebo zneužití informací.

Jakmile se AI stane více autonomní, lidský dohled zůstane kritický. Model by neměl mít plnou kontrolu nad podnikovými akcemi. Určitě by také neměl dělat žádné rozhodnutí. Místo toho by měl dělat žádosti. Ještě důležitější je, že lidé musí vždy přezkoumat a schválit jeho akce, aby zajistili, že se shodují s firemní politikou a regulacemi.

Stavba kvality od základů

Udržování kvality dat v měřítku není jen otázkou čištění chyb. Začíná to architekturou. Musíte identifikovat, kde žijí vaše nejvěrohodnější data, a poté navrhnout systém, který je spojí na jednom důvěryhodném místě. Odtud můžete sledovat, která data model používá a odkud pocházejí.

Tento přístup brání zmatku a udržuje systém transparentní. Také pomáhá týmům rychleji řešit problémy, když něco goes wrong. Když víte přesně, která data nakrmila odpověď modelu, můžete ověřit a opravit problémy, než se rozšíří.

Budoucnost podnikové AI bude patřit společnostem, které vloží kvalitu do své infrastruktury výchozím způsobem. Očekáváme, že uvidíme více plug-and-play AI systémů, které zvládají jak rozumění, tak integraci dat v jednom balíčku. Tyto „AI spotřebiče“ by mohly usnadnit organizacím nasazení inteligentních systémů bez ztráty kontroly nad svými daty.

Analytici předpovídají, že organizace, které jsou schopny sjednotit a efektivně řídit svá data, uvidí rychlejší přijetí a vyšší ROI z projektů AI. Nedávná zpráva o datové připravenosti vysvětluje, že tato schopnost odděluje společnosti, které inovují neustále, od těch, které zastavují po počátečních pilotních projektech. Rozdíl často spočívá v tom, zda jsou jejich AI systémy postaveny na konzistentních, dobře strukturovaných informacích.

Závěrečné slovo

Kvalita dat může znít méně vzrušující ve srovnání s průlomovými objevy v návrhu modelu, ale je to tichá síla, která rozhoduje, zda AI uspěje nebo selže. Bez čistých, aktuálních a konzistentních dat budou nejchytřejší systémy stále selhávat. S nimi mohou i skromné projekty AI vytvářet trvalou hodnotu.

Každý lídr, který investuje do AI, by měl položit jednoduchou otázku: Důvěřujeme datům, která řídí naše rozhodnutí? Z toho, co jsme viděli, jsou společnosti, které mohou s jistotou odpovědět „ano“, ty, které již vedou v AI závodě.

Oren Eini je zakladatel a generální ředitel RavenDB, multi-modelové NoSQL dokumentové databáze, které důvěřují vývojáři a podniky po celém světě. Kromě toho, že je hnací silou za růstem a rozšířením databáze RavenDB, je Oren vášnivý blogger a pravidelně vystupuje na průmyslových akcích po celém světě.