Connect with us

Tankeledare

Varför datakvalitet avgör om företags AI lyckas eller misslyckas

mm

Sedan OpenAI lanserade ChatGPT i slutet av 2022 har varje företag kämpat för att gå fortare med AI. Stora hårdvarutillverkare som Nvidia säljer fler GPU:er än någonsin, medan stora modellbyggare som OpenAI och Anthropic fortsätter att bygga större och större modeller.

Men även med de mest avancerade modellerna och de största budgetarna misslyckas många AI-projekt fortfarande. Vi har sett att detta händer över hela branscher, från hälsovård till transport till finans och mer. Orsaken är inte svår att förstå: AI är bara så bra som de data den tränas på och de data den får i realtid. När dessa data är dåligt märkta, föråldrade eller ofullständiga kan ingen modell leverera konsekventa eller tillförlitliga resultat.

Och det är det stora problemet som många företag står inför idag. De investerar kraftigt i AI-verktyg, medan deras datasystem förblir utspridda och opålitliga. Resultatet är en illusion av framsteg. Medan modellerna producerar imponerande svar är insikterna ofta baserade på svaga grunder. Den verkliga barriären för AI-succes är inte modellprestationen. Det är datakvaliteten.

Vad bra data verkligen betyder

Högkvalitativa data handlar inte bara om exakthet. Det betyder information som är aktuell, fullständig och relevant för problemet i fråga. Tänk dig en kund som försöker avboka en order på en e-handelsplats. Systemet måste kontrollera orderns detaljer, leveransstatusen och betalningsposten. Om någon av dessa datapunkter finns i olika system som inte pratar med varandra kommer AI-assistenten att misslyckas med att ge ett användbart svar.

Bra data kopplar ihop dessa punkter omedelbart. Det tillåter AI att se en fullständig bild snarare än fragment av den. Dålig data, å andra sidan, tvingar modellen att gissa. Och när AI börjar gissa, gör den misstag som kostar pengar och skadar förtroendet. Nya exempel visar hur farliga sådana antaganden kan vara.

New York Citys AI-chattbot gav olagligt råd eftersom den drog från föråldrad eller ofullständig juridisk information. Air Canadas kundtjänstbot gjorde falska återbetalningsanspråk eftersom den saknade sammanhang från företagspolicyn. Även stora anställningssystem har felaktigt sorterat kandidater på grund av partisk eller felmärkt data, som visas i EEOCs första AI-relaterade avtal. Dessa misslyckanden är inte bara tekniska. De är ryktesskador och ekonomiska, och de härrör från AI-system som tränats på opålitliga data.

Branschstudier bekräftar omfattningen av detta problem. Gartner rapporterar att 80 procent av AI-projekt misslyckas med att skala på grund av dålig datakvalitet och styrning. På samma sätt fann en MIT Sloan Management Review undersökning att dataproblem, inte algoritmer, är den främsta anledningen till att företags AI-projekt kollapsar.

Kultur betyder lika mycket som kod

Att förbättra datakvaliteten är inte något som kan åtgärdas med ett enda verktyg eller kommando. Det kräver en kulturell förändring. Därför måste företagsledare behandla data som ett levande system som behöver omsorg och ansvar. Detta handlar inte bara om att förklara att man vill “göra data bättre” – det räcker inte. Varje del av organisationen måste förstå hur information flyttas, vem som äger den och vad som händer när den ändras.

Vi har sett hur detta fungerar i verkliga system. Många AI-applikationer är beroende av nattliga datauppdateringar. Om din databas uppdateras en gång om dagen kommer modellens kunskap alltid att ligga efter verkligheten. I snabbt föränderliga miljöer kan den här fördröjningen betyda föråldrade insikter och dåliga beslut. Företag måste omvärdera hela sin dataflöde, från hur information samlas in till hur den levereras till modellen.

Att göra detta väl kan spara enorm tid och kostnad. När datapipeliner är utformade med tydlighet och syfte kan AI-system lära sig och agera på den senaste och mest relevanta informationen. När de inte är det, tillbringar team mer tid med att rensa data än att använda dem.

Experter inom datahantering påpekar ofta att nyckeln till stark datakvalitet är en återkopplingsloop mellan människor, processer och plattformar. Utan den här loopen blir informationen föråldrad och modellerna förlorar kontakten med verkliga förhållanden – ett problem som ibland kallas data-drift.

Att balansera hastighet med integritet

Det finns ofta en spänning mellan att gå fort och att vara exakt. Många organisationer vill ha omedelbara resultat från sina AI-investeringar, men att skynda kan leda till större problem senare. Målet bör vara data-agilitet med integritet. Med andra ord, bygga system som kan flytta snabbt utan att förlora precision.

För att uppnå detta bör varje företag definiera tydliga vägar för data att flöda från källan till modellen i realtid. Det hjälper också att definiera vilken typ av information som är tillåten och vad som måste stanna utanför. Känslig eller privat data bör aldrig nå modellen, även om användaren tekniskt sett har tillgång till den. Att skydda den gränsen bygger förtroende och håller AI-system från att läcka eller missbruka information.

När AI blir mer autonom kommer mänsklig tillsyn att förbli kritisk. Modellen bör inte ha full kontroll över affärsbeslut. Den bör inte heller fatta beslut. Istället bör den göra förfrågningar. Mer viktigt är att människor alltid måste granska och godkänna dess åtgärder för att säkerställa att de överensstämmer med företagets policy och reglering.

Att bygga för kvalitet från grunden

Att upprätthålla datakvalitet i stor skala är inte bara en fråga om att rensa bort fel. Det börjar med arkitektur. Du behöver identifiera var din mest tillförlitliga data finns, sedan utforma ett system som samlar den i en enda pålitlig plats. Därifrån kan du spåra vilken data modellen använder och var den kommer ifrån.

Detta tillvägagångssätt förhindrar förvirring och håller systemet transparent. Det hjälper också team att felsöka snabbare när något går fel. När du vet exakt vilken data som gav modellens svar kan du verifiera och korrigera problem innan de sprids.

Framtiden för företags AI kommer att tillhöra företag som integrerar kvalitet i sin infrastruktur som standard. Vi förväntar oss att se fler plug-and-play AI-system som hanterar både resonemang och dataintegration i ett paket. Dessa “AI-appliancer” kan göra det enklare för organisationer att distribuera smarta system utan att förlora kontrollen över sina data.

Analytiker förutspår att organisationer som kan ena och styra sina data effektivt kommer att se snabbare antagande och högre avkastning från AI-projekt. En nylig rapport om data-beredskap förklarar att denna förmåga skiljer företag som innovativt kontinuerligt från de som stannar efter tidiga piloter. Skillnaden beror ofta på om deras AI-system är byggda på konsekventa, välstrukturerade uppgifter.

Slutsatsen

Datakvalitet kan inte låta så spännande jämfört med genombrott i modellutformning, men det är den tysta kraften som avgör om AI lyckas eller misslyckas. Utan ren, aktuell och konsekvent data kommer de smartaste systemen att snava. Med den kan även blygsamma AI-projekt skapa varaktigt värde.

Varje ledare som investerar i AI bör ställa en enkel fråga: Litar vi på de data som driver våra beslut? Utifrån vad vi har sett är de företag som kan svara “ja” med tillförsikt de som redan leder i AI-löpningen.

Oren Eini är grundare och VD för RavenDB, en multi-modell NoSQL-dokumentdatabas som litar på utvecklare och företag över hela världen. Utöver att vara den drivande kraften bakom tillväxten och expansionen av RavenDB-databasen, är Oren en flitig bloggare och talar regelbundet på branschevenemang runt om i världen.