Tankeledere
Den høye kostnaden av dårlig data i AI-utvikling
Det er ingen hemmelighet at det pågår en moderne gullrush i AI-utvikling. Ifølge 2024 Work Trend Index av Microsoft og Linkedin, forventer over 40% av næringslivets ledere å gjennomføre en fullstendig omstrukturering av sine forretningsprosesser fra bunnen av ved hjelp av kunstig intelligens (AI) innen de neste få årene. Denne seismiske forandringen er ikke bare en teknologisk oppgradering; det er en grunnleggende transformasjon av hvordan bedrifter opererer, tar beslutninger og samhandler med kunder. Denne raske utviklingen driver en etterspørsel etter data og verktøy for første-parts datahåndtering. Ifølge Forrester, planlegger en overveldende 92% av teknologiledere å øke sine datahåndterings- og AI-budsjett i 2024.
I den siste McKinsey Global Survey on AI, indikerte 65% av respondentene at deres organisasjoner regelmessig bruker generative AI-teknologier. Mens denne tilpasningen markerer et betydelig sprang fremover, fremhever den også en kritisk utfordring: kvaliteten på dataene som mates inn i disse AI-systemene. I en bransje hvor effektiv AI bare er like god som dataene den er trenet på, blir pålitelige og nøyaktige data stadig vanskeligere å få tak i.
Den høye kostnaden av dårlig data
Dårlig data er ikke et nytt problem, men dens påvirkning er forsterket i AI-æraen. Tilbake i 2017 estimerte en studie ved Massachusetts Institute of Technology (MIT) at dårlig data kostet selskaper en forbløffende 15% til 25% av deres omsetning. I 2021, Gartner estimerte at dårlig data kostet organisasjoner i gjennomsnitt 12,9 millioner dollar per år.
Dårlig data—data som er ufullstendig, uriktig eller inkonsistent—kan ha en kaskadeffekt på AI-systemer. Når AI-modeller er trenet på dårlige data, er de resulterende innsiktene og forutsagnene grunnleggende feilaktige. Dette undergraver ikke bare effikheten av AI-applikasjonene, men utgjør også betydelige risikoer for bedrifter som avhenger av disse teknologiene for kritiske beslutninger.
Dette skaper en stor hodepine for bedriftens datavitenskapelige team som har måttet øke fokus på å rense og organisere data. I en nylig rapport om tilstanden i ingeniørvitenskap utført av DBT, 57% av datavitenskapsprofesjonelle nevnte dårlig datakvalitet som et dominerende problem i deres arbeid.
Konsekvensene for AI-modeller
Påvirkningen av dårlig data på AI-utvikling manifesterer seg på tre måter:
- Redusert nøyaktighet og pålitelighet: AI-modeller trives på mønster og korrelasjoner avledet fra data. Når inndataene er forurenset, produserer modellene upålitelige utdata; vidt kjent som “AI-hallusinasjoner.” Dette kan føre til feilaktige strategier, produktfeil og tap av kundetillit.
- Forsterket bias: Dårlig data inneholder ofte bias som, hvis de ikke kontrolleres, blir inntrent i AI-algoritmer. Dette kan resultere i diskriminerende praksiser, spesielt i sensitive områder som rekruttering, långiving og lovhåndheving. For eksempel, hvis et AI-rekrutteringsverktøy er trenet på fordomsfulle historiske rekrutteringsdata, kan det urettferdig favorisere visse demografiske grupper over andre.
- Økte driftskostnader: Feilaktige AI-systemer krever konstant justering og om-trening, noe som forbruker ekstra tid og ressurser. Selskaper kan finne seg i en evig syklus av feilretting i stedet for innovasjon og forbedring.
Den kommende datapokalypsen
“Vi nærmer oss raskt et “tipping point” – hvor ikke-menneskegenerert innhold vil overstige mengden av menneskegenerert innhold. Fremgangen i AI selv gir nye verktøy for datarensing og validering. Likevel er den renne mengden AI-generert innhold på nettet voksende eksponentielt.
Ettersom mer AI-generert innhold publiseres på nettet, og dette innholdet er generert av LLM’er trenet på AI-generert innhold, ser vi mot en fremtid hvor første-parts og pålitelig data blir truet og verdifulle varer.
Utfordringene med datautspredning
Spredningen av AI-generert innhold skaper flere store industrikjempers:
- Kvalitetskontroll: Å skille mellom menneskegenerert og AI-generert data blir stadig vanskeligere, noe som gjør det hardest å sikre kvaliteten og påliteligheten av data brukt til å trene AI-modeller.
- Intellektuell eiendomsrett: Når AI-modeller uforvarende skraper og lærer av AI-generert innhold, oppstår spørsmål om eierskap og rettigheter forbundet med dataene, noe som potensielt kan føre til juridiske komplikasjoner.
- Etiske implikasjoner: Mangel på åpenhet om dataens opphav kan føre til etiske problemer, som spredning av desinformasjon eller forsterkning av fordommer.
Data-as-a-Service blir grunnleggende
Større og større Data-as-a-Service (DaaS)-løsninger søkes etter for å supplere og forbedre første-parts data for treningsformål. Den sanne verdien av DaaS er dataene selv som er normalisert, rensket og evaluert for varierende troverdighet og kommersiell bruksmulighet, samt standardisering av prosessene for å passe systemet som fordøyer dataene. Ettersom denne industrien modnes, forventer jeg at vi kommer til å se denne standardiseringen over hele dataindustrien. Vi ser allerede denne pressen for enhetlighet innen detaljhandelsmedie-sektoren.
Ettersom AI fortsetter å trenge inn i ulike industrier, vil betydningen av datakvalitet bare øke. Selskaper som prioriterer ren data vil få en konkurransefordel, mens de som neglisjerer det, vil raskt falle bakover.
Den høye kostnaden av dårlig data i AI-utvikling er et presserende problem som ikke kan ignoreres. Dårlig datakvalitet undergraver fundamentet for AI-systemer, noe som fører til feilaktige innsikter, økte kostnader og potensielle etiske fallgruber. Ved å adoptere omfattende datahåndteringsstrategier og fremme en kultur som setter pris på dataintegritet, kan organisasjoner mildne disse risikoene.
I en æra hvor data er det nye oljen, er det ikke bare en teknisk nødvendighet, men en strategisk imperativ å sikre dens renhet. Bedrifter som investerer i ren data i dag, vil være de som leder innovasjonsfronten i morgen.












