Tankeledere
Viktigheten av datakvalitet ved implementering av AI

Kunstig intelligens og maskinlæringsteknologier kan være svært nyttige for bedrifter av alle størrelser. Ifølge en McKinsey rapport, vil bedrifter som anvender kunstig intelligens-teknologier doble sin kontantstrøm innen 2030. Omvendt vil selskaper som ikke anvender AI være vitne til en 20% reduksjon i kontantstrømmen. Men slike fordeler går langt utenfor økonomi. AI kan hjelpe selskaper å bekjempe arbeidsmangel. AI forbedrer også kundens erfaring og forretningsresultater betydelig, og gjør bedriftene mer pålitelige.
Siden AI har så mange fordeler, hvorfor ikke alle tar i bruk AI? I 2019 avslørte en PwC undersøkelse at 76% av bedriftene planla å bruke AI til å forbedre sin forretningsverdi. Men bare 15% hadde tilgang til høykvalitetsdata for å oppnå sine forretningsmål. En annen studie fra Refinitiv viste at 66% av respondentene sa at dårlig kvalitet på data hindrer deres evne til å distribuere og anvende AI effektivt.
Undersøkelsen fant at de tre største utfordringene ved å arbeide med maskinlæring og AI-teknologier dreier seg om – “nøyaktig informasjon om dekning, historikk og befolkning av data”, “identifisering av ufullstendige eller korrupte poster” og “rensing og normalisering av data”. Dette demonstrerer at dårlig kvalitet på data er den største hindringen for bedrifter for å få høykvalitets AI-drevne analyser.
Hvorfor er data så viktig?
Det finnes mange grunner til at datakvalitet er avgjørende ved AI-implementering. Her er noen av de viktigste:
1. Avfall inn og avfall ut
Det er ganske enkelt å forstå at utgangspunktet avhenger tungt av inngangspunktet. I dette tilfelle, hvis datasettene er fulle av feil eller skjeve, vil resultatet også sette deg på feil fot. De fleste datarelaterte problemer er ikke nødvendigvis om mengden av data, men kvaliteten på dataene du matet inn i AI-modellen. Hvis du har lavkvalitetsdata, vil dine AI-modeller ikke fungere ordentlig, uansett hvor gode de måtte være.
2. Ikke alle AI-systemer er like
Når vi tenker på datasett, tenker vi vanligvis i termer av kvantitative data. Men det finnes også kvalitative data i form av videoer, personlige intervjuer, meninger, bilder osv. I AI-systemer er kvantitative datasett strukturerte og kvalitative datasett ustukturerte. Ikke alle AI-modeller kan håndtere begge typer datasett. Så, valg av riktig datatyp for passende modell er essensielt for å få det forventede utgangspunktet.
3. Kvalitet vs. kvantitet
Det troes at AI-systemer må innta mye data for å lære av det. I en debatt om kvalitet versus kvantitet, foretrekkes sistnevnte vanligvis av bedrifter. Men hvis datasettene er av høy kvalitet, men kortere i natur, vil det gi deg en viss garanti for at utgangspunktet er relevant og robust.
4. Egenskaper ved et godt datasett
Egenskapene ved et godt datasett kan være subjektive og avhenge hovedsakelig av applikasjonen som AI tjener. Men det finnes noen generelle egenskaper som en må se etter når man analyserer datasett.
- Fullstendighet: Datasettet må være fullstendig med ingen tomme ruter eller hull i datasettene. Hver celle må ha en dataenhet i den.
- Omfang: Datasettene må være så omfattende som mulig. For eksempel, hvis du søker etter en cybertrusselvektor, må du ha alle signaturprofiler og all nødvendig informasjon.
- Konsistens: Datasettene må passe under de bestemte variablene de er tildelt. For eksempel, hvis du modellerer pakkebokser, må dine valgte variabler (plast, papir, kartong osv.) ha passende prisinformasjon for å falle inn under disse bestemte kategoriene.
- Nøyaktighet: Nøyaktighet er nøkkel til et godt datasett. All informasjon du matet inn i AI-modellen må være pålitelig og fullstendig nøyaktig. Hvis store deler av dine datasett er feil, vil utgangspunktet være uakkurat også.
- Unikhet: Dette punktet er lignende konsistens. Hver datapunkt må være unik for variabelen det tjener. For eksempel, ønsker du ikke at prisen på en plastisk wrapper skal falle under en annen kategori for pakking.
Sikre datakvalitet
Det finnes mange måter å sikre at datakvaliteten er høy, som å sikre at datakilden er pålitelig. Her er noen av de beste teknikkene for å sikre at du får den beste kvaliteten på data for dine AI-modeller:
1. Dataprofileringsverktøy
Dataprofileringsverktøy er essensielt for å forstå data før du bruker det. Dataprofileringsverktøy gir innsikt i fordelingen av verdier, maksimum-, minimum-, gjennomsnittsverdier og outlier. I tillegg hjelper det med å formateringsinkonsistenser i data. Dataprofileringsverktøy hjelper med å forstå om datasettet er brukbart eller ikke.
2. Evaluering av datakvalitet
Ved å bruke en sentral bibliotek med forhåndsbygde datakvalitetsregler, kan du validere ethvert datasett med en sentral bibliotek. Hvis du har en datakatalog med innebygde dataverktøy, kan du enkelt gjenbruke disse reglene for å validere kundenavn, e-post og produktkoder. I tillegg kan du også berike og standardisere noen data.
3. Overvåking og evaluering av datakvalitet
Forskere har datakvalitet forhåndskalkulert for de fleste datasett de ønsker å bruke. De kan nøye seg til å se hva slags spesifikt problem et attributt har og deretter bestemme om å bruke det attributtet eller ikke.
4. Dataforberedelse
Forskere og vitenskapsmenn må vanligvis justere dataene litt for å forberede dem for AI-modellering. Disse forskerne trenger enkle å bruke verktøy for å parse attributter, transponere kolonner og beregne verdier fra dataene.
Verden av kunstig intelligens endrer seg kontinuerlig. Mens hvert selskap bruker data på en annen måte, forblir datakvalitet avgjørende for ethvert AI-implementeringsprosjekt. Hvis du har pålitelige, høykvalitetsdata, eliminerer du behovet for massive datasett og øker sjansen for suksess. Liksom alle andre organisasjoner, hvis din organisasjon er i ferd med å gå over til AI-implementering, sjekk om du har god kvalitet på data. Sørg for at dine kilder er pålitelige og utfør due diligence for å sjekke om de samstemmer med dine datakrav.












