stub Vikten av datakvalitet i AI-implementering - Unite.AI
Anslut dig till vårt nätverk!

Tanke ledare

Vikten av datakvalitet i AI-implementering

mm

publicerade

 on

Teknik för artificiell intelligens och maskininlärning kan avsevärt gynna industrier av alla storlekar. Enligt en McKinsey rapport, företag som använder artificiell intelligens-teknik kommer att fördubbla sitt kassaflöde till 2030. Omvänt kommer företag som inte använder AI att se en 20% minskning av deras kassaflöde. Sådana förmåner går dock utöver ekonomi. AI kan hjälpa företag bekämpa bristen på arbetskraft. AI förbättrar också avsevärt kundupplevelsen och affärsresultaten, vilket gör företag mer pålitliga. 

Eftersom AI har så många fördelar, varför använder inte alla AI? År 2019, a PwC undersökningen visade att 76 % av företagen planerar att använda AI för att förbättra sitt affärsvärde. Det är dock bara snåla 15 % som har tillgång till data av hög kvalitet för att uppnå sina affärsmål. Annan studera från Refinitiv föreslog att 66 % av de tillfrågade sa att data av dålig kvalitet försämrar deras förmåga att implementera och använda AI effektivt. 

Undersökningen fann att de tre främsta utmaningarna med att arbeta med maskininlärning och AI-teknik kretsar kring - "exakt information om täckning, historik och population av datan", "identifiering av ofullständiga eller korrupta register" och "rengöring och normalisering av data uppgifterna." Detta visar att data av dålig kvalitet är det främsta hindret för företag att få högkvalitativ AI-driven analys. 

Varför är data så viktiga?

Det finns många anledningar till varför datakvalitet är avgörande vid implementering av AI. Här är några av de viktigaste: 

1. Skräp in och skräp ut

Det är ganska enkelt att förstå att utdata beror mycket på ingången. I det här fallet, om datamängderna är fulla av fel eller skeva, resultera kommer också att sätta dig på fel fot. De flesta datarelaterade frågor handlar inte nödvändigtvis om mängd av data men kvalitet av data du matar in i AI-modellen. Om du har data av låg kvalitet kommer dina AI-modeller inte att fungera korrekt hur bra de än är.  

2. Alla AI-system är inte lika

När vi tänker på datamängder tänker vi vanligtvis i termer av kvantitativ data. Men det finns också kvalitativ data i form av videor, personliga intervjuer, åsikter, bilder etc. I AI-system är kvantitativa datauppsättningar strukturerade och kvalitativa datauppsättningar ostrukturerade. Inte alla AI-modeller kan hantera båda typerna av datamängder. Så det är viktigt att välja rätt datatyp för den lämpliga modellen för att få den förväntade utdata. 

3. Kvalitet vs. kvantitet

Man tror att AI-system behöver ta in mycket data för att lära sig av det. I en debatt om kvalitet kontra kvantitet brukar det senare föredras av företag. Men om datamängderna är av hög kvalitet men ändå kortare till sin natur, kommer det att ge dig en viss garanti för att resultatet är relevant och robust.

4. Egenskaper hos en bra datauppsättning

Egenskaperna hos en bra datauppsättning kan vara subjektiva och beror främst på applikationen som AI betjänar. Det finns dock några allmänna funktioner som man måste leta efter när man analyserar datamängder. 

  • Fullständighet: Datauppsättningen måste vara komplett utan tomma rutnät eller fläckar i datauppsättningarna. Varje cell bör ha en databit i den. 
  • fullständighet: Datauppsättningarna bör vara så omfattande som de kan bli. Till exempel, om du letar efter en cyberhotsvektor, måste du ha alla signaturprofiler och all nödvändig information. 
  • Konsistens: Datauppsättningarna måste passa under de bestämda variablerna de har tilldelats. Om du till exempel modellerar förpackningslådor måste dina valda variabler (plast, papper, kartong, etc.) ha lämplig prisinformation för att falla in i dessa bestämda kategorier. 
  • Noggrannhet: Noggrannhet är nyckeln till en bra datauppsättning. All information du matar med AI-modellen måste vara pålitlig och helt korrekt. Om stora delar av dina datauppsättningar är felaktiga blir din utdata också felaktig.  
  • unika: Denna punkt liknar konsistens. Varje datapunkt måste vara unik för variabeln den betjänar. Till exempel vill du inte att priset på ett plastomslag ska falla under någon annan kategori av förpackningar. 

Säkerställa datakvalitet

Det finns många sätt att säkerställa att datakvaliteten är hög, som att se till att datakällan är pålitlig. Här är några av de bästa teknikerna för att se till att du får den bästa kvaliteten på data för dina AI-modeller: 

1. Dataprofilering

Dataprofilering är väsentlig för att förstå data innan du använder den. Dataprofilering ger insikt i fördelningen av värden, maximum, minimum, medelvärden och extremvärden. Dessutom hjälper det till att formatera inkonsekvenser i data. Dataprofilering hjälper till att förstå om datamängden är användbar eller inte. 

2. Utvärdera datakvalitet

Genom att använda ett centralt bibliotek med förbyggda datakvalitetsregler kan du validera vilken datauppsättning som helst med ett centralt bibliotek. Om du har en datakatalog med inbyggda dataverktyg kan du helt enkelt återanvända dessa regler för att validera kundnamn, e-postmeddelanden och produktkoder. Dessutom kan du även berika och standardisera vissa data. 

3. Övervakning och utvärdering av datakvalitet

Forskare har datakvalitet förberäknad för de flesta datauppsättningar de vill använda. De kan begränsa det för att se vilket specifikt problem ett attribut har och sedan bestämma om de ska använda det attributet eller inte. 

4. Dataförberedelse

Forskare och vetenskapsmän måste vanligtvis justera data lite för att förbereda dem för AI-modellering. Dessa forskare behöver lättanvända verktyg för att analysera attribut, transponera kolumner och beräkna värden från data. 

Världen av artificiell intelligens förändras ständigt. Även om varje företag använder data på olika sätt, är datakvaliteten fortfarande avgörande för alla AI-implementeringsprojekt. Om du har tillförlitlig data av god kvalitet eliminerar du behovet av massiva datamängder och ökar dina chanser att lyckas. Liksom alla andra organisationer, om din organisation går över till AI-implementering, kontrollera om du har data av god kvalitet. Se till att dina källor är pålitliga och utför due diligence för att kontrollera om de överensstämmer med dina datakrav. 

Amy Groden-Morrison har tjänat mer än 15 år i marknadskommunikationsledande roller på företag som TIBCO Software, RSA Security och Ziff-Davis. Hennes tidigare prestationer inkluderar att etablera det första samvarumärkta teknologiprogrammet med CNN, lansera ett eventföretag på NYSE, byta namn på ett NASDAQ-noterat företag i en kris och positionera och marknadsföra en startup i Boston-området för framgångsrikt förvärv. För närvarande är hon VP för marknadsföring och försäljning för Alpha Software.