Thought leaders

Belang van gegevenskwaliteit bij de implementatie van AI

Published September 7, 2022

Updated April 5, 2026

Amy Groden-Morrison

Artificiële intelligentie en Machine Learning-technologieën kunnen de industrie van elke omvang aanzienlijk voordeel bieden. Volgens een McKinsey rapport zullen bedrijven die artificiële intelligentie-technologieën gebruiken, hun kasstroom verdubbelen tegen 2030. Omgekeerd zullen bedrijven die geen AI implementeren, een daling van 20% in hun kasstroom zien. Echter, deze voordelen gaan verder dan financiën. AI kan bedrijven helpen om tekorten aan arbeidskrachten te bestrijden. AI verbetert ook aanzienlijk de klantbeleving en de bedrijfsresultaten, waardoor bedrijven betrouwbaarder worden.

Aangezien AI zo veel voordelen heeft, waarom gebruiken niet alle bedrijven AI? In 2019 onthulde een PwC -enquête dat 76% van de bedrijven van plan zijn om AI te gebruiken om hun bedrijfswaarde te verbeteren. Echter, slechts 15% heeft toegang tot hoogwaardige gegevens om hun bedrijfsdoelen te bereiken. Een andere studie van Refinitiv suggereerde dat 66% van de respondenten zei dat slechte kwaliteit gegevens hun vermogen om AI effectief te implementeren en te gebruiken, belemmert.

De enquête toonde aan dat de top drie uitdagingen bij het werken met machine learning en AI-technologieën draaien om – “nauwkeurige informatie over de dekking, geschiedenis en bevolking van de gegevens”, “identificatie van onvolledige of beschadigde records” en “schoonmaken en normaliseren van de gegevens”. Dit bewijst dat slechte kwaliteit gegevens de belangrijkste belemmering zijn voor bedrijven om hoogwaardige AI-gebaseerde analyses te krijgen.

Waarom zijn gegevens zo belangrijk?

Er zijn veel redenen waarom gegevenskwaliteit cruciaal is bij de implementatie van AI. Hier zijn enkele van de belangrijkste:

1. Garbage In en Garbage Out

Het is vrij eenvoudig om te begrijpen dat de uitvoer zwaar afhankelijk is van de invoer. In dit geval, als de gegevenssets vol fouten of scheef zijn, zal het resultaat ook verkeerd zijn. De meeste gegevensgerelateerde problemen zijn niet noodzakelijk gerelateerd aan de hoeveelheid gegevens, maar aan de kwaliteit van de gegevens die u in het AI-model voert. Als u laagwaardige gegevens heeft, zullen uw AI-modellen niet goed werken, ongeacht hoe goed ze zijn.

2. Niet alle AI-systemen zijn gelijk

Wanneer we denken aan gegevenssets, denken we meestal in termen van kwantitatieve gegevens. Maar er zijn ook kwalitatieve gegevens in de vorm van video’s, persoonlijke interviews, meningen, afbeeldingen, enz. In AI-systemen zijn kwantitatieve gegevenssets gestructureerd en kwalitatieve gegevenssets ongestructureerd. Niet alle AI-modellen kunnen beide soorten gegevenssets verwerken. Het selecteren van het juiste gegevenstype voor het geschikte model is essentieel om het verwachte resultaat te krijgen.

3. Kwaliteit vs. Kwantiteit

Het wordt aangenomen dat AI-systemen veel gegevens moeten verwerken om er van te leren. In een debat over kwaliteit versus kwantiteit, wordt de laatste meestal door bedrijven verkozen. Echter, als de gegevenssets van hoge kwaliteit zijn, maar korter van aard, zal dit u enige garantie geven dat de uitvoer relevant en robuust is.

4. Kenmerken van een goede gegevensset

De kenmerken van een goede gegevensset kunnen subjectief zijn en afhankelijk zijn van de toepassing die AI dient. Echter, er zijn enkele algemene kenmerken die u moet zoeken bij het analyseren van gegevenssets.

Volledigheid: De gegevensset moet volledig zijn, zonder lege cellen of gaten in de gegevens. Elke cel moet een stukje gegevens bevatten.
Uitgebreidheid: De gegevenssets moeten zo uitgebreid mogelijk zijn. Als u bijvoorbeeld naar een cyberbedreigingsvector zoekt, moet u alle signatuurprofielen en alle noodzakelijke informatie hebben.
Consistentie: De gegevenssets moeten voldoen aan de bepaalde variabelen waaraan ze zijn toegewezen. Als u bijvoorbeeld pakketdozen modelleert, moeten uw geselecteerde variabelen (plastic, papier, karton, enz.) de juiste prijsgegevens hebben om in die bepaalde categorieën te vallen.
Nauwkeurigheid: Nauwkeurigheid is de sleutel tot een goede gegevensset. Alle informatie die u aan het AI-model voert, moet betrouwbaar en volledig nauwkeurig zijn. Als grote delen van uw gegevenssets onjuist zijn, zal uw uitvoer ook onnauwkeurig zijn.
Uniciteit: Dit punt is vergelijkbaar met consistentie. Elk gegevenspunt moet uniek zijn voor de variabele die het dient. Als u bijvoorbeeld de prijs van een plastic verpakking niet wilt laten vallen onder een andere categorie van verpakkingen.

Gegevenskwaliteit waarborgen

Er zijn veel manieren om ervoor te zorgen dat de gegevenskwaliteit hoog is, zoals ervoor zorgen dat de gegevensbron betrouwbaar is. Hier zijn enkele van de beste technieken om ervoor te zorgen dat u de beste kwaliteit gegevens voor uw AI-modellen krijgt:

1. Gegevensprofielen

Gegevensprofielen zijn essentieel om de gegevens te begrijpen voordat u ze gebruikt. Gegevensprofielen bieden inzicht in de verdeling van waarden, de maximale, minimale, gemiddelde waarden en uitschieters. Bovendien helpt het bij het opsporen van inconsistenties in de gegevens. Gegevensprofielen helpen u te begrijpen of de gegevensset bruikbaar is of niet.

2. Evaluatie van gegevenskwaliteit

Met een centrale bibliotheek van vooraf gebouwde gegevenskwaliteitsregels, kunt u elke gegevensset valideren met een centrale bibliotheek. Als u een gegevenscatalogus met ingebouwde gegevenstools heeft, kunt u deze regels eenvoudig opnieuw gebruiken om klantnamen, e-mailadressen en productcodes te valideren. Bovendien kunt u ook enkele gegevens verrijken en standaardiseren.

3. Bewaking en evaluatie van gegevenskwaliteit

Wetenschappers hebben de gegevenskwaliteit vooraf berekend voor de meeste gegevenssets die ze willen gebruiken. Ze kunnen deze verfijnen om te zien welk specifiek probleem een kenmerk heeft en vervolgens beslissen of ze dat kenmerk al dan niet gebruiken.

4. Gegevensvoorbereiding

Onderzoekers en wetenschappers moeten de gegevens meestal een beetje aanpassen om ze voor te bereiden op AI-modellering. Deze onderzoekers hebben eenvoudig te gebruiken tools nodig om kenmerken te parseren, kolommen te transponeren en waarden uit de gegevens te berekenen.

De wereld van artificiële intelligentie verandert voortdurend. Terwijl elk bedrijf gegevens op een andere manier gebruikt, blijft gegevenskwaliteit essentieel voor elk AI-implementatieproject. Als u betrouwbare, hoogwaardige gegevens heeft, elimineert u de noodzaak voor enorme gegevenssets en vergroot u uw kans op succes. Net als alle andere organisaties, als uw organisatie overstapt op AI-implementatie, controleert u of u over hoogwaardige gegevens beschikt. Zorg ervoor dat uw bronnen betrouwbaar zijn en voer due diligence uit om te controleren of ze voldoen aan uw gegevensvereisten.

Unite.AI