AI 101
Wat is Data Science?

Het veld van data science lijkt elke dag groter en populairder te worden. Volgens LinkedIn was data science een van de snelst groeiende beroepenvelden in 2017 en in 2020 rangschikte Glassdoor de baan van data scientist als een van de drie beste banen in de Verenigde Staten. Gezien de groeiende populariteit van data science, is het geen verrassing dat meer mensen geïnteresseerd raken in het veld. Toch wat is data science precies?
Laten we kennis maken met data science, door wat tijd te nemen om data science te definiëren, te onderzoeken hoe big data en kunstmatige intelligentie het veld verandert, om kennis te maken met enkele veelvoorkomende data science-hulpmiddelen en om enkele voorbeelden van data science te onderzoeken.
Wat is Data Science?
Voordat we enige data science-hulpmiddelen of voorbeelden kunnen onderzoeken, willen we een conciese definitie van data science hebben.
Het definiëren van “data science” is eigenlijk een beetje lastig, omdat de term wordt toegepast op veel verschillende taken en methoden van onderzoek en analyse. We kunnen beginnen met onszelf te herinneren aan wat de term “wetenschap” betekent. Wetenschap is de systematische studie van de fysieke en natuurlijke wereld door middel van observatie en experimenten, met als doel de menselijke kennis van natuurlijke processen te vergroten. De belangrijke woorden in die definitie zijn “observatie” en “begrip”.
Als data science het proces is van het begrijpen van de wereld vanuit patronen in data, dan is de verantwoordelijkheid van een data scientist om data te transformeren, data te analyseren en patronen uit data te halen. Met andere woorden, een data scientist krijgt data en gebruikt een aantal verschillende hulpmiddelen en technieken om de data te preprocessen (klaar te maken voor analyse) en vervolgens de data te analyseren op zoek naar betekenisvolle patronen.
De rol van een data scientist is vergelijkbaar met de rol van een traditionele wetenschapper. Beiden zijn bezig met de analyse van data om hypothesen over hoe de wereld werkt te ondersteunen of te weerleggen, en proberen patronen in de data te begrijpen om onze kennis van de wereld te vergroten. Data scientists maken gebruik van dezelfde wetenschappelijke methoden als een traditionele wetenschapper. Een data scientist begint met het verzamelen van observaties over een fenomeen dat ze willen bestuderen. Ze formuleren vervolgens een hypothese over het fenomeen in kwestie en proberen data te vinden die hun hypothese op de een of andere manier weerlegt.
Als de hypothese niet wordt weerlegd door de data, kunnen ze mogelijk een theorie of model over hoe het fenomeen werkt construeren, dat ze vervolgens kunnen testen door te zien of het waar is voor andere vergelijkbare datasets. Als een model voldoende robuust is, als het patronen goed verklaart en niet wordt weerlegd tijdens andere tests, kan het zelfs worden gebruikt om toekomstige gebeurtenissen van dat fenomeen te voorspellen.
Een data scientist zal meestal geen eigen data verzamelen via een experiment. Ze zullen meestal geen experimenten ontwerpen met controles en dubbele blindtests om storende variabelen te ontdekken die de hypothese kunnen beïnvloeden. De meeste door een data scientist geanalyseerde data zijn verkregen via observationele studies en systemen, wat een manier is waarop de taak van een data scientist kan verschillen van die van een traditionele wetenschapper, die meestal meer experimenten uitvoert.
Dat gezegd hebbende, kan een data scientist worden gevraagd om een vorm van experimenten uit te voeren, genaamd A/B-testen, waarbij aanpassingen worden gemaakt in een systeem dat data verzamelt om te zien hoe de datapatronen veranderen.
Ongeacht de gebruikte technieken en hulpmiddelen, heeft data science uiteindelijk als doel onze kennis van de wereld te vergroten door zin te geven aan data, en data wordt verkregen via observatie en experimenten. Data science is het proces van het gebruik van algoritmes, statistische principes en verschillende hulpmiddelen en machines om inzichten uit data te halen, inzichten die ons helpen patronen in de wereld om ons heen te begrijpen.
Wat doen data scientists?
U ziet misschien dat elke activiteit die de analyse van data op een wetenschappelijke manier omvat, data science kan worden genoemd, wat deel uitmaakt van wat het definiëren van data science zo moeilijk maakt. Om het duidelijker te maken, laten we enkele activiteiten onderzoeken die een data scientist dagelijks kan doen.

Data science brengt veel verschillende disciplines en specialisaties samen. Foto: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
Op elke gegeven dag kan een data scientist worden gevraagd om: dataopslag- en -ophalingsschema’s te maken, data ETL (extract, transform, load) pijpleidingen te maken en data op te schonen, statistische methoden toe te passen, datavisualisaties en dashboards te maken, kunstmatige intelligentie en machine learning-algoritmen te implementeren, aanbevelingen te doen op basis van de data.
Laten we de bovenstaande taken een beetje uiteen zetten.
Een data scientist kan worden verplicht om de installatie van technologieën te behandelen die nodig zijn om data op te slaan en op te halen, waarbij zowel hardware als software wordt meegenomen. De persoon die verantwoordelijk is voor deze positie kan ook worden aangeduid als “Data Engineer“. Echter, sommige bedrijven nemen deze verantwoordelijkheden op in de rol van data scientists. Een data scientist kan ook worden gevraagd om te helpen bij het maken van ETL-pijpleidingen. Data komt zelden in het juiste formaat voor een data scientist. In plaats daarvan moet de data in een ruwe vorm van de gegevensbron worden ontvangen, getransformeerd in een bruikbaar formaat en voorbewerkt (dingen zoals het standaardiseren van de data, het verwijderen van redundanties en het verwijderen van beschadigde data).
Statistische methoden van Data Science
De toepassing van statistiek is noodzakelijk om het simpelweg bekijken van data en interpreteren ervan om te zetten in een echte wetenschap. Statistische methoden worden gebruikt om relevante patronen uit datasets te halen, en een data scientist moet goed op de hoogte zijn van statistische concepten. Ze moeten in staat zijn om betekenisvolle correlaties van spurious correlaties te onderscheiden door storende variabelen te controleren. Ze moeten ook weten welke hulpmiddelen ze moeten gebruiken om te bepalen welke kenmerken in de dataset belangrijk zijn voor hun model / hebben voorspellende kracht. Een data scientist moet weten wanneer ze een regressiebenadering moeten gebruiken versus een classificatiebenadering, en wanneer ze zich druk moeten maken over het gemiddelde van een steekproef versus het mediaan van een steekproef. Een data scientist zou geen wetenschapper zijn zonder deze cruciale vaardigheden.
Data Visualisatie
Een cruciaal onderdeel van de taak van een data scientist is het communiceren van hun bevindingen aan anderen. Als een data scientist zijn bevindingen niet effectief kan communiceren aan anderen, dan doen de implicaties van zijn bevindingen er niet toe. Een data scientist moet een effectieve verhalenverteller zijn. Dit betekent het produceren van visualisaties die relevante punten over de dataset en de patronen die erin worden ontdekt, communiceren. Er is een groot aantal verschillende data visualisatiehulpmiddelen die een data scientist kan gebruiken, en ze kunnen data visualiseren voor het doel van initiële, basisexploratie (exploratory data analysis) of visualiseren van de resultaten die een model produceert.
Aanbevelingen en bedrijfsapplicaties
Een data scientist moet enige intuïtie hebben van de vereisten en doelen van hun organisatie of bedrijf. Een data scientist moet deze dingen begrijpen, omdat ze moeten weten welke soorten variabelen en kenmerken ze moeten analyseren, patronen die zullen helpen hun organisatie haar doelen te bereiken. De data scientists moeten zich bewust zijn van de beperkingen waarbinnen ze opereren en de aannamen die het leiderschap van de organisatie doet.
Machine Learning en AI
Machine learning en andere kunstmatige intelligentie-algoritmen en -modellen zijn hulpmiddelen die door data scientists worden gebruikt om data te analyseren, patronen in data te identificeren, relaties tussen variabelen te onderscheiden en voorspellingen over toekomstige gebeurtenissen te doen.
Traditionele Data Science vs. Big Data Science
Naarmate gegevensverzamelingstechnieken geavanceerder zijn geworden en databases groter, is een verschil ontstaan tussen traditionele data science en “big data” science.
Traditionele data-analyse en data science worden gedaan met beschrijvende en exploratoire analytics, met als doel patronen te vinden en de prestatieresultaten van projecten te analyseren. Traditionele data-analysemethode focussen vaak op verleden data en huidige data. Data-analisten hebben vaak te maken met data die al zijn schoongemaakt en gestandaardiseerd, terwijl data scientists vaak te maken hebben met complexe en vuile data. Geavanceerdere data-analyse- en data science-technieken kunnen worden gebruikt om toekomstig gedrag te voorspellen, hoewel dit vaker wordt gedaan met big data, omdat voorspellende modellen vaak grote hoeveelheden data nodig hebben om betrouwbaar te worden geconstrueerd.
“Big data” verwijst naar data die te groot en complex zijn om te worden behandeld met traditionele data-analyse- en wetenschapstechnieken en -hulpmiddelen. Big data worden vaak verzameld via onlineplatforms en geavanceerde data-transformatiehulpmiddelen worden gebruikt om de grote volumes aan data klaar te maken voor inspectie door data science. Naarmate meer data worden verzameld, neemt het deel van de taak van een data scientist dat besteed wordt aan de analyse van big data toe.
Data Science-hulpmiddelen
Gemeenschappelijke data sciencehulpmiddelen omvatten hulpmiddelen om data op te slaan, exploratoire data-analyse uit te voeren, data te modelleren, ETL uit te voeren en data te visualiseren. Platforms zoals Amazon Web Services, Microsoft Azure en Google Cloud bieden hulpmiddelen om data scientists te helpen data op te slaan, te transformeren, te analyseren en te modelleren. Er zijn ook zelfstandige data science-hulpmiddelen zoals Airflow (data-infrastructuur) en Tableau (data-visualisatie en -analyse).
Wat betreft machine learning- en kunstmatige intelligentie-algoritmen die worden gebruikt om data te modelleren, worden ze vaak geleverd via data science-modules en -platforms zoals TensorFlow, PyTorch en de Azure Machine Learning Studio. Deze platforms laten data scientists toe om aanpassingen aan hun datasets te maken, machine learning-architectuur te componeren en machine learning-modellen te trainen.
Andere gemeenschappelijke data science-hulpmiddelen en -bibliotheken zijn SAS (voor statistisch modelleren), Apache Spark (voor de analyse van streaming data), D3.js (voor interactieve visualisaties in de browser) en Jupyter (voor interactieve, deelbare codeblokken en visualisaties).

Foto: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
Voorbeelden van Data Science
Voorbeelden van data science en zijn toepassingen zijn overal. Data science heeft toepassingen in alles, van voedselbezorging, sport, verkeer en gezondheid. Data is overal en dus kan data science worden toegepast op alles.
Wat betreft voedsel, investeert Uber in een uitbreiding van zijn ritdienstensysteem gericht op de bezorging van voedsel, Uber Eats. Uber Eats moet mensen hun voedsel op tijd bezorgen, terwijl het nog warm en vers is. Om dit te laten gebeuren, moeten data scientists van het bedrijf statistische modellen gebruiken die aspecten zoals afstand van restaurants tot bezorgpunten, feestdagen, kooktijd en zelfs weersomstandigheden meenemen, allemaal met het doel om bezorgtijden te optimaliseren.
Sportstatistieken worden door teammanagers gebruikt om te bepalen wie de beste spelers zijn en sterke, betrouwbare teams te formeren die wedstrijden zullen winnen. Een opvallend voorbeeld is de data science die wordt gedocumenteerd door Michael Lewis in het boek Moneyball, waarin de algemene manager van het Oakland Athletics-team een verscheidenheid aan statistieken analyseerde om kwaliteitspelers te identificeren die tegen een relatief lage prijs konden worden ondertekend.
De analyse van verkeerspatronen is kritiek voor de creatie van zelfrijdende voertuigen. Zelfrijdende voertuigen moeten in staat zijn om de activiteit om hen heen te voorspellen en te reageren op veranderingen in de wegomstandigheden, zoals de toegenomen remafstand die nodig is wanneer het regent, evenals de aanwezigheid van meer auto’s op de weg tijdens spitsuur. Behalve zelfrijdende voertuigen, analyseren apps zoals Google Maps verkeerspatronen om forensen te vertellen hoe lang het zal duren om hun bestemming te bereiken met behulp van verschillende routes en vervoermiddelen.
Wat betreft gezondheidsdata science, wordt computerzicht vaak gecombineerd met machine learning en andere AI-technieken om beeldclassificatoren te creëren die in staat zijn om dingen zoals röntgenfoto’s, FMRIs en echografische beelden te onderzoeken om te zien of er potentieel medische problemen zijn die in de scan kunnen verschijnen. Deze algoritmen kunnen worden gebruikt om clinici te helpen bij de diagnose van ziekten.
Uiteindelijk omvat data science een groot aantal activiteiten en brengt het aspecten van verschillende disciplines samen. Echter, data science is altijd bezig met het vertellen van overtuigende, interessante verhalen uit data, en met het gebruik van data om de wereld beter te begrijpen.












