AI 101

Wat zijn Big Data?

Bijgewerkt on 9 december 2022

Wat zijn Big Data?

"Big Data" is een van de meest gebruikte modewoorden van ons huidige tijdperk, maar wat betekent het eigenlijk?

Hier is een snelle, eenvoudige definitie van big data. Big data zijn gegevens die te groot en te complex zijn om te worden verwerkt door traditionele methoden voor gegevensverwerking en -opslag. Hoewel dat een snelle definitie is die je als heuristiek kunt gebruiken, zou het nuttig zijn om een dieper, vollediger begrip van big data te hebben. Laten we eens kijken naar enkele van de concepten die ten grondslag liggen aan big data, zoals opslag, structuur en verwerking.

Hoe groot zijn big data?

Het is niet zo eenvoudig als zeggen "alle gegevens groter dan 'X' zijn big data", de omgeving waarin de gegevens worden verwerkt, is een uiterst belangrijke factor in bepalen wat als big data kwalificeert. De grootte die gegevens moeten hebben om als big data te worden beschouwd, is afhankelijk van de context of de taak waarvoor de gegevens worden gebruikt. Twee datasets van zeer verschillende omvang kunnen in verschillende contexten als "big data" worden beschouwd.

Om concreter te zijn: als u probeert een bestand van 200 megabyte als e-mailbijlage te verzenden, kunt u dit niet doen. In deze context zou het bestand van 200 megabyte als big data kunnen worden beschouwd. Het kopiëren van een bestand van 200 megabyte naar een ander apparaat binnen hetzelfde LAN kost daarentegen misschien helemaal geen tijd, en in die context zou het niet als big data worden beschouwd.

Laten we echter aannemen dat 15 terabyte aan video moet worden voorbewerkt voor gebruik bij het trainen van computer vision-toepassingen. In dit geval nemen de videobestanden zoveel ruimte in beslag dat zelfs een krachtige computer er lang over zou doen om ze allemaal te verwerken, en dus zou de verwerking normaal gesproken worden verdeeld over meerdere aan elkaar gekoppelde computers om de verwerkingstijd te verkorten. Deze 15 terabytes aan videodata zouden zeker in aanmerking komen als big data.

Soorten Big Data-structuren

Big data is er in drie verschillende categorieën van structuur: ongestructureerde data, semi-gestructureerde en gestructureerde data.

Ongestructureerde gegevens zijn gegevens die geen definieerbare structuur hebben, wat betekent dat de gegevens zich feitelijk in één grote verzameling bevinden. Voorbeelden van ongestructureerde gegevens zijn een database vol ongelabelde afbeeldingen.

Semi-gestructureerde gegevens zijn gegevens die geen formele structuur hebben, maar wel bestaan binnen een losse structuur. E-mailgegevens kunnen bijvoorbeeld worden geteld als semi-gestructureerde gegevens, omdat u kunt verwijzen naar de gegevens in afzonderlijke e-mails, maar er zijn geen formele gegevenspatronen vastgesteld.

Gestructureerde gegevens zijn gegevens met een formele structuur, met gegevenspunten die zijn gecategoriseerd op basis van verschillende kenmerken. Een voorbeeld van gestructureerde gegevens is een Excel-spreadsheet met contactgegevens zoals namen, e-mails, telefoonnummers en websites.

Wil je meer lezen over de verschillen in deze datatypes, check dan de link hier.

Statistieken voor het beoordelen van big data

Big data kan worden geanalyseerd in termen van drie verschillende statistieken: volume, snelheid en variëteit.

Volume verwijst naar de grootte van de gegevens. De gemiddelde omvang van datasets neemt vaak toe. Zo was de grootste harde schijf in 2006 een harde schijf van 750 GB. Daarentegen wordt aangenomen dat Facebook meer dan 500 terabyte aan gegevens per dag genereert en de grootste harde schijf voor consumenten die vandaag beschikbaar is, is een harde schijf van 16 terabyte. Wat in het ene tijdperk wordt gezien als big data, is dat in een ander tijdperk misschien niet. Er worden tegenwoordig meer gegevens gegenereerd omdat steeds meer objecten om ons heen zijn uitgerust met sensoren, camera's, microfoons en andere apparaten voor gegevensverzameling.

Velocity verwijst naar hoe snel gegevens zich verplaatsen, of anders gezegd, hoeveel gegevens er binnen een bepaalde periode worden gegenereerd. Streams van sociale media genereren elke minuut honderdduizenden berichten en opmerkingen, terwijl uw eigen e-mailinbox waarschijnlijk veel minder actief zal zijn. Big data streams zijn streams die vaak honderdduizenden of miljoenen gebeurtenissen in min of meer real-time afhandelen. Voorbeelden van deze datastromen zijn online gamingplatforms en hoogfrequente algoritmen voor aandelenhandel.

Verscheidenheid verwijst naar de verschillende soorten gegevens in de dataset. Gegevens kunnen uit veel verschillende formaten bestaan, zoals audio, video, tekst, foto's of serienummers. Over het algemeen zijn traditionele databases geformatteerd om één of slechts een paar soorten gegevens te verwerken. Met andere woorden, traditionele databases zijn gestructureerd om gegevens te bevatten die redelijk homogeen zijn en een consistente, voorspelbare structuur hebben. Naarmate applicaties diverser worden, vol met verschillende functies en door meer mensen worden gebruikt, moesten databases evolueren om meer soorten gegevens op te slaan. Ongestructureerde databases zijn ideaal voor het bewaren van big data, omdat ze meerdere gegevenstypen kunnen bevatten die niet aan elkaar gerelateerd zijn.

Methoden voor het omgaan met big data

Er zijn een aantal verschillende platforms en tools die zijn ontworpen om de analyse van big data te vergemakkelijken. Big data-pools moeten worden geanalyseerd om zinvolle patronen uit de gegevens te halen, een taak die behoorlijk uitdagend kan zijn met traditionele tools voor gegevensanalyse. Als antwoord op de behoefte aan tools om grote hoeveelheden gegevens te analyseren, hebben verschillende bedrijven big data-analysetools ontwikkeld. Big data-analysetools omvatten systemen zoals ZOHO Analytics, Cloudera en Microsoft BI.

Gerelateerde onderwerpen:big data

Groeien en snoeien AI-strategie lijkt het energieverbruik van AI te verminderen

Mis het niet

Onderzoekers ontwikkelen AI-tool om nepnieuws te identificeren

Daniël Nelson

Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.