Kunstmatige intelligentie
Wat is Big Data?

Wat is Big Data?
“Big Data” is een van de meest gebruikte buzzwords van onze huidige tijd, maar wat betekent het eigenlijk?
Hier is een korte, eenvoudige definitie van big data. Big data is data die te groot en complex is om door traditionele dataprocessor- en opslagmethoden te worden afgehandeld. Terwijl dat een korte definitie is die je kunt gebruiken als een heuristiek, zou het helpen om een dieper, completer begrip van big data te hebben. Laten we eens kijken naar enkele concepten die ten grondslag liggen aan big data, zoals opslag, structuur en verwerking.
Hoe Groot Is Big Data?
Het is niet zo eenvoudig om te zeggen “alle data boven de grootte ‘X’ is big data”, de omgeving waarin de data wordt afgehandeld is een extreem belangrijke factor bij het bepalen van wat als big data kwalificeert. De grootte die de data moet hebben om als big data te worden beschouwd, is afhankelijk van de context, of de taak waarvoor de data wordt gebruikt. Twee datasets van enorm verschillende groottes kunnen in verschillende contexten als “big data” worden beschouwd.
Om concreet te zijn, als je probeert een 200-megabyte-bestand als e-mailbijlage te verzenden, zou je dat niet kunnen doen. In deze context kan het 200-megabyte-bestand als big data worden beschouwd. In tegenstelling, het kopiëren van een 200-megabyte-bestand naar een ander apparaat binnen hetzelfde LAN kan geen tijd in beslag nemen, en in die context zou het niet als big data worden beschouwd.
Echter, laten we aannemen dat 15 terabyte aan video moeten worden voorbewerkt voor gebruik in trainingsprogramma’s voor computervisie. In dit geval nemen de videobestanden zo veel ruimte in beslag dat zelfs een krachtige computer veel tijd nodig zou hebben om ze allemaal te verwerken, en dus zou de verwerking normaal gesproken worden verdeeld over meerdere computers die met elkaar zijn verbonden om de verwerkingstijd te verminderen. Deze 15 terabyte aan videodata zouden zeker als big data kwalificeren.
Typen Big Data-structuren
Big data komt in drie verschillende categorieën van structuur: ongestructureerde data, semi-gestructureerde en gestructureerde data.
Ongestructureerde data is data die geen definieerbare structuur bezit, wat betekent dat de data in wezen gewoon in één grote pool zit. Voorbeelden van ongestructureerde data zouden een database vol ongelabelde afbeeldingen zijn.
Semi-gestructureerde data is data die geen formele structuur heeft, maar wel binnen een losse structuur bestaat. Bijvoorbeeld, e-maildata kan worden beschouwd als semi-gestructureerde data, omdat je kunt verwijzen naar de data die in individuele e-mails wordt opgeslagen, maar formele datapatronen zijn niet vastgesteld.
Gestructureerde data is data die een formele structuur heeft, met datapunten die zijn gecategoriseerd door verschillende kenmerken. Een voorbeeld van gestructureerde data is een Excel-spreadsheet met contactinformatie zoals namen, e-mailadressen, telefoonnummers en websites.
Als je meer wilt lezen over de verschillen in deze datatypen, bekijk dan de link hier.
Metrieken Voor Het Beoordelen Van Big Data
Big data kan worden geanalyseerd in termen van drie verschillende metrieken: volume, snelheid en variatie.
Volume verwijst naar de grootte van de data. De gemiddelde grootte van datasets neemt vaak toe. Bijvoorbeeld, de grootste harde schijf in 2006 was een 750 GB-harde schijf. In tegenstelling, Facebook wordt verondersteld meer dan 500 terabyte aan data per dag te genereren en de grootste consumentenharde schijf die vandaag beschikbaar is, is een 16 terabyte-harde schijf. Wat als big data kwalificeert in één tijdperk, hoeft dat niet in een ander tijdperk te zijn. Meer data wordt vandaag gegenereerd omdat meer en meer objecten om ons heen zijn uitgerust met sensoren, camera’s, microfoons en andere dataprocessingapparaten.
Snelheid verwijst naar hoe snel data beweegt, of om dat anders te zeggen, hoeveel data binnen een bepaalde periode wordt gegenereerd. Sociale mediastreams genereren honderdduizenden posts en comments per minuut, terwijl je eigen e-mailinbox waarschijnlijk veel minder activiteit zal hebben. Big data-streams zijn streams die vaak honderdduizenden of miljoenen gebeurtenissen in meer of minder real-time afhandelen. Voorbeelden van deze datastreams zijn online gamingsplatforms en high-frequency stock trading-algoritmes.
Variaties verwijst naar de verschillende typen data die binnen de dataset worden opgeslagen. Data kan bestaan uit veel verschillende formaten, zoals audio, video, tekst, foto’s of serienummers. In het algemeen zijn traditionele databases opgezet om één of slechts een paar typen data af te handelen. Om dat anders te zeggen, traditionele databases zijn opgezet om data op te slaan die redelijk homogeen en van een consistente, voorspelbare structuur is. Naarmate applicaties diverser worden, meer functies bevatten en door meer mensen worden gebruikt, moeten databases evolueren om meer typen data op te slaan. Ongestructureerde databases zijn ideaal voor het opslaan van big data, omdat ze meerdere datatypen kunnen opslaan die niet aan elkaar gerelateerd zijn.
Methoden Voor Het Afhandelen Van Big Data
Er zijn een aantal verschillende platforms en tools ontwikkeld om de analyse van big data te faciliteren. Big data-pools moeten worden geanalyseerd om betekenisvolle patronen uit de data te extraheren, een taak die erg moeilijk kan zijn met traditionele data-analysetools. Als reactie op de behoefte aan tools om grote hoeveelheden data te analyseren, hebben verschillende bedrijven big data-analysetools ontwikkeld. Big data-analysetools omvatten systemen zoals ZOHO Analytics, Cloudera en Microsoft BI.












