Kunstig intelligens
Hvad er Big Data?

Hvad er Big Data?
“Big Data” er et af de almindeligst brugte buzz-ord i vores nuværende æra, men hvad betyder det egentlig?
Her er en hurtig og simpel definition af big data. Big data er data, der er for stor og kompleks til at blive behandlet af traditionelle dataprocesserings- og lagringsmetoder. Selvom det er en hurtig definition, du kan bruge som en heuristik, ville det være nyttigt at have en dybere, mere komplet forståelse af big data. Lad os kaste et blik på nogle af de begreber, der ligger til grund for big data, som f.eks. lagring, struktur og behandling.
Hvor Stort Er Big Data?
Det er ikke så enkelt som at sige “enhver data over størrelsen ‘X’ er big data”, for miljøet, som dataene behandles i, er en ekstremt vigtig faktor i at bestemme, hvad der kvalificerer som big data. Størrelsen, data skal være, for at blive betragtet som big data, afhænger af konteksten eller opgaven, dataene bruges til. To datasets af meget forskellige størrelser kan betragtes som “big data” i forskellige kontekster.
For at være mere konkret, hvis du prøver at sende en 200-megabyte-fil som en email-vedhæftning, ville du ikke kunne gøre det. I denne kontekst kunne den 200-megabyte-fil betragtes som big data. Til gengæld, hvis du kopierer en 200-megabyte-fil til en anden enhed inden for det samme LAN, ville det ikke tage noget tid, og i den kontekst ville det ikke blive betragtet som big data.
Men lad os antage, at 15 terabyte video skal forbehandles til brug i træning af computer vision-applikationer. I dette tilfælde tager videofilerne så megen plads, at selv en kraftfuld computer ville tage lang tid til at behandle dem alle, og behandlingen ville normalt blive fordelt på multiple computere, der er forbundet sammen for at reducere behandlingstiden. Disse 15 terabyte video-data ville bestemt kvalificere som big data.
Typer Af Big Data-Strukturer
Big data kommer i tre forskellige kategorier af struktur: ustruktureret data, semistruktureret og struktureret data.
Ustruktureret data er data, der ikke har nogen definerbar struktur, hvilket betyder, at dataene essentiellement er i én stor pool. Eksempler på ustruktureret data ville være en database fuld af ulabelde billeder.
Semistruktureret data er data, der ikke har en formal struktur, men findes inden for en løs struktur. For eksempel kunne email-data tælles som semistruktureret data, fordi du kunne referere til dataene i enkelt-emails, men formelle datapatterns er ikke etableret.
Struktureret data er data, der har en formal struktur, med datapunkter kategoriseret efter forskellige funktioner. Et eksempel på struktureret data er en Excel-arbejdsmappe, der indeholder kontaktinformation som navne, email, telefonnumre og websites.
Hvis du ønsker at læse mere om forskellene i disse datatyper, kan du se linket her.
Metrikker Til At Vurdere Big Data
Big data kan analyseres i forhold til tre forskellige metrikker: volumen, hastighed og variation.
Volumen henviser til størrelsen af dataene. Den gennemsnitlige størrelse af datasets er ofte øgende. For eksempel var den største harddisk i 2006 en 750 GB harddisk. Til gengæld menes det, at Facebook genererer over 500 terabyte data om dagen, og den største forbrugerharddisk, der er tilgængelig i dag, er en 16-terabyte-harddisk. Hvad der kvalificerer som big data i én æra, kan ikke være big data i en anden. Mere data genereres i dag, fordi mere og mere af de objekter, der omgiver os, er udstyret med sensorer, kameraer, mikrofoner og andre dataindsamlingsenheder.
Hastighed henviser til, hvor hurtigt data flytter sig, eller sagt på en anden måde, hvor meget data genereres inden for en given periode. Sociale medie-strømme genererer hundredtusinder af indlæg og kommentarer hvert minut, mens din egen email-indboks sandsynligvis vil have langt mindre aktivitet. Big data-strømme er strømme, der ofte behandler hundredtusinder eller millioner af begivenheder i mere eller mindre realtid. Eksempler på disse datastrømme er online-spilplatforme og højfrekvens-handelsalgoritmer.
Variation henviser til de forskellige typer data, der er indeholdt i datasettet. Data kan bestå af mange forskellige formater, som f.eks. lyd, video, tekst, billeder eller serienumre. Generelt er traditionelle databaser formateret til at håndtere én eller kun et par typer data. For at sige det på en anden måde, traditionelle databaser er struktureret til at holde data, der er ret homogene og har en konsekvent, forudsigelig struktur. Da applikationer bliver mere diverse, fulde af forskellige funktioner og bruges af flere mennesker, har databaserne måttet udvikle sig for at gemme flere typer data. Ustrukturerede databaser er ideelle til at holde big data, da de kan holde multiple datatyper, der ikke er relateret til hinanden.
Metoder Til At Håndtere Big Data
Der er en række forskellige platforme og værktøjer, der er designede til at facilere analysen af big data. Big data-poller skal analyseres for at udtrække meningsfulde mønstre fra dataene, en opgave, der kan vise sig at være ret udfordrende med traditionelle dataanalyseværktøjer. Som svar på behovet for værktøjer til at analysere store mængder data, har en række virksomheder skabt big data-analyseværktøjer. Big data-analyseværktøjer omfatter systemer som ZOHO Analytics, Cloudera og Microsoft BI.












