Kunstig intelligens
Hva er Big Data?

Hva er Big Data?
“Big Data” er ett av de vanligste buzz-ordene i vår nåværende tid, men hva betyr det egentlig?
Her er en rask og enkel definisjon av big data. Big data er data som er for stor og kompleks til å bli håndtert av tradisjonelle data-prosesserings- og lagringsmetoder. Mens det er en rask definisjon du kan bruke som en heuristikk, ville det være nyttig å ha en dypere, mer fullstendig forståelse av big data. La oss se på noen av konseptene som ligger under big data, som lagring, struktur og prosessering.
Hvor Stort Er Big Data?
Det er ikke så enkelt som å si “alle data over størrelsen ‘X’ er big data”, miljøet som dataene håndteres i er en ekstremt viktig faktor i å bestemme hva som kvalifiserer som big data. Størrelsen dataene må være, for å bli betraktet som big data, avhenger av konteksten, eller oppgaven dataene brukes til. To datasett av svært forskjellige størrelser kan bli betraktet som “big data” i forskjellige kontekster.
For å være mer konkrete, hvis du prøver å sende en 200-megabyte fil som en e-post vedlegg, ville du ikke kunne gjøre det. I denne konteksten kunne den 200-megabyte filen bli betraktet som big data. I motsetning, kopiering av en 200-megabyte fil til en annen enhet innen samme lokale nettverk (LAN) ville ikke ta noen tid, og i denne konteksten ville det ikke bli betraktet som big data.
Men, la oss anta at 15 terabyte med video må forbehandles for bruk i trening av datavisjonsapplikasjoner. I dette tilfelle tar videofilene så mye plass at selv en kraftig datamaskin ville ta lang tid å prosessere dem alle, og så ville prosesseringen vanligvis bli distribuert over flere datamaskiner koblet sammen for å redusere prosesseringstiden. Disse 15 terabyte med video-data ville definitivt kvalifisere som big data.
Typer Av Big Data Strukturer
Big data kommer i tre forskjellige kategorier av struktur: ustrukturert data, semi-strukturert og strukturert data.
Ustrukturert data er data som ikke har noen definert struktur, det vil si at dataene essensielt sett bare er i én stor gruppe. Eksempler på ustrukturert data ville være en database full av ulabelte bilder.
Semi-strukturert data er data som ikke har en formal struktur, men eksisterer innen en løs struktur. For eksempel, e-post data kunne telle som semi-strukturert data, fordi du kunne referere til dataene innholdt i enkelt-e-poster, men formelle datapunkt-mønster har ikke blitt etablert.
Strukturert data er data som har en formal struktur, med datapunkt kategorisert etter forskjellige funksjoner. Et eksempel på strukturert data er en Excel-ark med kontaktinformasjon som navn, e-post, telefonnumre og nettsider.
Hvis du ønsker å lese mer om forskjellene i disse datatypene, sjekk lenken her.
Mål For Vurdering Big Data
Big data kan analyseres i forhold til tre forskjellige mål: volum, hastighet og variasjon.
Volum henviser til størrelsen på dataene. Den gjennomsnittlige størrelsen på datasett øker ofte. For eksempel, den største harddisken i 2006 var en 750 GB harddisk. I motsetning, antas det at Facebook genererer over 500 terabyte med data hver dag, og den største forbrukerharddisken som er tilgjengelig i dag er en 16 terabyte harddisk. Hva som kvalifiserer som big data i én æra kan ikke være big data i en annen. Mer data genereres i dag fordi flere og flere objekter rundt oss er utstyrt med sensorer, kameraer, mikrofoner og andre datainnsamlingsenheter.
Hastighet henviser til hvor raskt data flytter seg, eller sagt på en annen måte, hvor mye data genereres innen en gitt periode. Sosiale mediestrømmer genererer hundredtusener av innlegg og kommentarer hver minutt, mens din egen e-postinnboks sannsynligvis vil ha mye mindre aktivitet. Big data-strømmer er strømmer som ofte håndterer hundredtusener eller millioner av hendelser i nærmest sanntid. Eksempler på disse datastrømmene er online-spillplattformer og høyfrekvens-handelsalgoritmer.
Variasjon henviser til de forskjellige typene data innholdt i datasett. Data kan bestå av mange forskjellige formater, som lyd, video, tekst, bilder eller serienumre. Generelt sett er tradisjonelle databaser formet for å håndtere én eller bare noen få typer data. For å si det på en annen måte, tradisjonelle databaser er strukturert for å holde data som er ganske homogene og av en konsekvent, forutsigbar struktur. Ettersom applikasjonene blir mer diverse, fulle av forskjellige funksjoner og brukes av flere mennesker, har databasene måttet utvikle seg for å lagre flere typer data. Ustrukturerte databaser er ideelle for å holde big data, fordi de kan holde multiple datatyper som ikke er relatert til hverandre.
Metoder For Håndtering Big Data
Det finnes en rekke forskjellige plattformer og verktøy designet for å fasilitere analysen av big data. Big data-poller må analyseres for å trekke ut meningsfulle mønster fra dataene, en oppgave som kan vise seg å være ganske utfordrende med tradisjonelle data-analyseverktøy. I respons til behovet for verktøy for å analysere store mengder data, har en rekke selskaper skapt big data-analyseverktøy. Big data-analyseverktøy inkluderer systemer som ZOHO Analytics, Cloudera og Microsoft BI.












