AI 101

Vad är Big Data?

Uppdaterad on December 9, 2022

Vad är Big Data?

"Big Data" är ett av de vanligaste modeorden i vår nuvarande tid, men vad betyder det egentligen?

Här är en snabb, enkel definition av big data. Stora data är data som är för stora och komplexa för att kunna hanteras med traditionella databehandlings- och lagringsmetoder. Även om det är en snabb definition som du kan använda som en heuristik, skulle det vara bra att ha en djupare, mer fullständig förståelse av big data. Låt oss ta en titt på några av begreppen som ligger bakom big data, som lagring, struktur och bearbetning.

Hur stor är Big Data?

Det är inte så enkelt som att säga "alla data över storleken 'X' är big data", miljön som data hanteras i är en extremt viktig faktor i avgöra vad som kvalificeras som big data. Storleken som data behöver vara, för att betraktas som big data, beror på sammanhanget, eller den uppgift som data används i. Två datauppsättningar av väldigt olika storlekar kan betraktas som "big data" i olika sammanhang.

För att vara mer konkret, om du försöker skicka en 200 megabyte fil som en e-postbilaga, skulle du inte kunna göra det. I detta sammanhang kan 200 megabyte-filen betraktas som big data. Däremot kan kopiering av en 200 megabyte fil till en annan enhet inom samma LAN inte ta någon tid alls, och i det sammanhanget skulle det inte betraktas som big data.

Men låt oss anta att video till ett värde av 15 terabyte måste förbehandlas för att användas i träningsapplikationer för datorseende. I det här fallet tar videofilerna upp så mycket utrymme att till och med en kraftfull dator skulle ta lång tid att bearbeta dem alla, och därför skulle behandlingen normalt fördelas över flera datorer som är länkade tillsammans för att minska bearbetningstiden. Dessa 15 terabyte med videodata skulle definitivt kvalificera sig som big data.

Typer av Big Data-strukturer

Big data finns i tre olika kategorier av struktur: ostrukturerad data, semistrukturerad och strukturerad data.

Ostrukturerad data är data som inte har någon definierbar struktur, vilket innebär att data i huvudsak bara finns i en stor pool. Exempel på ostrukturerad data skulle vara en databas full av omärkta bilder.

Semistrukturerad data är data som inte har en formell struktur, men som finns i en lös struktur. E-postdata kan till exempel räknas som semistrukturerad data, eftersom du kan referera till data som finns i enskilda e-postmeddelanden, men formella datamönster har inte fastställts.

Strukturerad data är data som har en formell struktur, med datapunkter kategoriserade efter olika funktioner. Ett exempel på strukturerad data är ett excel-kalkylblad som innehåller kontaktinformation som namn, e-post, telefonnummer och webbplatser.

Om du vill läsa mer om skillnaderna mellan dessa datatyper, kolla länken här.

Mätvärden för att bedöma Big Data

Big data kan analyseras i termer av tre olika mått: volym, hastighet och variation.

Volym avser storleken på data. Den genomsnittliga storleken på datamängder ökar ofta. Till exempel var den största hårddisken 2006 en 750 GB hårddisk. Däremot tros Facebook generera över 500 terabyte data på en dag och den största konsumenthårddisken som finns tillgänglig idag är en 16 terabyte hårddisk. Det som kvantifieras som big data i en era kanske inte är big data i en annan. Mer data genereras idag eftersom allt fler av objekten som omger oss är utrustade med sensorer, kameror, mikrofoner och andra datainsamlingsenheter.

Hastighet hänvisar till hur snabbt data rör sig, eller för att uttrycka det på ett annat sätt, hur mycket data som genereras inom en given tidsperiod. Strömmar i sociala medier genererar hundratusentals inlägg och kommentarer varje minut, medan din egen e-postkorg förmodligen kommer att ha mycket mindre aktivitet. Big dataströmmar är strömmar som ofta hanterar hundratusentals eller miljoner händelser i mer eller mindre realtid. Exempel på dessa dataströmmar är onlinespelplattformar och högfrekventa aktiehandelsalgoritmer.

Variation hänvisar till de olika typerna av data som finns i datamängden. Data kan bestå av många olika format, som ljud, video, text, foton eller serienummer. I allmänhet är traditionella databaser formaterade för att hantera en, eller bara ett par, typer av data. För att uttrycka det på ett annat sätt, traditionella databaser är strukturerade för att hålla data som är ganska homogena och med en konsekvent, förutsägbar struktur. I takt med att applikationer blir mer mångfaldiga, fulla av olika funktioner och används av fler människor, har databaser varit tvungna att utvecklas för att lagra fler typer av data. Ostrukturerade databaser är idealiska för att hålla stora data, eftersom de kan innehålla flera datatyper som inte är relaterade till varandra.

Metoder för att hantera Big Data

Det finns ett antal olika plattformar och verktyg utformade för att underlätta analysen av big data. Big datapooler måste analyseras för att extrahera meningsfulla mönster från data, en uppgift som kan visa sig vara ganska utmanande med traditionella dataanalysverktyg. Som svar på behovet av verktyg för att analysera stora datamängder har en mängd olika företag skapat analysverktyg för stora data. Analysverktyg för stora data inkluderar system som ZOHO Analytics, Cloudera och Microsoft BI.

Relaterade ämnen:stora uppgifter

Strax

Att växa och beskära AI-strategi verkar minska AI-energianvändningen

Missa inte

Forskare utvecklar AI-verktyg för att identifiera falska nyheter

Daniel Nelson

Bloggare och programmerare med specialiteter inom Maskininlärning och Deep Learning ämnen. Daniel hoppas kunna hjälpa andra att använda kraften i AI för socialt bästa.