Refresh

This website www.unite.ai/af/what-is-big-data/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

stomp Wat is Big Data? - Verenig.AI
Verbinding met ons

AI 101

Wat is Big Data?

mm
Opgedateer on

Wat is Big Data?

"Big Data" is een van die algemeen gebruikte gonswoorde van ons huidige era, maar wat beteken dit regtig?

Hier is 'n vinnige, eenvoudige definisie van groot data. Big data is data wat te groot en kompleks is om deur tradisionele dataverwerking en bergingsmetodes hanteer te word. Alhoewel dit 'n vinnige definisie is wat jy as 'n heuristiek kan gebruik, sal dit nuttig wees om 'n dieper, meer volledige begrip van groot data te hê. Kom ons kyk na sommige van die konsepte wat groot data onderlê, soos berging, struktuur en verwerking.

Hoe groot is groot data?

Dit is nie so eenvoudig soos om te sê "enige data oor die grootte 'X' is groot data nie", die omgewing waarin die data hanteer word, is 'n uiters belangrike faktor in bepaal wat as groot data kwalifiseer. Die grootte wat data moet wees, om as groot data beskou te word, is afhanklik van die konteks, of die taak waarin die data gebruik word. Twee datastelle van baie verskillende groottes kan as "groot data" in verskillende kontekste beskou word.

Om meer konkreet te wees, as jy probeer om 'n 200-megagreep-lêer as 'n e-posaanhegsel te stuur, sal jy dit nie kan doen nie. In hierdie konteks kan die 200-megagreep-lêer as groot data beskou word. In teenstelling hiermee kan die kopiëring van 'n 200-megagreep-lêer na 'n ander toestel binne dieselfde LAN glad nie enige tyd neem nie, en in daardie konteks sal dit nie as groot data beskou word nie.

Kom ons neem egter aan dat 15 teragrepe se video vooraf verwerk moet word vir gebruik in opleiding rekenaarvisie toepassings. In hierdie geval neem die videolêers soveel spasie op dat selfs 'n kragtige rekenaar lank sal neem om hulle almal te verwerk, en dus sal die verwerking normaalweg versprei word oor verskeie rekenaars wat aan mekaar gekoppel is om verwerkingstyd te verminder. Hierdie 15 teragrepe videodata sal beslis as groot data kwalifiseer.

Tipes Groot Data Strukture

Groot data kom in drie verskillende kategorieë van struktuur voor: ongestruktureerde data, semi-gestruktureerde en gestruktureerde data.

Ongestruktureerde data is data wat geen definieerbare struktuur besit nie, wat beteken dat die data in wese net in een groot poel is. Voorbeelde van ongestruktureerde data sal 'n databasis vol ongemerkte beelde wees.

Semi-gestruktureerde data is data wat nie 'n formele struktuur het nie, maar wel binne 'n los struktuur bestaan. E-posdata kan byvoorbeeld as semi-gestruktureerde data tel, want jy kan verwys na die data wat in individuele e-posse vervat is, maar formele datapatrone is nie vasgestel nie.

Gestruktureerde data is data wat 'n formele struktuur het, met datapunte wat volgens verskillende kenmerke gekategoriseer is. Een voorbeeld van gestruktureerde data is 'n Excel-sigblad wat kontakinligting soos name, e-pos, telefoonnommers en webwerwe bevat.

As jy meer wil lees oor die verskille in hierdie datatipes, kyk na die skakel hier.

Metrieke vir die assessering van groot data

Groot data kan in terme van drie verskillende maatstawwe ontleed word: volume, snelheid en verskeidenheid.

Volume verwys na die grootte van die data. Die gemiddelde grootte van datastelle neem dikwels toe. Byvoorbeeld, die grootste hardeskyf in 2006 was 'n 750 GB hardeskyf. Daarteenoor word gedink dat Facebook meer as 500 teragrepe se data op 'n dag genereer en die grootste verbruikershardeskyf wat vandag beskikbaar is, is 'n 16 teragreep-hardeskyf. Wat in een era as groot data gekwantifiseer word, is dalk nie groot data in 'n ander nie. Meer data word vandag gegenereer omdat al hoe meer van die voorwerpe om ons toegerus is met sensors, kameras, mikrofone en ander data-insamelingstoestelle.

Snelheid verwys na hoe vinnig data beweeg, of anders gestel, hoeveel data gegenereer word binne 'n gegewe tydperk. Sosiale media-strome genereer honderde duisende plasings en opmerkings elke minuut, terwyl jou eie e-pos inkassie waarskynlik baie minder aktiwiteit sal hê. Groot datastrome is strome wat dikwels honderdduisende of miljoene gebeurtenisse min of meer intyds hanteer. Voorbeelde van hierdie datastrome is aanlyn-speletjieplatforms en hoëfrekwensie-aandeleverhandelingsalgoritmes.

Verskeidenheid verwys na die verskillende tipes data wat binne die datastel vervat is. Data kan uit baie verskillende formate bestaan, soos oudio, video, teks, foto's of reeksnommers. Oor die algemeen word tradisionele databasisse geformateer om een, of net 'n paar, tipes data te hanteer. Om dit anders te stel, tradisionele databasisse is gestruktureer om data te hou wat redelik homogeen en van 'n konsekwente, voorspelbare struktuur is. Namate toepassings meer divers word, vol verskillende kenmerke word en deur meer mense gebruik word, moes databasisse ontwikkel om meer tipes data te stoor. Ongestruktureerde databasisse is ideaal om groot data te hou, aangesien hulle verskeie datatipes kan hou wat nie met mekaar verband hou nie.

Metodes om groot data te hanteer

Daar is 'n aantal verskillende platforms en instrumente wat ontwerp is om die ontleding van groot data te vergemaklik. Groot datapoele moet ontleed word om betekenisvolle patrone uit die data te onttrek, 'n taak wat nogal uitdagend kan wees met tradisionele data-analise-instrumente. In reaksie op die behoefte aan gereedskap om groot volumes data te ontleed, het 'n verskeidenheid maatskappye groot data-analise-instrumente geskep. Groot data-analise-instrumente sluit stelsels soos ZOHO Analytics, Cloudera en Microsoft BI in.

Blogger en programmeerder met spesialiteite in masjienleer en Diep leer onderwerpe. Daniel hoop om ander te help om die krag van KI vir sosiale voordeel te gebruik.