AI 101

Kaj so veliki podatki?

Posodobljeno on December 9, 2022

Kaj so veliki podatki?

»Veliki podatki« je ena izmed pogosto uporabljenih besed v današnjem času, toda kaj v resnici pomeni?

Tukaj je hitra in preprosta definicija velikih podatkov. Big podatki so podatki, ki so preveliki in zapleteni, da bi jih lahko obdelali s tradicionalnimi metodami obdelave in shranjevanja podatkov. Čeprav je to hitra definicija, ki jo lahko uporabite kot hevristiko, bi bilo koristno imeti globlje in popolnejše razumevanje velikih podatkov. Oglejmo si nekaj konceptov, ki so podlaga za velike podatke, kot so shranjevanje, struktura in obdelava.

Kako veliki so veliki podatki?

Ni tako preprosto, kot če rečete, da so vsi podatki nad velikostjo X veliki podatki, okolje, v katerem se obdelujejo podatki, je izjemno pomemben dejavnik pri določanje, kaj se šteje za velike podatke. Velikost podatkov, ki jih morajo imeti, da bi veljali za velike podatke, je odvisna od konteksta ali naloge, v kateri se podatki uporabljajo. Dva nabora podatkov zelo različnih velikosti se lahko štejeta za »velike podatke« v različnih kontekstih.

Natančneje, če poskusite poslati 200-megabajtno datoteko kot e-poštno prilogo, tega ne boste mogli storiti. V tem kontekstu bi lahko 200-megabajtno datoteko obravnavali kot velike podatke. Nasprotno pa kopiranje 200-megabajtne datoteke v drugo napravo v istem lokalnem omrežju morda sploh ne bo trajalo in v tem kontekstu ne bo obravnavano kot veliki podatki.

Predpostavimo pa, da je treba video v vrednosti 15 terabajtov predhodno obdelati za uporabo v aplikacijah za usposabljanje računalniškega vida. V tem primeru videodatoteke zavzamejo toliko prostora, da bi celo zmogljiv računalnik potreboval veliko časa, da bi jih vse obdelal, zato bi bila obdelava običajno porazdeljena na več računalnikov, povezanih skupaj, da se skrajša čas obdelave. Teh 15 terabajtov video podatkov bi zagotovo veljalo za velike podatke.

Vrste struktur velikih podatkov

Veliki podatki so na voljo v treh različnih kategorijah strukture: nestrukturirani podatki, polstrukturirani in strukturirani podatki.

Nestrukturirani podatki so podatki, ki nimajo določljive strukture, kar pomeni, da so podatki v bistvu samo v enem velikem bazenu. Primeri nestrukturiranih podatkov so baze podatkov, polne neoznačenih slik.

Polstrukturirani podatki so podatki, ki nimajo formalne strukture, vendar obstajajo znotraj ohlapne strukture. E-poštni podatki se na primer lahko štejejo za polstrukturirane podatke, ker se lahko sklicujete na podatke v posameznih e-poštnih sporočilih, vendar formalni vzorci podatkov niso bili vzpostavljeni.

Strukturirani podatki so podatki, ki imajo formalno strukturo, s podatkovnimi točkami, razvrščenimi po različnih značilnostih. En primer strukturiranih podatkov je Excelova preglednica, ki vsebuje kontaktne podatke, kot so imena, e-poštni naslovi, telefonske številke in spletna mesta.

Če želite prebrati več o razlikah v teh vrstah podatkov, preverite povezavo tukaj.

Meritve za ocenjevanje velikih podatkov

Velike podatke je mogoče analizirati glede na tri različne metrike: obseg, hitrost in raznolikost.

Volumen se nanaša na velikost podatkov. Povprečna velikost naborov podatkov se pogosto povečuje. Na primer, največji trdi disk leta 2006 je bil 750 GB trdi disk. V nasprotju s tem naj bi Facebook ustvaril več kot 500 terabajtov podatkov na dan in največji potrošniški trdi disk, ki je danes na voljo, je 16 terabajtni trdi disk. Kar je v enem obdobju kvantificirano kot veliki podatki, v drugem morda ne bodo veliki podatki. Danes se ustvari več podatkov, ker je vedno več predmetov, ki nas obdajajo, opremljenih s senzorji, kamerami, mikrofoni in drugimi napravami za zbiranje podatkov.

Hitrost se nanaša na to, kako hitro se podatki premikajo, ali povedano drugače, koliko podatkov se ustvari v določenem časovnem obdobju. Tokovi družbenih medijev ustvarijo na stotine tisoč objav in komentarjev vsako minuto, medtem ko bo vaš e-poštni nabiralnik verjetno imel veliko manj dejavnosti. Tokovi velikih podatkov so tokovi, ki pogosto obravnavajo več sto tisoč ali milijone dogodkov v bolj ali manj realnem času. Primeri teh podatkovnih tokov so spletne igralne platforme in visokofrekvenčni algoritmi za trgovanje z delnicami.

Raznolikost se nanaša na različne vrste podatkov, ki jih vsebuje nabor podatkov. Podatki so lahko sestavljeni iz številnih različnih oblik, kot so zvok, video, besedilo, fotografije ali serijske številke. Na splošno so tradicionalne zbirke podatkov oblikovane za obdelavo ene ali samo nekaj vrst podatkov. Povedano drugače, tradicionalne baze podatkov so strukturirane tako, da hranijo podatke, ki so dokaj homogeni in imajo dosledno, predvidljivo strukturo. Ker postajajo aplikacije bolj raznolike, polne različnih funkcij in jih uporablja več ljudi, so se morale baze podatkov razviti za shranjevanje več vrst podatkov. Nestrukturirane zbirke podatkov so idealne za shranjevanje velikih podatkov, saj lahko vsebujejo več tipov podatkov, ki med seboj niso povezani.

Metode ravnanja z velikimi podatki

Obstaja več različnih platform in orodij, zasnovanih za lažjo analizo velikih podatkov. Velike podatkovne zbirke je treba analizirati, da iz podatkov izluščimo pomembne vzorce, kar je naloga, ki se s tradicionalnimi orodji za analizo podatkov lahko izkaže za precej zahtevno. Kot odgovor na potrebo po orodjih za analizo velikih količin podatkov so številna podjetja ustvarila orodja za analizo velikih podatkov. Orodja za analizo velikih podatkov vključujejo sisteme, kot so ZOHO Analytics, Cloudera in Microsoft BI.

Sorodne teme:velika podatki

Up Next

Zdi se, da strategija rasti in obrezovanja umetne inteligence zmanjšuje porabo energije umetne inteligence

Ne zamudite

Raziskovalci razvijajo orodje AI za pomoč pri prepoznavanju lažnih novic

Daniel Nelson

Bloger in programer s posebnostmi v strojno učenje in Globoko učenje teme. Daniel upa, da bo drugim pomagal uporabiti moč umetne inteligence za družbeno dobro.