AI 101 m

Kas yra „Big Data“?

Atnaujinta on Gruodis 9, 2022

Kas yra „Big Data“?

„Didieji duomenys“ yra vienas iš dažniausiai vartojamų dabartinės eros populiarumo žodžių, bet ką tai iš tikrųjų reiškia?

Štai greitas ir paprastas didelių duomenų apibrėžimas. Dideli duomenų yra duomenys, kurie yra per dideli ir sudėtingi, kad juos būtų galima apdoroti tradiciniais duomenų apdorojimo ir saugojimo metodais. Nors tai yra greitas apibrėžimas, kurį galite naudoti kaip euristiką, būtų naudinga turėti gilesnį ir išsamesnį didelių duomenų supratimą. Pažvelkime į kai kurias sąvokas, kuriomis grindžiami dideli duomenys, pvz., saugojimas, struktūra ir apdorojimas.

Kokie yra dideli duomenys?

Tai nėra taip paprasta, kaip pasakyti „bet kokie X dydžio duomenys yra dideli duomenys“, aplinka, kurioje duomenys tvarkomi, yra nepaprastai svarbus veiksnys. nustatant, kas laikoma dideliais duomenimis. Dydis, kurio turi būti duomenų, kad būtų galima laikyti dideliais duomenimis, priklauso nuo konteksto arba užduoties, kuriai duomenys naudojami. Du labai skirtingo dydžio duomenų rinkiniai skirtinguose kontekstuose gali būti laikomi „dideliais duomenimis“.

Konkrečiau, jei bandysite išsiųsti 200 megabaitų failą kaip el. pašto priedą, negalėtumėte to padaryti. Šiame kontekste 200 megabaitų failas gali būti laikomas dideliais duomenimis. Priešingai, 200 megabaitų failo kopijavimas į kitą įrenginį tame pačiame LAN gali užtrukti visai nedaug laiko ir tokiame kontekste tai nebūtų laikoma dideliais duomenimis.

Tačiau darykime prielaidą, kad 15 terabaitų vertės vaizdo įrašas turi būti iš anksto apdorotas, kad būtų galima naudoti mokant kompiuterinio regėjimo programas. Tokiu atveju vaizdo failai užima tiek daug vietos, kad net galingam kompiuteriui juos visus apdoroti prireiktų daug laiko, todėl apdorojimas paprastai būtų paskirstytas keliuose kartu sujungtuose kompiuteriuose, kad būtų sutrumpintas apdorojimo laikas. Šie 15 terabaitų vaizdo duomenų tikrai būtų laikomi dideliais duomenimis.

Didžiųjų duomenų struktūrų tipai

Dideli duomenys yra trijų skirtingų kategorijų struktūros: nestruktūrizuoti duomenys, pusiau struktūrizuoti ir struktūrizuoti duomenys.

Nestruktūruoti duomenys yra duomenys, kurie neturi apibrėžtos struktūros, o tai reiškia, kad duomenys iš esmės yra tik viename dideliame telkinyje. Nestruktūruotų duomenų pavyzdžiai būtų duomenų bazė, pilna nepažymėtų vaizdų.

Pusiau struktūrizuoti duomenys yra duomenys, kurie neturi formalios struktūros, bet egzistuoja laisvoje struktūroje. Pavyzdžiui, el. pašto duomenys gali būti laikomi pusiau struktūriniais duomenimis, nes galite remtis duomenimis, esančiais atskiruose el. laiškuose, tačiau formalūs duomenų modeliai nebuvo nustatyti.

Struktūriniai duomenys yra duomenys, turintys formalią struktūrą, o duomenų taškai suskirstyti į kategorijas pagal skirtingus požymius. Vienas struktūrinių duomenų pavyzdžių yra „Excel“ skaičiuoklė, kurioje yra kontaktinė informacija, pvz., vardai, el. pašto adresai, telefono numeriai ir svetainės.

Jei norite daugiau sužinoti apie šių duomenų tipų skirtumus, patikrinkite nuorodą čia.

Didžiųjų duomenų vertinimo metrika

Dideli duomenys gali būti analizuojami pagal tris skirtingus rodiklius: tūrį, greitį ir įvairovę.

Apimtis nurodo duomenų dydį. Vidutinis duomenų rinkinių dydis dažnai didėja. Pavyzdžiui, didžiausias kietasis diskas 2006 m. buvo 750 GB kietasis diskas. Priešingai, manoma, kad „Facebook“ per dieną sugeneruoja daugiau nei 500 terabaitų duomenų, o didžiausias šiandien prieinamas vartotojų standusis diskas yra 16 terabaitų kietasis diskas. Tai, kas vienoje epochoje vertinama kaip dideli duomenys, kitoje gali nebūti dideli duomenys. Šiandien sugeneruojama daugiau duomenų, nes vis daugiau mus supančių objektų yra aprūpinti jutikliais, kameromis, mikrofonais ir kitais duomenų rinkimo įrenginiais.

Greitis nurodo duomenų judėjimo greitį arba, kitaip tariant, kiek duomenų sugeneruojama per tam tikrą laikotarpį. Socialinės žiniasklaidos srautai kiekvieną minutę generuoja šimtus tūkstančių įrašų ir komentarų, o jūsų el. pašto dėžutėje tikriausiai bus daug mažiau veiklos. Dideli duomenų srautai yra srautai, kurie dažnai apdoroja šimtus tūkstančių ar milijonus įvykių daugiau ar mažiau realiuoju laiku. Šių duomenų srautų pavyzdžiai yra internetinių žaidimų platformos ir aukšto dažnio akcijų prekybos algoritmai.

Įvairovė reiškia įvairių tipų duomenis, esančius duomenų rinkinyje. Duomenys gali būti sudaryti iš įvairių formatų, pvz., garso, vaizdo, teksto, nuotraukų ar serijos numerių. Paprastai tradicinės duomenų bazės yra suformatuotos taip, kad tvarkytų vieną ar tik kelių tipų duomenis. Kitaip tariant, tradicinės duomenų bazės yra sukonstruotos taip, kad saugotų gana vienalyčius ir nuoseklios, nuspėjamos struktūros duomenis. Kadangi taikomosios programos tampa vis įvairesnės, pilnos skirtingų funkcijų ir jas naudoja vis daugiau žmonių, duomenų bazės turėjo tobulėti, kad būtų galima saugoti daugiau duomenų tipų. Nestruktūruotos duomenų bazės idealiai tinka dideliems duomenims saugoti, nes jose gali būti kelių tipų duomenų, kurie nėra tarpusavyje susiję.

Didelių duomenų tvarkymo metodai

Yra daugybė skirtingų platformų ir įrankių, skirtų palengvinti didelių duomenų analizę. Norint iš duomenų išgauti prasmingus modelius, reikia analizuoti didelius duomenų telkinius, o tai gali būti gana sudėtinga naudojant tradicinius duomenų analizės įrankius. Atsižvelgdamos į įrankių poreikį dideliems duomenų kiekiams analizuoti, įvairios įmonės sukūrė didelių duomenų analizės įrankius. Didelių duomenų analizės įrankiai apima tokias sistemas kaip ZOHO Analytics, Cloudera ir Microsoft BI.

Susijusios temos:Dideliu duomenų kiekiu

Kitas

Atrodo, kad dirbtinio intelekto augimo ir genėjimo strategija sumažina AI energijos naudojimą

Nepraleiskite

Tyrėjai kuria dirbtinio intelekto įrankį, padedantį nustatyti netikras naujienas

Danielis Nelsonas

Tinklaraštininkas ir programuotojas, turintis specialybių Mašininis mokymasis ir Gilus mokymasis temomis. Danielis tikisi padėti kitiems panaudoti AI galią socialinei gerovei.