AI 101

Kas ir lielie dati?

Atjaunināts on Decembris 9, 2022

Kas ir lielie dati?

“Lielie dati” ir viens no mūsu pašreizējā laikmeta izplatītākajiem vārdiem, bet ko tas īsti nozīmē?

Šeit ir ātra un vienkārša lielo datu definīcija. Liels datu ir dati, kas ir pārāk lieli un sarežģīti, lai tos apstrādātu ar tradicionālajām datu apstrādes un uzglabāšanas metodēm. Lai gan šī ir ātra definīcija, ko varat izmantot kā heiristisku, būtu lietderīgi iegūt dziļāku un pilnīgāku izpratni par lielajiem datiem. Apskatīsim dažus jēdzienus, kas ir lielo datu pamatā, piemēram, glabāšana, struktūra un apstrāde.

Cik lieli ir lielie dati?

Tas nav tik vienkārši, kā teikt, ka “jebkuri dati, kas pārsniedz X lielumu, ir lieli dati”, vide, kurā dati tiek apstrādāti, ir ārkārtīgi svarīgs faktors. noteikt, kas kvalificējams kā lielie dati. Datu lielums, kam ir jābūt, lai tos uzskatītu par lielajiem datiem, ir atkarīgs no konteksta vai uzdevuma, kurā dati tiek izmantoti. Divas ļoti dažāda lieluma datu kopas var uzskatīt par “lieliem datiem” dažādos kontekstos.

Precīzāk sakot, ja mēģinātu nosūtīt 200 megabaitu failu kā e-pasta pielikumu, jūs to nevarētu izdarīt. Šajā kontekstā 200 megabaitu failu varētu uzskatīt par lieliem datiem. Turpretim 200 megabaitu faila kopēšana uz citu ierīci tajā pašā LAN var neaizņemt nemaz laika, un šajā kontekstā tas netiks uzskatīts par lielajiem datiem.

Tomēr pieņemsim, ka 15 terabaitu video ir iepriekš jāapstrādā, lai to izmantotu datorredzes lietojumprogrammu apmācībā. Šajā gadījumā video faili aizņem tik daudz vietas, ka pat jaudīgam datoram būtu nepieciešams ilgs laiks, lai tos visus apstrādātu, un tāpēc apstrāde parasti tiktu sadalīta pa vairākiem datoriem, kas ir savienoti kopā, lai samazinātu apstrādes laiku. Šie 15 terabaiti video datu noteikti būtu kvalificējami kā lielie dati.

Lielo datu struktūru veidi

Lielajiem datiem ir trīs dažādas struktūras kategorijas: nestrukturēti dati, daļēji strukturēti un strukturēti dati.

Nestrukturēti dati ir dati, kuriem nav definējamas struktūras, kas nozīmē, ka dati būtībā ir tikai vienā lielā pūlā. Nestrukturētu datu piemēri varētu būt datubāze, kas pilna ar nemarķētiem attēliem.

Daļēji strukturēti dati ir dati, kuriem nav formālas struktūras, bet tie pastāv brīvā struktūrā. Piemēram, e-pasta dati var tikt uzskatīti par daļēji strukturētiem datiem, jo varat atsaukties uz datiem, kas ietverti atsevišķos e-pastos, taču formāli datu modeļi nav noteikti.

Strukturētie dati ir dati, kuriem ir formāla struktūra, un datu punkti ir klasificēti pēc dažādām pazīmēm. Viens strukturētu datu piemērs ir Excel izklājlapa, kurā ir ietverta kontaktinformācija, piemēram, vārdi, e-pasta adreses, tālruņu numuri un vietnes.

Ja vēlaties uzzināt vairāk par šo datu veidu atšķirībām, pārbaudiet saiti šeit.

Metrika lielo datu novērtēšanai

Lielos datus var analizēt, izmantojot trīs dažādus rādītājus: apjomu, ātrumu un dažādību.

Apjoms attiecas uz datu lielumu. Datu kopu vidējais lielums bieži palielinās. Piemēram, lielākais cietais disks 2006. gadā bija 750 GB cietais disks. Turpretim tiek uzskatīts, ka Facebook dienas laikā ģenerē vairāk nekā 500 terabaitus datu, un lielākais šodien pieejamais cietais disks ir 16 terabaitu cietais disks. Tas, kas vienā laikmetā tiek uzskatīts par lielajiem datiem, citā laikmetā var nebūt lieli dati. Mūsdienās tiek ģenerēts vairāk datu, jo arvien vairāk objektu, kas mūs ieskauj, ir aprīkoti ar sensoriem, kamerām, mikrofoniem un citām datu vākšanas ierīcēm.

Ātrums attiecas uz to, cik ātri dati tiek pārvietoti vai, citādi sakot, cik daudz datu tiek ģenerēts noteiktā laika periodā. Sociālo mediju straumes katru minūti ģenerē simtiem tūkstošu ziņu un komentāru, savukārt jūsu e-pasta iesūtnē, iespējams, būs daudz mazāk aktivitāšu. Lielas datu straumes ir straumes, kas bieži apstrādā simtiem tūkstošu vai miljonu notikumu vairāk vai mazāk reāllaikā. Šo datu plūsmu piemēri ir tiešsaistes spēļu platformas un augstfrekvences akciju tirdzniecības algoritmi.

Dažādība attiecas uz dažāda veida datiem, kas ietverti datu kopā. Datus var veidot dažādi formāti, piemēram, audio, video, teksts, fotoattēli vai sērijas numuri. Parasti tradicionālās datu bāzes ir formatētas, lai apstrādātu vienu vai tikai dažus datu veidus. Citiem vārdiem sakot, tradicionālās datu bāzes ir strukturētas, lai glabātu datus, kas ir diezgan viendabīgi un ar konsekventu, paredzamu struktūru. Tā kā lietojumprogrammas kļūst daudzveidīgākas, pilnas ar dažādām funkcijām un arvien vairāk cilvēku tās izmanto, datu bāzēm ir jāattīstās, lai saglabātu vairāk datu veidu. Nestrukturētas datu bāzes ir ideāli piemērotas lielu datu glabāšanai, jo tajās var būt vairāki datu veidi, kas nav saistīti viens ar otru.

Lielo datu apstrādes metodes

Ir vairākas dažādas platformas un rīki, kas izstrādāti, lai atvieglotu lielo datu analīzi. Lielie datu kopumi ir jāanalizē, lai no datiem iegūtu jēgpilnus modeļus, un tas var izrādīties diezgan sarežģīts, izmantojot tradicionālos datu analīzes rīkus. Reaģējot uz nepieciešamību pēc rīkiem liela datu apjoma analīzei, dažādi uzņēmumi ir izveidojuši lielu datu analīzes rīkus. Lielo datu analīzes rīki ietver tādas sistēmas kā ZOHO Analytics, Cloudera un Microsoft BI.

Saistītās tēmas:liels datu

Nākošais

Šķiet, ka AI stratēģijas audzēšana un apgriešana samazina AI enerģijas patēriņu

Nepalaidiet garām

Pētnieki izstrādā AI rīku, lai palīdzētu identificēt viltus ziņas

Daniels Nelsons

Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.