cung Çfarë është Big Data? - Bashkohu.AI
Lidhu me ne

UA 101

Çfarë është Big Data?

mm
Përditësuar on

Çfarë është Big Data?

"Big Data" është një nga fjalët e zakonshme të përdorura të epokës sonë aktuale, por çfarë do të thotë në të vërtetë?

Këtu është një përkufizim i shpejtë dhe i thjeshtë i të dhënave të mëdha. Të dhënat e Big janë të dhëna që janë shumë të mëdha dhe komplekse për t'u trajtuar nga metodat tradicionale të përpunimit dhe ruajtjes së të dhënave. Ndërsa ky është një përkufizim i shpejtë që mund ta përdorni si një heuristik, do të ishte e dobishme të kishim një kuptim më të thellë dhe më të plotë të të dhënave të mëdha. Le të hedhim një vështrim në disa nga konceptet që qëndrojnë në themel të të dhënave të mëdha, si ruajtja, struktura dhe përpunimi.

Sa të mëdha janë të dhënat e mëdha?

Nuk është aq e thjeshtë sa të thuash "çdo e dhënë mbi madhësinë 'X' është e dhëna e madhe", mjedisi në të cilin po trajtohen të dhënat është një faktor jashtëzakonisht i rëndësishëm në përcaktimi i asaj që kualifikohet si të dhëna të mëdha. Madhësia që të dhënat duhet të jenë, në mënyrë që të konsiderohen të dhëna të mëdha, varet nga konteksti ose detyra në të cilën përdoren të dhënat. Dy grupe të dhënash me madhësi shumë të ndryshme mund të konsiderohen "të dhëna të mëdha" në kontekste të ndryshme.

Për të qenë më konkret, nëse përpiqeni të dërgoni një skedar 200 megabajt si një bashkëngjitje emaili, nuk do të mund ta bënit këtë. Në këtë kontekst, skedari 200 megabajt mund të konsiderohet i madh i të dhënave. Në të kundërt, kopjimi i një skedari 200 megabajt në një pajisje tjetër brenda të njëjtit LAN mund të mos marrë fare kohë dhe në këtë kontekst, nuk do të konsiderohej si të dhëna të mëdha.

Megjithatë, le të supozojmë se video me vlerë 15 terabajt duhet të përpunohet paraprakisht për t'u përdorur në trajnimin e aplikacioneve të vizionit kompjuterik. Në këtë rast, skedarët video zënë aq shumë hapësirë ​​sa që edhe një kompjuteri i fuqishëm do t'i duhej një kohë e gjatë për t'i përpunuar të gjithë, dhe kështu përpunimi normalisht do të shpërndahej nëpër kompjuterë të shumtë të lidhur së bashku për të ulur kohën e përpunimit. Këto 15 terabajt të dhëna video do të kualifikoheshin patjetër si të dhëna të mëdha.

Llojet e strukturave të të dhënave të mëdha

Të dhënat e mëdha vijnë në tre kategori të ndryshme të strukturës: të dhëna të pastrukturuara, gjysmë të strukturuara dhe të strukturuara.

Të dhënat e pastrukturuara janë të dhëna që nuk kanë strukturë të përcaktuar, që do të thotë se të dhënat janë në thelb vetëm në një grup të madh. Shembuj të të dhënave të pastrukturuara do të ishin një bazë të dhënash plot me imazhe të paetiketuara.

Të dhënat gjysmë të strukturuara janë të dhëna që nuk kanë një strukturë formale, por ekzistojnë brenda një strukture të lirshme. Për shembull, të dhënat e postës elektronike mund të llogariten si të dhëna gjysmë të strukturuara, sepse mund t'i referoheni të dhënave që përmbahen në email-et individuale, por modelet formale të të dhënave nuk janë krijuar.

Të dhënat e strukturuara janë të dhëna që kanë një strukturë formale, me pika të dhënash të kategorizuara sipas veçorive të ndryshme. Një shembull i të dhënave të strukturuara është një spreadsheet excel që përmban informacione kontakti si emrat, emailet, numrat e telefonit dhe faqet e internetit.

Nëse dëshironi të lexoni më shumë rreth ndryshimeve në këto lloje të të dhënave, kontrolloni lidhjen këtu.

Metrika për vlerësimin e të dhënave të mëdha

Të dhënat e mëdha mund të analizohen në terma të tre metrikave të ndryshme: vëllimi, shpejtësia dhe shumëllojshmëria.

Vëllimi i referohet madhësisë së të dhënave. Madhësia mesatare e grupeve të të dhënave shpesh po rritet. Për shembull, hard disku më i madh në 2006 ishte një hard disk 750 GB. Në të kundërt, Facebook mendohet të gjenerojë mbi 500 terabajt të dhëna në ditë dhe hard disku më i madh i konsumatorit i disponueshëm sot është një hard disk 16 terabajt. Ajo që përcaktohen si të dhëna të mëdha në një epokë mund të mos jenë të dhëna të mëdha në një tjetër. Sot gjenerohen më shumë të dhëna sepse gjithnjë e më shumë objekte që na rrethojnë janë të pajisura me sensorë, kamera, mikrofona dhe pajisje të tjera për mbledhjen e të dhënave.

Shpejtësia i referohet shpejtësisë së lëvizjes së të dhënave, ose për ta thënë ndryshe, sa të dhëna gjenerohen brenda një periudhe të caktuar kohe. Transmetimet e mediave sociale gjenerojnë qindra mijëra postime dhe komente çdo minutë, ndërsa kutia juaj e postës elektronike me siguri do të ketë shumë më pak aktivitet. Transmetimet e të dhënave të mëdha janë transmetime që shpesh trajtojnë qindra mijëra ose miliona ngjarje në pak a shumë në kohë reale. Shembuj të këtyre rrymave të të dhënave janë platformat e lojërave në internet dhe algoritmet e tregtimit të aksioneve me frekuencë të lartë.

Shumëllojshmëria i referohet llojeve të ndryshme të të dhënave të përfshira në grupin e të dhënave. Të dhënat mund të përbëhen nga shumë formate të ndryshme, si audio, video, tekst, foto ose numra serialë. Në përgjithësi, bazat e të dhënave tradicionale janë të formatuara për të trajtuar një, ose vetëm disa lloje të dhënash. Për ta thënë ndryshe, bazat e të dhënave tradicionale janë të strukturuara për të mbajtur të dhëna që janë mjaft homogjene dhe me një strukturë konsistente dhe të parashikueshme. Ndërsa aplikacionet bëhen më të larmishme, plot funksione të ndryshme dhe përdoren nga më shumë njerëz, bazave të të dhënave duhet të zhvillohen për të ruajtur më shumë lloje të dhënash. Bazat e të dhënave të pastrukturuara janë ideale për mbajtjen e të dhënave të mëdha, pasi ato mund të mbajnë lloje të shumta të dhënash që nuk janë të lidhura me njëra-tjetrën.

Metodat e trajtimit të të dhënave të mëdha

Ekzistojnë një sërë platformash dhe mjetesh të ndryshme të krijuara për të lehtësuar analizën e të dhënave të mëdha. Grupet e mëdha të të dhënave duhet të analizohen për të nxjerrë modele domethënëse nga të dhënat, një detyrë që mund të rezultojë mjaft sfiduese me mjetet tradicionale të analizës së të dhënave. Në përgjigje të nevojës për mjete për të analizuar vëllime të mëdha të të dhënave, një sërë kompanish kanë krijuar mjete të analizës së të dhënave të mëdha. Mjetet e analizës së të dhënave të mëdha përfshijnë sisteme si ZOHO Analytics, Cloudera dhe Microsoft BI.