Inteligență artificială

Ce este Big Data?

mm

Ce este Big Data?

„Big Data” este unul dintre cuvintele-cheie folosite în era noastră, dar ce înseamnă realmente?

Iată o definiție rapidă și simplă a big data. Big data este datele care sunt prea mari și complexe pentru a fi manipulate de metodele tradiționale de procesare și stocare a datelor. Deși aceasta este o definiție rapidă pe care o puteți folosi ca o regulă, ar fi util să aveți o înțelegere mai profundă și mai completă a big data. Să aruncăm o privire asupra unor concepte care stau la baza big data, cum ar fi stocarea, structura și procesarea.

Cât de mare este Big Data?

Nu este atât de simplu să spunem „orice date care depășesc dimensiunea ‘X’ sunt big data”, deoarece mediul în care datele sunt manipulate este un factor extrem de important în determinarea a ceea ce califică ca big data. Dimensiunea pe care datele trebuie să o aibă pentru a fi considerate big data depinde de context sau de sarcina pentru care datele sunt folosite. Două seturi de date de dimensiuni foarte diferite pot fi considerate „big data” în contexte diferite.

Pentru a fi mai concret, dacă încercați să trimiteți un fișier de 200 de megaocteți ca atașament de e-mail, nu veți putea face acest lucru. În acest context, fișierul de 200 de megaocteți ar putea fi considerat big data. În schimb, copierea unui fișier de 200 de megaocteți pe un alt dispozitiv din aceeași rețea locală poate să nu dureze deloc, și în acest context, nu ar fi considerat big data.

Cu toate acestea, să presupunem că 15 teraocteți de videoclipuri trebuie să fie prelucrate pentru a fi folosite în aplicații de viziune computerizată. În acest caz, fișierele video ocupă atât de mult spațiu încât chiar și un calculator puternic ar dura mult timp pentru a le procesa pe toate, și astfel procesarea ar fi de obicei distribuită pe mai multe calculatoare legate între ele pentru a reduce timpul de procesare. Acești 15 teraocteți de date video ar califica cu siguranță ca big data.

Tipuri de structuri Big Data

Big data vine în trei categorii diferite de structură: date neordonate, semistructurate și structurate.

Datele neordonate sunt date care nu posedă o structură definită, ceea ce înseamnă că datele sunt esențialmente doar într-un singur bazin mare. Exemple de date neordonate ar fi o bază de date plină de imagini nelabelate.

Datele semistructurate sunt date care nu au o structură formală, dar există într-o structură laxă. De exemplu, datele de e-mail ar putea fi considerate date semistructurate, deoarece puteți face referire la datele conținute în e-mailuri individuale, dar nu s-au stabilit tipare de date formale.

Datele structurate sunt date care au o structură formală, cu puncte de date categorisite după diferite caracteristici. Un exemplu de date structurate este o foaie de calcul Excel care conține informații de contact, cum ar fi nume, adrese de e-mail, numere de telefon și site-uri web.

Dacă doriți să citiți mai mult despre diferențele dintre aceste tipuri de date, verificați linkul de aici.

Metrici pentru evaluarea Big Data

Big data poate fi analizat în funcție de trei metrici diferite: volum, viteză și varietate.

Volumul se referă la dimensiunea datelor. Dimensiunea medie a seturilor de date este adesea în creștere. De exemplu, cel mai mare hard disk din 2006 era un hard disk de 750 GB. În schimb, se crede că Facebook generează peste 500 de teraocteți de date într-o zi, iar cel mai mare hard disk disponibil astăzi este un hard disk de 16 teraocteți. Ceea ce califică ca big data într-o eră poate să nu fie big data într-o altă eră. Mai multe date sunt generate astăzi, deoarece mai multe obiecte din jurul nostru sunt echipate cu senzori, camere, microfoane și alte dispozitive de colectare a datelor.

Viteza se referă la cât de repede se deplasează datele, sau, altfel spus, cât de multe date sunt generate într-o perioadă de timp dată. Fluxurile de social media generează sute de mii de postări și comentarii în fiecare minut, în timp ce cutia dvs. de e-mail va avea probabil mult mai puțină activitate. Fluxurile de big data sunt fluxuri care manipulează adesea sute de mii sau milioane de evenimente în timp real. Exemple de astfel de fluxuri de date sunt platformele de jocuri online și algoritmii de tranzacționare la bursă de valori de înaltă frecvență.

Varietatea se referă la diferitele tipuri de date conținute în setul de date. Datele pot fi alcătuite din multe formate diferite, cum ar fi audio, video, text, fotografii sau numere seriale. În general, bazele de date tradiționale sunt formate pentru a manipula unul sau doar câteva tipuri de date. Pentru a spune asta altfel, bazele de date tradiționale sunt structurate pentru a stoca date care sunt destul de omogene și au o structură consistentă și previzibilă. Pe măsură ce aplicațiile devin mai diverse, pline de caracteristici diferite și utilizate de mai multe persoane, bazele de date au trebuit să evolueze pentru a stoca mai multe tipuri de date. Bazele de date neordonate sunt ideale pentru stocarea big data, deoarece pot stoca multiple tipuri de date care nu sunt legate între ele.

Metode de manipulare a Big Data

Există o varietate de platforme și instrumente proiectate pentru a facilita analiza big data. Bazinele de big data trebuie să fie analizate pentru a extrage modele semnificative din date, o sarcină care poate fi destul de dificilă cu instrumentele tradiționale de analiză a datelor. Ca răspuns la nevoia de instrumente pentru a analiza volume mari de date, o varietate de companii au creat instrumente de analiză a big data. Instrumentele de analiză a big data includ sisteme cum ar fi ZOHO Analytics, Cloudera și Microsoft BI.

Blogger și programator cu specializări în Machine Learning și Deep Learning subiecte. Daniel speră să ajute pe alții să folosească puterea inteligenței artificiale pentru binele social.