taló Què és el Big Data? - Unite.AI
Connecteu-vos amb nosaltres

IA 101

Què és el Big Data?

mm
actualitzat on

Què és el Big Data?

"Big Data" és una de les paraules de moda més utilitzades de la nostra era actual, però què vol dir realment?

Aquí teniu una definició ràpida i senzilla de big data. Big data Són dades massa grans i complexes per ser manejades pels mètodes tradicionals de processament i emmagatzematge de dades. Tot i que aquesta és una definició ràpida que podeu utilitzar com a heurística, seria útil tenir una comprensió més profunda i completa de les grans dades. Fem una ullada a alguns dels conceptes subjacents a les grans dades, com ara l'emmagatzematge, l'estructura i el processament.

Què tan gran és el Big Data?

No és tan senzill com dir "qualsevol dada superior a la mida "X" és big data", l'entorn en què es gestionen les dades és un factor extremadament important en determinar què es qualifica de big data. La mida que han de tenir les dades, per ser considerades grans dades, depèn del context o de la tasca en què s'utilitzen les dades. Dos conjunts de dades de mides molt diferents es poden considerar "big data" en diferents contextos.

Per ser més concret, si intenteu enviar un fitxer de 200 megabytes com a fitxer adjunt de correu electrònic, no ho podríeu fer. En aquest context, el fitxer de 200 megabytes es podria considerar big data. En canvi, copiar un fitxer de 200 megabytes a un altre dispositiu dins de la mateixa LAN pot no trigar cap temps i, en aquest context, no es consideraria com a grans dades.

Tanmateix, suposem que s'han de processar prèviament 15 terabytes de vídeo per utilitzar-los en aplicacions de visió per ordinador. En aquest cas, els fitxers de vídeo ocupen tant espai que fins i tot un ordinador potent trigaria molt de temps a processar-los tots i, per tant, el processament es distribuiria normalment entre diversos ordinadors connectats entre ells per reduir el temps de processament. Aquests 15 terabytes de dades de vídeo definitivament es qualificarien com a grans dades.

Tipus d'estructures de Big Data

Les grans dades es presenten en tres categories diferents d'estructura: dades no estructurades, dades semiestructurades i dades estructurades.

Les dades no estructurades són dades que no tenen estructura definible, és a dir, les dades es troben essencialment en un conjunt gran. Exemples de dades no estructurades serien una base de dades plena d'imatges sense etiquetar.

Les dades semiestructurades són dades que no tenen una estructura formal, però que existeixen dins d'una estructura solta. Per exemple, les dades de correu electrònic poden comptar com a dades semiestructurades, perquè podeu fer referència a les dades contingudes en correus electrònics individuals, però no s'han establert patrons de dades formals.

Les dades estructurades són dades que tenen una estructura formal, amb punts de dades categoritzats per diferents característiques. Un exemple de dades estructurades és un full de càlcul Excel que conté informació de contacte com ara noms, correus electrònics, números de telèfon i llocs web.

Si voleu obtenir més informació sobre les diferències en aquests tipus de dades, consulteu l'enllaç aquí.

Mètriques per a l'avaluació de Big Data

Les grans dades es poden analitzar en termes de tres mètriques diferents: volum, velocitat i varietat.

El volum fa referència a la mida de les dades. La mida mitjana dels conjunts de dades sovint augmenta. Per exemple, el disc dur més gran l'any 2006 era un disc dur de 750 GB. En canvi, es creu que Facebook genera més de 500 terabytes de dades en un dia i el disc dur de consum més gran disponible actualment és un disc dur de 16 terabytes. El que es quantifica com a big data en una època pot no ser big data en una altra. Avui dia es generen més dades perquè cada cop hi ha més objectes que ens envolten estan equipats amb sensors, càmeres, micròfons i altres dispositius de recollida de dades.

La velocitat es refereix a la rapidesa amb què es mouen les dades, o per dir-ho d'una altra manera, quantes dades es generen en un període de temps determinat. Els fluxos de xarxes socials generen centenars de milers de publicacions i comentaris cada minut, mentre que la vostra safata d'entrada de correu electrònic probablement tindrà molta menys activitat. Els fluxos de grans dades són fluxos que sovint gestionen centenars de milers o milions d'esdeveniments en més o menys temps real. Alguns exemples d'aquests fluxos de dades són les plataformes de jocs en línia i els algorismes de negociació d'accions d'alta freqüència.

La varietat fa referència als diferents tipus de dades continguts en el conjunt de dades. Les dades poden tenir molts formats diferents, com ara àudio, vídeo, text, fotos o números de sèrie. En general, les bases de dades tradicionals estan formatades per gestionar un, o només un parell, tipus de dades. Per dir-ho d'una altra manera, les bases de dades tradicionals s'estructuren per contenir dades força homogènies i d'una estructura coherent i previsible. A mesura que les aplicacions es fan més diverses, plenes de funcions diferents i utilitzades per més persones, les bases de dades han hagut d'evolucionar per emmagatzemar més tipus de dades. Les bases de dades no estructurades són ideals per contenir grans dades, ja que poden contenir diversos tipus de dades que no estan relacionades entre si.

Mètodes de maneig de Big Data

Hi ha diverses plataformes i eines dissenyades per facilitar l'anàlisi de big data. Cal analitzar els grups de dades grans per extreure patrons significatius de les dades, una tasca que pot resultar bastant difícil amb les eines tradicionals d'anàlisi de dades. En resposta a la necessitat d'eines per analitzar grans volums de dades, diverses empreses han creat eines d'anàlisi de big data. Les eines d'anàlisi de grans dades inclouen sistemes com ZOHO Analytics, Cloudera i Microsoft BI.