Connect with us

¿Qué es Big Data?

Inteligencia artificial

¿Qué es Big Data?

mm

¿Qué es Big Data?

“Big Data” es una de las palabras de moda más comúnmente utilizadas en nuestra era actual, pero ¿qué significa realmente?

Aquí está una definición rápida y sencilla de big data. Big data es datos que son demasiado grandes y complejos para ser manejados por métodos tradicionales de procesamiento y almacenamiento de datos. Si bien esa es una definición rápida que puedes utilizar como una regla general, sería útil tener una comprensión más profunda y completa de big data. Veamos algunos de los conceptos que subyacen a big data, como almacenamiento, estructura y procesamiento.

¿Qué tan grande es Big Data?

No es tan simple como decir “cualquier dato por encima del tamaño ‘X’ es big data”, el entorno en el que se manejan los datos es un factor extremadamente importante en la determinación de qué califica como big data. El tamaño que los datos necesitan tener para ser considerados big data depende del contexto, o la tarea para la que se están utilizando los datos. Dos conjuntos de datos de tamaños muy diferentes pueden ser considerados “big data” en contextos diferentes.

Para ser más concreto, si intentas enviar un archivo de 200 megabytes como archivo adjunto de correo electrónico, no podrías hacerlo. En este contexto, el archivo de 200 megabytes podría considerarse big data. En contraste, copiar un archivo de 200 megabytes a otro dispositivo dentro de la misma red local puede no tomar ningún tiempo, y en ese contexto, no se consideraría big data.

Sin embargo, supongamos que se necesitan 15 terabytes de video para ser preprocesados para su uso en aplicaciones de visión por computadora. En este caso, los archivos de video ocupan tanto espacio que incluso una computadora poderosa tardaría mucho tiempo en procesarlos todos, y por lo tanto, el procesamiento normalmente se distribuiría en varias computadoras conectadas entre sí para disminuir el tiempo de procesamiento. Estos 15 terabytes de datos de video definitivamente calificarían como big data.

Tipos de estructuras de Big Data

Big data se presenta en tres categorías diferentes de estructura: datos no estructurados, semi-estructurados y datos estructurados.

Los datos no estructurados son datos que no poseen una estructura definida, lo que significa que los datos están esencialmente en un gran grupo. Ejemplos de datos no estructurados serían una base de datos llena de imágenes no etiquetadas.

Los datos semi-estructurados son datos que no tienen una estructura formal, pero existen dentro de una estructura suelta. Por ejemplo, los datos de correo electrónico podrían considerarse como datos semi-estructurados, porque podrías referirte a los datos contenidos en correos electrónicos individuales, pero no se han establecido patrones de datos formales.

Los datos estructurados son datos que tienen una estructura formal, con puntos de datos categorizados por diferentes características. Un ejemplo de datos estructurados es una hoja de cálculo de Excel que contiene información de contacto como nombres, correos electrónicos, números de teléfono y sitios web.

Si deseas leer más sobre las diferencias en estos tipos de datos, consulta el enlace aquí.

Métricas para evaluar Big Data

Big data se puede analizar en términos de tres métricas diferentes: volumen, velocidad y variedad.

El volumen se refiere al tamaño de los datos. El tamaño promedio de los conjuntos de datos está aumentando constantemente. Por ejemplo, el disco duro más grande en 2006 era un disco duro de 750 GB. En contraste, se cree que Facebook genera más de 500 terabytes de datos en un día y el disco duro más grande disponible hoy en día es un disco duro de 16 terabytes. Lo que califica como big data en una era puede no ser big data en otra. Se generan más datos hoy en día porque más y más objetos que nos rodean están equipados con sensores, cámaras, micrófonos y otros dispositivos de recopilación de datos.

La velocidad se refiere a lo rápido que se mueven los datos, o para decirlo de otra manera, a cuántos datos se generan dentro de un período de tiempo determinado. Las transmisiones de redes sociales generan cientos de miles de publicaciones y comentarios cada minuto, mientras que tu propia bandeja de entrada de correo electrónico probablemente tenga mucha menos actividad. Las transmisiones de big data son transmisiones que a menudo manejan cientos de miles o millones de eventos en tiempo real o casi en tiempo real. Ejemplos de estas transmisiones de datos son plataformas de juegos en línea y algoritmos de negociación de acciones de alta frecuencia.

La variedad se refiere a los diferentes tipos de datos contenidos en el conjunto de datos. Los datos pueden estar compuestos por muchos formatos diferentes, como audio, video, texto, fotos o números de serie. En general, las bases de datos tradicionales están formateadas para manejar un tipo de datos, o solo unos pocos. Para decirlo de otra manera, las bases de datos tradicionales están estructuradas para contener datos que son bastante homogéneos y de una estructura consistente y predecible. A medida que las aplicaciones se vuelven más diversas, llenas de características diferentes y utilizadas por más personas, las bases de datos han tenido que evolucionar para almacenar más tipos de datos. Las bases de datos no estructuradas son ideales para contener big data, ya que pueden contener múltiples tipos de datos que no están relacionados entre sí.

Métodos de manejo de Big Data

Hay una variedad de plataformas y herramientas diseñadas para facilitar el análisis de big data. Los conjuntos de big data necesitan ser analizados para extraer patrones significativos de los datos, una tarea que puede resultar bastante desafiante con herramientas de análisis de datos tradicionales. En respuesta a la necesidad de herramientas para analizar grandes volúmenes de datos, varias empresas han creado herramientas de análisis de big data. Las herramientas de análisis de big data incluyen sistemas como ZOHO Analytics, Cloudera y Microsoft BI.

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.