Connect with us

¿Qué es la Ciencia de Datos?

IA 101

¿Qué es la Ciencia de Datos?

mm

El campo de la ciencia de datos parece crecer y volverse más popular cada día. Según LinkedIn, la ciencia de datos fue uno de los campos de trabajo de crecimiento más rápido en 2017 y en 2020 Glassdoor clasificó el trabajo de ciencia de datos como uno de los tres mejores trabajos dentro de los Estados Unidos. Dada la creciente popularidad de la ciencia de datos, no es de extrañar que más personas se estén interesando en el campo. Sin embargo, ¿qué es exactamente la ciencia de datos?

Comencemos a familiarizarnos con la ciencia de datos, definiendo qué es la ciencia de datos, explorando cómo los datos masivos y la inteligencia artificial están cambiando el campo, aprendiendo sobre algunas herramientas comunes de ciencia de datos y examinando algunos ejemplos de ciencia de datos.

¿Qué es la Ciencia de Datos?

Antes de poder explorar cualquier herramienta o ejemplo de ciencia de datos, queremos obtener una definición concisa de ciencia de datos.

Definir “ciencia de datos” es un poco complicado, porque el término se aplica a muchas tareas y métodos de investigación y análisis diferentes. Podemos comenzar recordando qué significa el término “ciencia”. La ciencia es el estudio sistemático del mundo físico y natural a través de la observación y la experimentación, con el objetivo de avanzar en la comprensión humana de los procesos naturales. Las palabras importantes en esa definición son “observación” y “comprensión”.

Si la ciencia de datos es el proceso de comprender el mundo a partir de patrones en los datos, entonces la responsabilidad de un científico de datos es transformar los datos, analizar los datos y extraer patrones de los datos. En otras palabras, un científico de datos se le proporciona datos y utiliza una variedad de herramientas y técnicas para preprocesar los datos (prepararlos para el análisis) y luego analizar los datos para encontrar patrones significativos.

El papel de un científico de datos es similar al de un científico tradicional. Ambos se preocupan por el análisis de datos para apoyar o rechazar hipótesis sobre cómo funciona el mundo, tratando de dar sentido a los patrones en los datos para mejorar nuestra comprensión del mundo. Los científicos de datos utilizan los mismos métodos científicos que un científico tradicional. Un científico de datos comienza recopilando observaciones sobre algún fenómeno que desean estudiar. Luego formulan una hipótesis sobre el fenómeno en cuestión y tratan de encontrar datos que contradigan su hipótesis de alguna manera.

Si la hipótesis no es contradicha por los datos, pueden construir una teoría o modelo sobre cómo funciona el fenómeno, que pueden probar una y otra vez para ver si es cierto para otros conjuntos de datos similares. Si un modelo es lo suficientemente robusto, si explica patrones bien y no es contradicho durante otras pruebas, incluso se puede utilizar para predecir eventos futuros del mismo fenómeno.

Un científico de datos generalmente no recopilará sus propios datos a través de un experimento. No diseñará experimentos con controles y ensayos doble ciego para descubrir variables de confusión que podrían interferir con una hipótesis. La mayoría de los datos analizados por un científico de datos se obtendrán a través de estudios observacionales y sistemas, lo que es una forma en que el trabajo de un científico de datos puede diferir del de un científico tradicional, que tiende a realizar más experimentos.

Dicho esto, un científico de datos puede ser llamado a realizar una forma de experimentación llamada prueba A/B donde se realizan ajustes en un sistema que recopila datos para ver cómo cambian los patrones de datos.

Independientemente de las técnicas y herramientas utilizadas, la ciencia de datos tiene como objetivo final mejorar nuestra comprensión del mundo al dar sentido a los datos, y los datos se obtienen a través de la observación y la experimentación. La ciencia de datos es el proceso de utilizar algoritmos, principios estadísticos y diversas herramientas y máquinas para extraer conocimientos de los datos, conocimientos que nos ayudan a comprender patrones en el mundo que nos rodea.

¿Qué Hacen los Científicos de Datos?

Puede que estés viendo que cualquier actividad que involucre el análisis de datos de manera científica se puede llamar ciencia de datos, lo que es parte de lo que hace que definir la ciencia de datos sea tan difícil. Para aclarar, exploremos algunas de las actividades que un científico de datos puede hacer a diario.

La ciencia de datos reúne muchas disciplinas y especialidades diferentes. Foto: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

En cualquier día dado, un científico de datos puede ser solicitado para: crear esquemas de almacenamiento y recuperación de datos, crear tuberías de ETL (extracción, transformación y carga) y limpiar datos, emplear métodos estadísticos, crear visualizaciones de datos y paneles de control, implementar algoritmos de inteligencia artificial y aprendizaje automático, hacer recomendaciones para acciones basadas en los datos.

Desglosemos un poco las tareas anteriores.

Un científico de datos puede ser requerido para manejar la instalación de tecnologías necesarias para almacenar y recuperar datos, prestando atención tanto al hardware como al software. La persona responsable de esta posición también puede ser llamada “Ingeniero de Datos“. Sin embargo, algunas empresas incluyen estas responsabilidades en el rol de científicos de datos. Un científico de datos también puede necesitar crear, o ayudar en la creación de, tuberías de ETL. Los datos rara vez vienen formateados exactamente como un científico de datos los necesita. En lugar de eso, los datos necesitarán ser recibidos en forma bruta desde la fuente de datos, transformados en un formato utilizable y preprocesados (cosas como estandarizar los datos, eliminar redundancias y eliminar datos corruptos).

Métodos Estadísticos de la Ciencia de Datos

La aplicación de estadísticas es necesaria para convertir la simple observación de datos y su interpretación en una ciencia real. Los métodos estadísticos se utilizan para extraer patrones relevantes de los conjuntos de datos, y un científico de datos necesita estar bien versado en conceptos estadísticos. Necesitan ser capaces de discernir correlaciones significativas de correlaciones espurias controlando las variables de confusión. También necesitan saber qué herramientas utilizar para determinar qué características en el conjunto de datos son importantes para su modelo/tienen poder predictivo. Un científico de datos necesita saber cuándo utilizar un enfoque de regresión versus un enfoque de clasificación, y cuándo preocuparse por la media de una muestra versus la mediana de una muestra. Un científico de datos simplemente no sería un científico sin estas habilidades cruciales.

Visualización de Datos

Una parte crucial del trabajo de un científico de datos es comunicar sus hallazgos a otros. Si un científico de datos no puede comunicar sus hallazgos de manera efectiva a otros, entonces las implicaciones de sus hallazgos no importan. Un científico de datos también debe ser un narrador eficaz. Esto significa producir visualizaciones que comuniquen puntos relevantes sobre el conjunto de datos y los patrones descubiertos dentro de él. Hay una gran cantidad de diferentes herramientas de visualización de datos que un científico de datos puede utilizar, y pueden visualizar datos para fines de exploración inicial, básica (análisis de datos exploratorio) o visualizar los resultados que produce un modelo.

Recomendaciones y Aplicaciones Comerciales

Un científico de datos necesita tener alguna intuición de los requisitos y objetivos de su organización o empresa. Un científico de datos necesita comprender estas cosas porque necesita saber qué tipos de variables y características debe analizar, explorar patrones que ayudarán a su organización a lograr sus objetivos. Los científicos de datos necesitan ser conscientes de las limitaciones bajo las cuales operan y las suposiciones que los líderes de la organización están haciendo.

Aprendizaje Automático e Inteligencia Artificial

El aprendizaje automático y otros algoritmos y modelos de inteligencia artificial son herramientas utilizadas por los científicos de datos para analizar datos, identificar patrones dentro de los datos, discernir relaciones entre variables y hacer predicciones sobre eventos futuros.

Ciencia de Datos Tradicional vs. Ciencia de Datos de Gran Escala

A medida que los métodos de recopilación de datos se han vuelto más sofisticados y las bases de datos más grandes, ha surgido una diferencia entre la ciencia de datos tradicional y la ciencia de datos de gran escala.

La analítica de datos tradicional y la ciencia de datos se realizan con analítica descriptiva y exploratoria, con el objetivo de encontrar patrones y analizar los resultados del desempeño de los proyectos. Los métodos de analítica de datos tradicionales a menudo se centran en los datos pasados y actuales. Los analistas de datos a menudo tratan con datos que ya han sido limpiados y estandarizados, mientras que los científicos de datos a menudo tratan con datos complejos y sucios. Las técnicas de analítica de datos más avanzadas y la ciencia de datos pueden utilizarse para predecir el comportamiento futuro, aunque esto se hace más comúnmente con datos de gran escala, ya que los modelos predictivos a menudo necesitan grandes cantidades de datos para ser construidos de manera confiable.

Los “datos de gran escala” se refieren a datos que son demasiado grandes y complejos para ser manejados con técnicas y herramientas de analítica de datos y ciencia de datos tradicionales. Los datos de gran escala a menudo se recopilan a través de plataformas en línea y se utilizan herramientas de transformación de datos avanzadas para preparar los grandes volúmenes de datos para su inspección por la ciencia de datos. A medida que se recopila más datos todo el tiempo, más del trabajo de un científico de datos implica el análisis de datos de gran escala.

Herramientas de Ciencia de Datos

Las herramientas comunes de ciencia de datos incluyen herramientas para almacenar datos, realizar análisis de datos exploratorio, modelar datos, realizar ETL y visualizar datos. Plataformas como Amazon Web Services, Microsoft Azure y Google Cloud ofrecen herramientas para ayudar a los científicos de datos a almacenar, transformar, analizar y modelar datos. También hay herramientas de ciencia de datos independientes como Airflow (infraestructura de datos) y Tableau (análisis y visualización de datos).

En cuanto a los algoritmos de aprendizaje automático y la inteligencia artificial utilizados para modelar datos, a menudo se proporcionan a través de módulos y plataformas de ciencia de datos como TensorFlow, PyTorch y el estudio de aprendizaje automático de Azure. Estas plataformas permiten que los científicos de datos editen sus conjuntos de datos, compongan arquitecturas de aprendizaje automático y entrenen modelos de aprendizaje automático.

Otras herramientas y bibliotecas comunes de ciencia de datos incluyen SAS (para modelado estadístico), Apache Spark (para el análisis de datos de transmisión), D3.js (para visualizaciones interactivas en el navegador) y Jupyter (para bloques de código interactivos y visualizaciones compartibles).

Foto: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Ejemplos de Ciencia de Datos

Los ejemplos de ciencia de datos y sus aplicaciones están en todas partes. La ciencia de datos tiene aplicaciones en todo, desde la entrega de comida, los deportes, el tráfico y la salud. Los datos están en todas partes y, por lo tanto, la ciencia de datos se puede aplicar a todo.

En cuanto a la comida, Uber está invirtiendo en una expansión de su sistema de viajes compartidos centrado en la entrega de comida, Uber Eats. Uber Eats necesita entregar la comida a las personas de manera oportuna, mientras aún está caliente y fresca. Para que esto ocurra, los científicos de datos de la empresa necesitan utilizar modelado estadístico que tenga en cuenta aspectos como la distancia desde los restaurantes hasta los puntos de entrega, los atracones de días festivos, el tiempo de cocción y incluso las condiciones climáticas, todo considerado con el objetivo de optimizar los tiempos de entrega.

Las estadísticas deportivas se utilizan por los gerentes de equipos para determinar quiénes son los mejores jugadores y formar equipos fuertes y confiables que ganarán partidos. Un ejemplo notable es la ciencia de datos documentada por Michael Lewis en el libro Moneyball, donde el gerente general del equipo de béisbol Oakland Athletics analizó una variedad de estadísticas para identificar jugadores de calidad que podrían ser firmados por el equipo a un costo relativamente bajo.

El análisis de patrones de tráfico es fundamental para la creación de vehículos autónomos. Los vehículos autónomos deben ser capaces de predecir la actividad que los rodea y responder a cambios en las condiciones de la carretera, como la distancia de frenado aumentada requerida cuando llueve, así como la presencia de más coches en la carretera durante la hora pico. Más allá de los vehículos autónomos, aplicaciones como Google Maps analizan patrones de tráfico para decirles a los viajeros cuánto tiempo les tomará llegar a su destino utilizando varias rutas y formas de transporte.

En cuanto a la salud, la ciencia de datos, la visión computacional se combina a menudo con técnicas de aprendizaje automático y otras técnicas de inteligencia artificial para crear clasificadores de imágenes capaces de examinar cosas como rayos X, FMRIs y ultrasonidos para ver si hay problemas médicos potenciales que podrían aparecer en la exploración. Estos algoritmos se pueden utilizar para ayudar a los clínicos a diagnosticar enfermedades.

En última instancia, la ciencia de datos abarca numerosas actividades y reúne aspectos de diferentes disciplinas. Sin embargo, la ciencia de datos siempre se preocupa por contar historias interesantes y convincentes a partir de los datos, y por utilizar los datos para comprender mejor el mundo.

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.