AI 101
¿Qué es la ciencia de datos?
El campo de la ciencia de datos parece volverse más grande y popular cada día. Según LinkedIn, la ciencia de datos fue uno de los campos laborales de más rápido crecimiento en 2017 y en 2020 Glassdoor clasificó el trabajo de la ciencia de datos como uno de los tres mejores trabajos dentro de los Estados Unidos. Dada la creciente popularidad de la ciencia de datos, no sorprende que más personas se interesen en el campo. Sin embargo, ¿qué es exactamente la ciencia de datos?
Familiaricémonos con la ciencia de datos, tomemos un tiempo para definir la ciencia de datos, exploremos cómo el big data y la inteligencia artificial están cambiando el campo, conozcamos algunas herramientas comunes de ciencia de datos y examinemos algunos ejemplos de ciencia de datos.
¿Qué es la ciencia de datos?
Antes de que podamos explorar cualquier herramienta o ejemplo de ciencia de datos, queremos obtener una definición concisa de Ciencia de los datos.
Definir "ciencia de datos" es en realidad un poco complicado, porque el término se aplica a muchas tareas y métodos diferentes de investigación y análisis. Podemos comenzar recordándonos lo que significa el término “ciencia”. La ciencia es el estudio sistemático del mundo físico y natural a través de la observación y la experimentación, con el objetivo de avanzar en la comprensión humana de los procesos naturales. Las palabras importantes en esa definición son "observación" y "comprensión".
Si la ciencia de datos es el proceso de comprender el mundo a partir de patrones en los datos, entonces el responsabilidad de un científico de datos es transformar datos, analizar datos y extraer patrones de datos. En otras palabras, un científico de datos recibe datos y utiliza una serie de herramientas y técnicas diferentes para preprocesar los datos (prepararlos para el análisis) y luego analizar los datos en busca de patrones significativos.
El rol de un científico de datos es similar al de un científico tradicional. Ambos se dedican al análisis de datos para respaldar o rechazar hipótesis sobre el funcionamiento del mundo, buscando comprender los patrones en los datos para mejorar nuestra comprensión del mismo. Los científicos de datos utilizan los mismos métodos científicos que los científicos tradicionales. Un científico de datos comienza recopilando observaciones sobre los fenómenos que desea estudiar. Luego, formula una hipótesis sobre el fenómeno en cuestión e intenta encontrar datos que la refuten de alguna manera.
Si los datos no contradicen la hipótesis, es posible que puedan construir una teoría o modelo sobre cómo funciona el fenómeno, que pueden probar una y otra vez para ver si es cierto para otros conjuntos de datos similares. Si un modelo es lo suficientemente robusto, si explica bien los patrones y no se anula durante otras pruebas, incluso puede usarse para predecir ocurrencias futuras de ese fenómeno.
Un científico de datos normalmente no recopilará sus propios datos a través de un experimento. Por lo general, no diseñarán experimentos con controles y ensayos doble ciego para descubrir variables de confusión que podrían interferir con una hipótesis. La mayoría de los datos analizados por un científico de datos serán datos obtenidos a través de estudios y sistemas de observación, que es una forma en la que el trabajo de un científico de datos puede diferir del trabajo de un científico tradicional, que tiende a realizar más experimentos.
Dicho esto, se podría llamar a un científico de datos para que haga una forma de experimentación. llamado prueba A / B donde se realizan ajustes en un sistema que recopila datos para ver cómo cambian los patrones de datos.
Independientemente de las técnicas y herramientas utilizadas, la ciencia de datos tiene como objetivo final mejorar nuestra comprensión del mundo dando sentido a los datos, y los datos se obtienen a través de la observación y la experimentación. La ciencia de datos es el proceso de usar algoritmos, principios estadísticos y varias herramientas y máquinas para extraer información de los datos, información que nos ayuda a comprender los patrones en el mundo que nos rodea.
¿Qué hacen los científicos de datos?
Es posible que esté viendo que cualquier actividad que involucre el análisis de datos de una manera científica puede llamarse ciencia de datos, que es parte de lo que hace que definir la ciencia de datos sea tan difícil. Para que quede más claro, exploremos algunas de las actividades que un científico de datos podría hacer diariamente.

La ciencia de datos reúne muchas disciplinas y especialidades diferentes. Foto: Calvin Andrus vía Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
En un día cualquiera, a un científico de datos se le puede pedir que: cree un esquema de almacenamiento y recuperación de datos, cree canales ETL (extraer, transformar, cargar) de datos y limpie datos, emplee métodos estadísticos, diseñe visualizaciones y paneles de datos, implemente inteligencia artificial y algoritmos de aprendizaje automático, hacen recomendaciones de acciones basadas en los datos.
Desglosemos un poco las tareas enumeradas anteriormente.
Es posible que se requiera un científico de datos para manejar la instalación de las tecnologías necesarias para almacenar y recuperar datos, prestando atención tanto al hardware como al software. La persona responsable de este puesto también puede denominarse “Data Engineer”. Sin embargo, algunas empresas incluyen estas responsabilidades bajo el rol de científicos de datos. Un científico de datos también puede necesitar crear, o ayudar en la creación de, Tuberías ETL. Los datos rara vez vienen formateados como los necesita un científico de datos. En su lugar, los datos deberán recibirse sin procesar desde la fuente de datos, transformarse en un formato utilizable y preprocesarse (cosas como estandarizar los datos, eliminar redundancias y eliminar datos corruptos).
Métodos estadísticos de ciencia de datos
El aplicación de estadísticas Es necesario convertir la simple observación e interpretación de datos en una ciencia real. Se utilizan métodos estadísticos para extraer patrones relevantes de los conjuntos de datos, y un científico de datos debe dominar los conceptos estadísticos. Debe ser capaz de discernir correlaciones significativas de correlaciones espurias controlando las variables de confusión. También necesita conocer las herramientas adecuadas para determinar qué características del conjunto de datos son importantes para su modelo o tienen capacidad predictiva. Un científico de datos debe saber cuándo usar un enfoque de regresión frente a uno de clasificación, y cuándo preocuparse por la media de una muestra frente a la mediana. Un científico de datos no sería un científico sin estas habilidades cruciales.
Visualización de datos
Una parte crucial del trabajo de un científico de datos es comunicar sus hallazgos a otros. Si un científico de datos no puede comunicar de manera efectiva sus hallazgos a otros, entonces las implicaciones de sus hallazgos no importan. Un científico de datos también debe ser un narrador eficaz. Esto significa producir visualizaciones que comuniquen puntos relevantes sobre el conjunto de datos y los patrones descubiertos en él. Hay una gran cantidad de diferentes Visualización de datos herramientas que un científico de datos podría usar, y pueden visualizar datos con fines de exploración básica inicial (análisis exploratorio de datos) o visualizar los resultados que produce un modelo.
Recomendaciones y Aplicaciones Empresariales
Un científico de datos necesita tener cierta intuición de los requisitos y objetivos de su organización o negocio. Un científico de datos necesita comprender estas cosas porque necesita saber qué tipos de variables y características deben analizar, explorando patrones que ayudarán a su organización a alcanzar sus objetivos. Los científicos de datos deben ser conscientes de las limitaciones bajo las que operan y de las suposiciones que hace el liderazgo de la organización.
Aprendizaje automático e inteligencia artificial
Aprendizaje automático y otros algoritmos y modelos de inteligencia artificial son herramientas utilizadas por los científicos de datos para analizar datos, identificar patrones dentro de los datos, discernir relaciones entre variables y hacer predicciones sobre eventos futuros.
Ciencia de datos tradicional frente a ciencia de datos masivos
A medida que los métodos de recopilación de datos se han vuelto más sofisticados y las bases de datos más grandes, ha surgido una diferencia entre la ciencia de datos tradicional y "Big Data" ciencia.
El análisis de datos tradicional y la ciencia de datos se realizan con análisis descriptivos y exploratorios, con el objetivo de encontrar patrones y analizar los resultados de desempeño de los proyectos. Los métodos tradicionales de análisis de datos a menudo se centran solo en datos pasados y datos actuales. Los analistas de datos a menudo se ocupan de datos que ya se han limpiado y estandarizado, mientras que los científicos de datos a menudo se ocupan de datos complejos y sucios. Se pueden usar técnicas más avanzadas de análisis de datos y ciencia de datos para predecir el comportamiento futuro, aunque esto se hace más a menudo con big data, ya que los modelos predictivos a menudo necesitan grandes cantidades de datos para construirse de manera confiable.
"Big data" se refiere a datos que son demasiado grandes y complejos para ser manejados con técnicas y herramientas tradicionales de análisis de datos y ciencia. Los grandes datos a menudo se recopilan a través de plataformas en línea y se utilizan herramientas avanzadas de transformación de datos para hacer que los grandes volúmenes de datos estén listos para la inspección por parte de la ciencia de datos. A medida que se recopilan más datos todo el tiempo, una mayor parte del trabajo de los científicos de datos implica el análisis de big data.
Herramientas de ciencia de datos
Ciencia de datos comunes Las herramientas incluyen herramientas para almacenar datos, realizar análisis exploratorios, modelar datos, realizar ETL y visualizarlos. Plataformas como Amazon Web Services, Microsoft Azure y Google Cloud ofrecen herramientas para ayudar a los científicos de datos a almacenar, transformar, analizar y modelar datos. También existen herramientas independientes de ciencia de datos como Airflow (infraestructura de datos) y Tableau (visualización y análisis de datos).
En términos de aprendizaje automático y algoritmos de inteligencia artificial utilizados para modelar datos, a menudo se proporcionan a través de módulos y plataformas de ciencia de datos como TensorFlow, PyTorch y Azure Machine-learning studio. Estas plataformas, como los científicos de datos, editan sus conjuntos de datos, componen arquitecturas de aprendizaje automático y entrenan modelos de aprendizaje automático.
Otras herramientas y bibliotecas comunes de ciencia de datos incluyen SAS (para modelado estadístico), Apache Spark (para el análisis de transmisión de datos), D3.js (para visualizaciones interactivas en el navegador) y Jupyter (para visualizaciones y bloques de código interactivos y compartibles) .

Foto: Seonjae Jo vía Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
Ejemplos de ciencia de datos
Los ejemplos de ciencia de datos y sus aplicaciones están en todas partes. La ciencia de datos tiene aplicaciones en todo, desde entrega de alimentos, deportes, tráfico y salud. Los datos están en todas partes y, por lo tanto, la ciencia de datos se puede aplicar a todo.
En cuanto a los alimentos, Uber está invirtiendo en una expansión de su sistema de viajes compartidos centrado en la entrega de alimentos, [EN] Uber Eats. Uber Eats necesita hacer llegar a las personas su comida de manera oportuna, mientras aún está caliente y fresca. Para que esto suceda, los científicos de datos de la empresa deben utilizar modelos estadísticos que tengan en cuenta aspectos como la distancia desde los restaurantes hasta los puntos de entrega, las prisas de las festividades, el tiempo de cocción e incluso las condiciones climáticas, todo considerado con el objetivo de optimizar los tiempos de entrega. .
Los gerentes de equipo utilizan las estadísticas deportivas para determinar quiénes son los mejores jugadores y formar equipos fuertes y confiables que ganarán juegos. Un ejemplo notable es la ciencia de datos documentada por Michael Lewis en el libro Moneyball, donde el gerente general del equipo Oakland Athletics analizó una variedad de estadísticas para identificar jugadores de calidad que podrían fichar por el equipo a un costo relativamente bajo.
El análisis de los patrones de tráfico es fundamental para la creación de vehículos autónomos. Vehículos autónomos deben ser capaces de predecir la actividad a su alrededor y responder a los cambios en las condiciones de la carretera, como la mayor distancia de frenado requerida cuando llueve, así como la presencia de más automóviles en la carretera durante las horas pico. Más allá de los vehículos autónomos, las aplicaciones como Google Maps analizan los patrones de tráfico para decirles a los viajeros cuánto tiempo les llevará llegar a su destino utilizando varias rutas y formas de transporte.
En el ámbito de la ciencia de datos de salud, la visión artificial se combina a menudo con el aprendizaje automático y otras técnicas de IA para crear clasificadores de imágenes capaces de examinar imágenes como radiografías, resonancias magnéticas funcionales y ecografías para detectar posibles problemas médicos que puedan aparecer en la exploración. Estos algoritmos pueden utilizarse para ayudar a los médicos a diagnosticar enfermedades.
En última instancia, la ciencia de datos cubre numerosas actividades y reúne aspectos de diferentes disciplinas. Sin embargo, la ciencia de datos siempre se preocupa por contar historias convincentes e interesantes a partir de datos y por usar los datos para comprender mejor el mundo.