IA 101
O que é Ciência de Dados?

O campo da ciência de dados parece estar crescendo e se tornando cada vez mais popular a cada dia. De acordo com o LinkedIn, a ciência de dados foi uma das áreas de trabalho de crescimento mais rápido em 2017 e em 2020, o Glassdoor classificou o trabalho de cientista de dados como um dos três melhores trabalhos nos Estados Unidos. Dada a crescente popularidade da ciência de dados, não é surpresa que mais pessoas estejam se interessando pelo campo. No entanto, o que é exatamente a ciência de dados?
Vamos nos familiarizar com a ciência de dados, passando algum tempo para definir a ciência de dados, explorar como os grandes dados e a inteligência artificial estão mudando o campo, aprender sobre algumas ferramentas comuns de ciência de dados e examinar alguns exemplos de ciência de dados.
O que é Ciência de Dados?
Antes de explorarmos quaisquer ferramentas ou exemplos de ciência de dados, queremos obter uma definição concisa de ciência de dados.
Definir “ciência de dados” é um pouco complicado, porque o termo é aplicado a muitas tarefas e métodos de investigação e análise. Podemos começar lembrando o que o termo “ciência” significa. A ciência é o estudo sistemático do mundo físico e natural por meio da observação e experimentação, visando avançar a compreensão humana dos processos naturais. As palavras importantes nessa definição são “observação” e “compreensão”.
Se a ciência de dados é o processo de entender o mundo a partir de padrões em dados, então a responsabilidade de um cientista de dados é transformar dados, analisar dados e extrair padrões de dados. Em outras palavras, um cientista de dados é fornecido com dados e usa uma variedade de ferramentas e técnicas para pré-processar os dados (prepará-los para análise) e, em seguida, analisar os dados em busca de padrões significativos.
O papel de um cientista de dados é semelhante ao de um cientista tradicional. Ambos estão preocupados com a análise de dados para apoiar ou rejeitar hipóteses sobre como o mundo opera, tentando fazer sentido de padrões nos dados para melhorar nossa compreensão do mundo. Os cientistas de dados usam os mesmos métodos científicos que um cientista tradicional. Um cientista de dados começa reunindo observações sobre algum fenômeno que gostaria de estudar. Em seguida, formula uma hipótese sobre o fenômeno em questão e tenta encontrar dados que contradigam sua hipótese de alguma forma.
Se a hipótese não for contradita pelos dados, eles podem ser capazes de construir uma teoria ou modelo sobre como o fenômeno funciona, que podem testar novamente e novamente para ver se é verdadeiro para outros conjuntos de dados semelhantes. Se um modelo for suficientemente robusto, se explicar padrões bem e não for contradito durante outros testes, ele até pode ser usado para prever ocorrências futuras desse fenômeno.
Um cientista de dados normalmente não coletará seus próprios dados por meio de um experimento. Eles geralmente não projetarão experimentos com controles e ensaios duplo-cegos para descobrir variáveis de confusão que possam interferir em uma hipótese. A maioria dos dados analisados por um cientista de dados será de dados obtidos por meio de estudos observacionais e sistemas, o que é uma forma pela qual o trabalho de um cientista de dados pode diferir do de um cientista tradicional, que tende a realizar mais experimentos.
No entanto, um cientista de dados pode ser chamado a fazer uma forma de experimentação chamada teste A/B, onde ajustes são feitos em um sistema que coleta dados para ver como os padrões de dados mudam.
Independentemente das técnicas e ferramentas usadas, a ciência de dados visa, em última análise, melhorar nossa compreensão do mundo, fazendo sentido a partir dos dados e usando dados para entender melhor o mundo. A ciência de dados é o processo de usar algoritmos, princípios estatísticos e várias ferramentas e máquinas para extrair insights dos dados, insights que nos ajudam a entender padrões no mundo ao nosso redor.
O que os Cientistas de Dados Fazem?
Você pode estar vendo que qualquer atividade que envolva a análise de dados de maneira científica pode ser chamada de ciência de dados, o que é parte do que torna a definição de ciência de dados tão difícil. Para esclarecer, vamos explorar algumas das atividades que um cientista de dados pode fazer diariamente.

A ciência de dados reúne muitas disciplinas e especialidades diferentes. Foto: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
Em qualquer dia, um cientista de dados pode ser solicitado a: criar esquemas de armazenamento e recuperação de dados, criar pipelines de ETL (extração, transformação e carga) e limpar dados, empregar métodos estatísticos, criar visualizações de dados e painéis, implementar algoritmos de inteligência artificial e aprendizado de máquina, fazer recomendações para ações com base nos dados.
Vamos quebrar as tarefas listadas acima um pouco.
Um cientista de dados pode ser necessário para lidar com a instalação de tecnologias necessárias para armazenar e recuperar dados, prestando atenção tanto ao hardware quanto ao software. A pessoa responsável por essa posição também pode ser referida como “Engenheiro de Dados“. No entanto, algumas empresas incluem essas responsabilidades no papel de cientista de dados. Um cientista de dados também pode precisar criar, ou ajudar a criar, pipelines de ETL. Os dados raramente vêm formatados exatamente como um cientista de dados precisa. Em vez disso, os dados precisarão ser recebidos em uma forma bruta da fonte de dados, transformados em um formato útil e pré-processados (coisas como padronizar os dados, descartar redundâncias e remover dados corrompidos).
Métodos Estatísticos da Ciência de Dados
A aplicação de estatística é necessária para transformar a simples observação de dados e interpretação em uma ciência real. Os métodos estatísticos são usados para extrair padrões relevantes de conjuntos de dados e um cientista de dados precisa ser bem versado em conceitos estatísticos. Eles precisam ser capazes de discernir correlações significativas de correlações espúrias, controlando variáveis de confusão. Eles também precisam saber quais ferramentas usar para determinar quais recursos no conjunto de dados são importantes para o modelo ou têm poder de previsão. Um cientista de dados precisa saber quando usar uma abordagem de regressão versus uma abordagem de classificação e quando se importar com a média de uma amostra versus a mediana de uma amostra. Um cientista de dados simplesmente não seria um cientista sem essas habilidades cruciais.
Visualização de Dados
Uma parte crucial do trabalho de um cientista de dados é comunicar seus achados para os outros. Se um cientista de dados não puder comunicar eficazmente seus achados para os outros, as implicações de seus achados não importam. Um cientista de dados também deve ser um contador de histórias eficaz. Isso significa produzir visualizações que comuniquem pontos relevantes sobre o conjunto de dados e os padrões descobertos dentro dele. Há um grande número de diferentes ferramentas de visualização de dados que um cientista de dados pode usar e eles podem visualizar dados para fins de exploração inicial, básica (análise de dados exploratórios) ou visualizar os resultados que um modelo produz.
Recomendações e Aplicações Comerciais
Um cientista de dados precisa ter alguma intuição dos requisitos e objetivos de sua organização ou empresa. Um cientista de dados precisa entender essas coisas porque precisa saber quais tipos de variáveis e recursos deve analisar, explorar padrões que ajudarão sua organização a alcançar seus objetivos. Os cientistas de dados precisam estar cientes das restrições com as quais estão operando e das suposições que a liderança da organização está fazendo.
Aprendizado de Máquina e Inteligência Artificial
O aprendizado de máquina e outros algoritmos e modelos de inteligência artificial são ferramentas usadas por cientistas de dados para analisar dados, identificar padrões dentro dos dados, discernir relações entre variáveis e fazer previsões sobre eventos futuros.
Ciência de Dados Tradicional vs. Ciência de Dados de Grandes Dados
À medida que os métodos de coleta de dados se tornam mais sofisticados e os bancos de dados maiores, uma diferença surgiu entre a ciência de dados tradicional e a “ciência de dados de grandes dados”.
A análise de dados tradicional e a ciência de dados são feitas com análise descritiva e exploratória, visando encontrar padrões e analisar os resultados de desempenho de projetos. Os métodos de análise de dados tradicionais muitas vezes se concentram apenas em dados passados e atuais. Os analistas de dados geralmente lidam com dados que já foram limpos e padronizados, enquanto os cientistas de dados geralmente lidam com dados complexos e sujos. Técnicas de análise de dados mais avançadas podem ser usadas para prever comportamentos futuros, embora isso seja mais frequentemente feito com grandes dados, pois os modelos preditivos geralmente precisam de grandes quantidades de dados para serem construídos com confiabilidade.
“Grandes dados” se referem a dados que são grandes e complexos demais para serem tratados com técnicas e ferramentas de análise de dados tradicionais e ciência de dados. Os grandes dados são frequentemente coletados por meio de plataformas online e ferramentas avançadas de transformação de dados são usadas para tornar os grandes volumes de dados prontos para inspeção pela ciência de dados. À medida que mais dados são coletados o tempo todo, mais do trabalho de um cientista de dados envolve a análise de grandes dados.
Ferramentas de Ciência de Dados
As ferramentas comuns de ciência de dados incluem ferramentas para armazenar dados, realizar análise de dados exploratórios, modelar dados, realizar ETL e visualizar dados. Plataformas como Amazon Web Services, Microsoft Azure e Google Cloud oferecem ferramentas para ajudar os cientistas de dados a armazenar, transformar, analisar e modelar dados. Há também ferramentas autônomas de ciência de dados, como Airflow (infraestrutura de dados) e Tableau (visualização e análise de dados).
Em termos de algoritmos e modelos de aprendizado de máquina e inteligência artificial usados para modelar dados, eles são frequentemente fornecidos por meio de módulos e plataformas de ciência de dados, como TensorFlow, PyTorch e o Azure Machine Learning Studio. Essas plataformas permitem que os cientistas de dados editem seus conjuntos de dados, componham arquiteturas de aprendizado de máquina e treinem modelos de aprendizado de máquina.
Outras ferramentas e bibliotecas comuns de ciência de dados incluem SAS (para modelagem estatística), Apache Spark (para análise de dados de transmissão), D3.js (para visualizações interativas no navegador) e Jupyter (para blocos de código interativos e compartilhados e visualizações).

Foto: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
Exemplos de Ciência de Dados
Os exemplos de ciência de dados e suas aplicações estão por toda parte. A ciência de dados tem aplicações em tudo, desde entrega de alimentos, esportes, tráfego e saúde. Os dados estão em todos os lugares e, portanto, a ciência de dados pode ser aplicada a tudo.
Em termos de alimentos, a Uber está investindo em uma expansão de seu sistema de compartilhamento de caronas focado na entrega de alimentos, Uber Eats. A Uber Eats precisa entregar comida às pessoas de forma oportuna, enquanto ainda está quente e fresca. Para que isso ocorra, os cientistas de dados da empresa precisam usar modelagem estatística que leve em conta aspectos como distância de restaurantes para pontos de entrega, corridas de feriados, tempo de cozimento e até condições climáticas, tudo considerado com o objetivo de otimizar os tempos de entrega.
As estatísticas esportivas são usadas por gerentes de equipes para determinar quais são os melhores jogadores e formar times fortes e confiáveis que vencerão jogos. Um exemplo notável é a ciência de dados documentada por Michael Lewis no livro Moneyball, onde o gerente geral do time de beisebol Oakland Athletics analisou uma variedade de estatísticas para identificar jogadores de qualidade que pudessem ser contratados pelo time a um custo relativamente baixo.
A análise de padrões de tráfego é crítica para a criação de veículos autônomos. Os veículos autônomos devem ser capazes de prever a atividade ao seu redor e responder a mudanças nas condições da estrada, como a distância de parada aumentada necessária quando está chovendo, bem como a presença de mais carros na estrada durante o horário de pico. Além dos veículos autônomos, aplicativos como o Google Maps analisam padrões de tráfego para dizer aos passageiros quanto tempo levará para chegar ao seu destino usando várias rotas e modos de transporte.
Em termos de dados de saúde, a visão computacional é frequentemente combinada com aprendizado de máquina e outras técnicas de inteligência artificial para criar classificadores de imagens capazes de examinar coisas como radiografias, ressonâncias magnéticas e ultrassons para ver se há algum problema médico potencial que possa aparecer no exame. Esses algoritmos podem ser usados para ajudar os clínicos a diagnosticar doenças.
Em última análise, a ciência de dados abrange inúmeras atividades e reúne aspectos de diferentes disciplinas. No entanto, a ciência de dados está sempre preocupada em contar histórias interessantes e convincentes a partir dos dados e em usar dados para entender melhor o mundo.












