toco O que é Ciência de Dados? - Unite.AI
Entre em contato
Masterclass de IA:

AI 101

O que é ciência de dados?

mm
Atualização do on

O campo da ciência de dados parece ficar maior e mais popular a cada dia. De acordo com o LinkedIn, a ciência de dados foi um dos campos de trabalho que mais cresceu em 2017 e em 2020 a Glassdoor classificou o trabalho da ciência de dados como um dos três melhores empregos nos Estados Unidos. Dada a crescente popularidade da ciência de dados, não é surpresa que mais pessoas estejam se interessando pelo campo. No entanto, o que é ciência de dados exatamente?

Vamos nos familiarizar com a ciência de dados, dedicando algum tempo para definir ciência de dados, explorar como big data e inteligência artificial estão mudando o campo, aprender sobre algumas ferramentas comuns de ciência de dados e examinar alguns exemplos de ciência de dados.

O que é ciência de dados?

Antes de podermos explorar quaisquer ferramentas ou exemplos de ciência de dados, queremos obter uma definição concisa de ciência de dados.

Definir “ciência de dados” é realmente um pouco complicado, porque o termo é aplicado a muitas tarefas e métodos diferentes de investigação e análise. Podemos começar lembrando o que significa o termo “ciência”. A ciência é o estudo sistemático do mundo físico e natural através da observação e experimentação, com o objetivo de avançar a compreensão humana dos processos naturais. As palavras importantes nessa definição são “observação” e “compreensão”.

Se a ciência de dados é o processo de entender o mundo a partir de padrões em dados, então o responsabilidade de um cientista de dados é transformar dados, analisar dados e extrair padrões de dados. Em outras palavras, um cientista de dados recebe dados e usa várias ferramentas e técnicas diferentes para pré-processar os dados (prepará-los para análise) e, em seguida, analisar os dados em busca de padrões significativos.

O papel de um cientista de dados é semelhante ao papel de um cientista tradicional. Ambos estão preocupados com a análise de dados para apoiar ou rejeitar hipóteses sobre como o mundo funciona, tentando entender os padrões dos dados para melhorar nossa compreensão do mundo. Os cientistas de dados fazem uso dos mesmos métodos científicos que um cientista tradicional faz. Um cientista de dados começa reunindo observações sobre alguns fenômenos que gostaria de estudar. Eles então formulam uma hipótese sobre o fenômeno em questão e tentam encontrar dados que anulem sua hipótese de alguma forma.

Se a hipótese não for contrariada pelos dados, eles podem ser capazes de construir uma teoria, ou modelo, sobre como o fenômeno funciona, que eles podem testar repetidamente, verificando se é verdadeiro para outros conjuntos de dados semelhantes. Se um modelo for suficientemente robusto, se explicar bem os padrões e não for anulado durante outros testes, pode até ser usado para prever futuras ocorrências daquele fenômeno.

Um cientista de dados normalmente não coleta seus próprios dados por meio de um experimento. Eles geralmente não projetam experimentos com controles e ensaios duplo-cegos para descobrir variáveis ​​confusas que possam interferir em uma hipótese. A maioria dos dados analisados ​​por um cientista de dados serão dados obtidos por meio de estudos e sistemas observacionais, que é uma maneira pela qual o trabalho de um cientista de dados pode diferir do trabalho de um cientista tradicional, que tende a realizar mais experimentos.

Dito isso, um cientista de dados pode ser chamado para fazer uma forma de experimentação chamado teste A/B onde ajustes são feitos em um sistema que coleta dados para ver como os padrões de dados mudam.

Independentemente das técnicas e ferramentas usadas, a ciência de dados visa, em última análise, melhorar nossa compreensão do mundo, dando sentido aos dados, e os dados são obtidos por meio de observação e experimentação. A ciência de dados é o processo de usar algoritmos, princípios estatísticos e várias ferramentas e máquinas para extrair insights dos dados, insights que nos ajudam a entender os padrões do mundo ao nosso redor.

O que os cientistas de dados fazem?

Você deve estar vendo que qualquer atividade que envolva a análise de dados de maneira científica pode ser chamada de ciência de dados, que é parte do que torna a definição de ciência de dados tão difícil. Para deixar mais claro, vamos explorar algumas das atividades que um cientista de dados pode fazer em uma base diária.

A ciência de dados reúne muitas disciplinas e especialidades diferentes. Foto: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Em qualquer dia, um cientista de dados pode ser solicitado a: criar esquemas de armazenamento e recuperação de dados, criar pipelines de ETL (extrair, transformar, carregar) de dados e limpar dados, empregar métodos estatísticos, criar visualizações e painéis de dados, implementar inteligência artificial e algoritmos de aprendizado de máquina, fazem recomendações de ações com base nos dados.

Vamos dividir um pouco as tarefas listadas acima.

Um cientista de dados pode ser solicitado a lidar com a instalação de tecnologias necessárias para armazenar e recuperar dados, prestando atenção ao hardware e ao software. A pessoa responsável por esta posição também pode ser referida como “Engenheiro de Dados”. No entanto, algumas empresas incluem essas responsabilidades na função de cientistas de dados. Um cientista de dados também pode precisar criar ou auxiliar na criação de Tubulações ETL. Os dados raramente vêm formatados exatamente como um cientista de dados precisa. Em vez disso, os dados precisarão ser recebidos em formato bruto da fonte de dados, transformados em um formato utilizável e pré-processados ​​(coisas como padronizar os dados, descartar redundâncias e remover dados corrompidos).

Métodos Estatísticos de Ciência de Dados

A aplicação de estatísticas é necessário transformar o simples olhar para os dados e interpretá-los em uma ciência real. Os métodos estatísticos são usados ​​para extrair padrões relevantes de conjuntos de dados, e um cientista de dados precisa ser bem versado em conceitos estatísticos. Eles precisam ser capazes de discernir correlações significativas de correlações espúrias, controlando as variáveis ​​de confusão. Eles também precisam conhecer as ferramentas certas a serem usadas para determinar quais recursos no conjunto de dados são importantes para seu modelo/têm poder preditivo. Um cientista de dados precisa saber quando usar uma abordagem de regressão versus uma abordagem de classificação e quando se preocupar com a média de uma amostra versus a mediana de uma amostra. Um cientista de dados simplesmente não seria um cientista sem essas habilidades cruciais.

Visualização de dados

Uma parte crucial do trabalho de um cientista de dados é comunicar suas descobertas a outras pessoas. Se um cientista de dados não pode comunicar efetivamente suas descobertas a outras pessoas, as implicações de suas descobertas não importam. Um cientista de dados também deve ser um contador de histórias eficaz. Isso significa produzir visualizações que comuniquem pontos relevantes sobre o conjunto de dados e os padrões descobertos nele. Existe um grande número de diferentes Visualização de dados ferramentas que um cientista de dados pode usar e podem visualizar dados para fins de exploração básica inicial (análise exploratória de dados) ou visualizar os resultados produzidos por um modelo.

Recomendações e aplicações de negócios

Um cientista de dados precisa ter alguma intuição dos requisitos e objetivos de sua organização ou negócio. Um cientista de dados precisa entender essas coisas porque precisa saber quais tipos de variáveis ​​e recursos devem analisar, explorando padrões que ajudarão sua organização a atingir seus objetivos. Os cientistas de dados precisam estar cientes das restrições sob as quais estão operando e das suposições feitas pela liderança da organização.

Aprendizado de máquina e IA

Aprendizado de máquinas e outros algoritmos e modelos de inteligência artificial são ferramentas usadas por cientistas de dados para analisar dados, identificar padrões nos dados, discernir relacionamentos entre variáveis ​​e fazer previsões sobre eventos futuros.

Ciência de dados tradicional x ciência de big data

À medida que os métodos de coleta de dados se tornaram mais sofisticados e os bancos de dados maiores, surgiu uma diferença entre a ciência de dados tradicional e a ciência de dados tradicional. “Big data” ciência.

A análise de dados tradicional e a ciência de dados são feitas com análises descritivas e exploratórias, com o objetivo de encontrar padrões e analisar os resultados de desempenho dos projetos. Os métodos tradicionais de análise de dados geralmente se concentram apenas nos dados anteriores e nos dados atuais. Os analistas de dados geralmente lidam com dados que já foram limpos e padronizados, enquanto os cientistas de dados geralmente lidam com dados complexos e sujos. Análises de dados mais avançadas e técnicas de ciência de dados podem ser usadas para prever o comportamento futuro, embora isso seja feito com mais frequência com big data, pois os modelos preditivos geralmente precisam de grandes quantidades de dados para serem construídos de maneira confiável.

“Big data” refere-se a dados que são muito grandes e complexos para serem tratados com análises de dados tradicionais e técnicas e ferramentas científicas. Big data é frequentemente coletado por meio de plataformas online e ferramentas avançadas de transformação de dados são usadas para preparar grandes volumes de dados para inspeção pela ciência de dados. À medida que mais dados são coletados o tempo todo, mais do trabalho dos cientistas de dados envolve a análise de big data.

Ferramentas de ciência de dados

ciência de dados comuns ferramentas incluem ferramentas para armazenar dados, realizar análises exploratórias de dados, modelar dados, realizar ETL e visualizar dados. Plataformas como Amazon Web Services, Microsoft Azure e Google Cloud oferecem ferramentas para ajudar os cientistas de dados a armazenar, transformar, analisar e modelar dados. Também existem ferramentas autônomas de ciência de dados, como Airflow (infraestrutura de dados) e Tableau (visualização e análise de dados).

Em termos de aprendizado de máquina e algoritmos de inteligência artificial usados ​​para modelar dados, eles geralmente são fornecidos por meio de módulos e plataformas de ciência de dados como TensorFlow, PyTorch e o estúdio de aprendizado de máquina do Azure. Essas plataformas, como cientistas de dados, fazem edições em seus conjuntos de dados, compõem arquiteturas de aprendizado de máquina e treinam modelos de aprendizado de máquina.

Outras ferramentas e bibliotecas comuns de ciência de dados incluem SAS (para modelagem estatística), Apache Spark (para análise de dados de streaming), D3.js (para visualizações interativas no navegador) e Jupyter (para visualizações e blocos de código interativos e compartilháveis) .

Foto: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Exemplos de ciência de dados

Exemplos de ciência de dados e suas aplicações estão por toda parte. A ciência de dados tem aplicações em tudo, desde entrega de alimentos, esportes, trânsito e saúde. Os dados estão em toda parte e, portanto, a ciência de dados pode ser aplicada a tudo.

Em alimentação, a Uber está investindo na expansão de seu sistema de carona com foco na entrega de comida, Uber Eats. O Uber Eats precisa levar a comida das pessoas em tempo hábil, enquanto ainda está quente e fresca. Para que isso ocorra, os cientistas de dados da empresa precisam usar uma modelagem estatística que leve em consideração aspectos como distância dos restaurantes aos pontos de entrega, picos de feriados, tempo de cozimento e até condições climáticas, tudo pensado com o objetivo de otimizar os tempos de entrega. .

As estatísticas esportivas são usadas pelos gerentes de equipe para determinar quem são os melhores jogadores e formar equipes fortes e confiáveis ​​que vencerão os jogos. Um exemplo notável é a ciência de dados documentada por Michael Lewis no livro Moneyball, onde o gerente geral da equipe Oakland Athletics analisou uma variedade de estatísticas para identificar jogadores de qualidade que poderiam ser contratados pela equipe a um custo relativamente baixo.

A análise dos padrões de tráfego é fundamental para a criação de veículos autônomos. Veículos autônomos devem ser capazes de prever a atividade ao seu redor e responder às mudanças nas condições da estrada, como o aumento da distância de parada necessária quando está chovendo, bem como a presença de mais carros na estrada durante o horário de pico. Além dos veículos autônomos, aplicativos como o Google Maps analisam os padrões de tráfego para informar aos passageiros quanto tempo levarão para chegar ao destino usando várias rotas e formas de transporte.

Em termos de ciência de dados de saúde, a visão computacional é frequentemente combinada com aprendizado de máquina e outras técnicas de IA para criar classificadores de imagens capazes de examinar coisas como raios X, FMRIs e ultrassons para ver se há algum problema médico potencial que possa aparecer na varredura. Esses algoritmos podem ser usados ​​para ajudar os médicos a diagnosticar doenças.

Em última análise, a ciência de dados abrange inúmeras atividades e reúne aspectos de diferentes disciplinas. No entanto, a ciência de dados está sempre preocupada em contar histórias atraentes e interessantes a partir de dados e em usá-los para entender melhor o mundo.

Blogueiro e programador com especialidades em Machine Learning e Aprendizagem profunda tópicos. Daniel espera ajudar outras pessoas a usar o poder da IA ​​para o bem social.