Inteligência artificial
O que é Big Data?

O que é Big Data?
“Big Data” é uma das expressões mais comuns da nossa era atual, mas o que isso realmente significa?
Aqui está uma definição rápida e simples de big data. Big data é dados que são muito grandes e complexos para serem tratados por métodos tradicionais de processamento e armazenamento de dados. Embora essa seja uma definição rápida que você possa usar como um heurístico, seria útil ter uma compreensão mais profunda e completa de big data. Vamos dar uma olhada em alguns dos conceitos que subjazem o big data, como armazenamento, estrutura e processamento.
Quão Grande é o Big Data?
Não é tão simples quanto dizer “qualquer dado com tamanho ‘X’ é big data”, o ambiente em que os dados estão sendo tratados é um fator extremamente importante para determinar o que se qualifica como big data. O tamanho que os dados precisam ter para ser considerados big data depende do contexto, ou da tarefa para a qual os dados estão sendo usados. Dois conjuntos de dados de tamanhos muito diferentes podem ser considerados “big data” em contextos diferentes.
Para ser mais concreto, se você tentar enviar um arquivo de 200 megabytes como anexo de e-mail, não poderá fazer isso. Nesse contexto, o arquivo de 200 megabytes poderia ser considerado big data. Em contraste, copiar um arquivo de 200 megabytes para outro dispositivo dentro da mesma LAN pode não levar tempo algum, e nesse contexto, não seria considerado big data.
No entanto, suponha que 15 terabytes de vídeo precisem ser pré-processados para uso em aplicações de visão computacional. Nesse caso, os arquivos de vídeo ocupam tanto espaço que mesmo um computador poderoso levaria muito tempo para processá-los todos, e o processamento normalmente seria distribuído entre vários computadores ligados juntos para diminuir o tempo de processamento. Esses 15 terabytes de dados de vídeo definitivamente se qualificariam como big data.
Tipos de Estruturas de Big Data
O big data vem em três categorias diferentes de estrutura: dados não estruturados, semi-estruturados e dados estruturados.
Dados não estruturados são dados que não possuem estrutura definida, o que significa que os dados estão essencialmente em um grande pool. Exemplos de dados não estruturados seriam um banco de dados cheio de imagens não rotuladas.
Dados semi-estruturados são dados que não têm uma estrutura formal, mas existem dentro de uma estrutura frouxa. Por exemplo, dados de e-mail podem ser considerados dados semi-estruturados, porque você poderia se referir aos dados contidos em e-mails individuais, mas padrões de dados formais não foram estabelecidos.
Dados estruturados são dados que têm uma estrutura formal, com pontos de dados categorizados por diferentes recursos. Um exemplo de dados estruturados é uma planilha do Excel que contém informações de contato, como nomes, e-mails, números de telefone e sites.
Se você quiser ler mais sobre as diferenças entre esses tipos de dados, verifique o link aqui.
Métricas para Avaliar o Big Data
O big data pode ser analisado em termos de três métricas diferentes: volume, velocidade e variedade.
Volume se refere ao tamanho dos dados. O tamanho médio dos conjuntos de dados está aumentando. Por exemplo, o maior disco rígido em 2006 era um disco rígido de 750 GB. Em contraste, o Facebook é considerado gerar mais de 500 terabytes de dados em um dia e o maior disco rígido de consumidor disponível hoje é um disco rígido de 16 terabytes. O que se qualifica como big data em uma era pode não ser big data em outra. Mais dados são gerados hoje porque mais e mais objetos ao nosso redor estão equipados com sensores, câmeras, microfones e outros dispositivos de coleta de dados.
Velocidade se refere à rapidez com que os dados estão se movendo, ou, de outra forma, à quantidade de dados gerados dentro de um período de tempo determinado. Fluxos de mídia social geram centenas de milhares de posts e comentários a cada minuto, enquanto sua própria caixa de entrada de e-mail provavelmente terá muito menos atividade. Fluxos de big data são fluxos que frequentemente lidam com centenas de milhares ou milhões de eventos em tempo real ou quase em tempo real. Exemplos desses fluxos de dados são plataformas de jogos online e algoritmos de negociação de ações de alta frequência.
Variedade se refere aos diferentes tipos de dados contidos no conjunto de dados. Os dados podem ser compostos por muitos formatos diferentes, como áudio, vídeo, texto, fotos ou números de série. Em geral, bancos de dados tradicionais são formatados para lidar com um ou apenas alguns tipos de dados. Para colocar de outra forma, bancos de dados tradicionais são estruturados para conter dados que são bastante homogêneos e de estrutura consistente e previsível. À medida que as aplicações se tornam mais diversificadas, cheias de recursos diferentes e usadas por mais pessoas, os bancos de dados tiveram que evoluir para armazenar mais tipos de dados. Bancos de dados não estruturados são ideais para armazenar big data, pois podem conter vários tipos de dados que não estão relacionados entre si.
Métodos de Manipulação de Big Data
Existem várias plataformas e ferramentas projetadas para facilitar a análise de big data. Os pools de big data precisam ser analisados para extrair padrões significativos dos dados, uma tarefa que pode ser bastante desafiadora com as ferramentas tradicionais de análise de dados. Em resposta à necessidade de ferramentas para analisar grandes volumes de dados, várias empresas criaram ferramentas de análise de big data. As ferramentas de análise de big data incluem sistemas como ZOHO Analytics, Cloudera e Microsoft BI.












