Connect with us

人工智能

什么是大数据?

mm

什么是大数据?

“大数据”是我们当前时代常用的流行词汇之一,但它真正的含义是什么?

这里有一个关于大数据的快速、简单的定义。 大数据 是指由于太大、太复杂而无法使用传统的数据处理和存储方法处理的数据。虽然这是一个快速的定义,可以用作启发式方法,但更深入、更完整地理解大数据将会很有帮助。让我们来看看一些与大数据相关的概念,例如存储、结构和处理。

大数据有多大?

这并不像说“任何大小超过‘X’的数据就是大数据”那么简单,数据被处理的环境是一个非常重要的因素,用于 确定什么是大数据。要被认为是大数据,数据需要达到的大小取决于上下文或数据被使用的任务。两个大小差异很大的数据集可以在不同的上下文中被认为是“大数据”。

更具体地说,如果你试图将一个200兆字节的文件作为电子邮件附件发送,你将无法做到。在这种情况下,200兆字节的文件可以被认为是大数据。相比之下,在同一个局域网内将一个200兆字节的文件复制到另一个设备上可能不会花费任何时间,在这种情况下,它不会被认为是大数据。

但是,假设需要预处理15太字节的视频以用于训练计算机视觉应用程序。在这种情况下,视频文件占用的空间如此之大,即使是强大的计算机也需要很长时间来处理它们,因此处理通常会分布在多个计算机上,以减少处理时间。这些15太字节的视频数据绝对可以被认为是大数据。

大数据结构类型

大数据有三种不同的结构类别:无结构数据、半结构化数据和结构化数据。

无结构数据是指没有明确定义的结构的数据,这意味着数据基本上只是一个大池。无结构数据的例子是数据库中未标记的图像。

半结构化数据是指没有正式结构的数据,但存在于松散的结构中。例如,电子邮件数据可能被认为是半结构化数据,因为你可以引用个别电子邮件中的数据,但尚未建立正式的数据模式。

结构化数据是指具有正式结构的数据,数据点按不同的特征进行分类。结构化数据的一个例子是包含姓名、电子邮件、电话号码和网站等联系信息的Excel电子表格。

如果您想了解更多关于这些数据类型的区别,请查看此链接。

评估大数据的指标

大数据可以从三个不同的指标来分析:体积、速度和多样性。

体积指的是数据的大小。平均数据集的大小通常会增加。例如,2006年最大的硬盘是750 GB的硬盘。相比之下,Facebook每天生成超过500太字节的数据,今天可用的最大消费者硬盘是16太字节的硬盘。一个时代的“大数据”可能在另一个时代中不被认为是大数据。由于我们周围的物体越来越多地配备了传感器、摄像头、麦克风和其他数据采集设备,因此今天会生成更多的数据。

速度指的是数据移动的速度,或者说,在一定时间内生成了多少数据。社交媒体流每分钟会生成数十万条帖子和评论,而您的电子邮件收件箱可能会有更少的活动。大数据流通常处理数十万或数百万个事件,几乎是实时的。这些数据流的例子包括在线游戏平台和高频股票交易算法。

多样性指的是数据集中的不同数据类型。数据可以由多种格式组成,例如音频、视频、文本、照片或序列号。一般来说,传统数据库是为处理一种或几种数据类型而设计的。换句话说,传统数据库是为存储同质且结构可预测的数据而设计的。随着应用程序变得更加多样化,具有更多功能,并被更多人使用,数据库不得不演变以存储更多类型的数据。无结构数据库非常适合存储大数据,因为它们可以存储不相关的多种数据类型。

处理大数据的方法

有许多不同的平台和工具被设计来促进大数据的分析。需要分析大数据池以从数据中提取有意义的模式,这是一项使用传统数据分析工具可能很具挑战性的任务。为了应对分析大量数据的需求,各种公司已经创建了大数据分析工具。大数据分析工具包括Zoho Analytics、Cloudera和Microsoft BI等系统。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。