存根 什么是大数据? - 联合人工智能
关注我们.

AI 101

什么是大数据?

mm
更新 on

什么是大数据?

“大数据”是当今时代最常用的流行语之一,但它的真正含义是什么?

这是大数据的快速、简单的定义。 大数据 数据量太大、太复杂,传统的数据处理和存储方法无法处理。 虽然这是一个可以用作启发式的快速定义,但它有助于对大数据有更深入、更完整的理解。 让我们看一下大数据背后的一些概念,例如存储、结构和处理。

大数据有多大?

这并不像说“任何超过‘X’的数据都是大数据”那么简单,数据处理的环境是一个极其重要的因素。 确定什么是大数据。 为了被视为大数据,数据的大小取决于上下文或数据所使用的任务。两个大小截然不同的数据集在不同的上下文中可以被视为“大数据”。

更具体地说,如果您尝试将 200 MB 的文件作为电子邮件附件发送,您将无法执行此操作。 在这种情况下,200兆字节的文件可以被视为大数据。 相比之下,将 200MB 的文件复制到同一 LAN 内的另一台设备可能根本不需要任何时间,在这种情况下,它不会被视为大数据。

然而,我们假设需要预处理 15 TB 的视频才能用于训练计算机视觉应用程序。在这种情况下,视频文件占用的空间太大,即使是功能强大的计算机也需要很长时间才能处理所有这些文件,因此处理通常会分布在连接在一起的多台计算机上,以减少处理时间。这 15 TB 的视频数据绝对可以称为大数据。

大数据结构的类型

大数据具有三种不同的结构类别:非结构化数据、半结构化数据和结构化数据。

非结构化数据是不具有可定义结构的数据,这意味着数据本质上只是在一个大池中。非结构化数据的示例是充满未标记图像的数据库。

半结构化数据是不具有正式结构但存在松散结构的数据。 例如,电子邮件数据可能被视为半结构化数据,因为您可以引用单个电子邮件中包含的数据,但尚未建立正式的数据模式。

结构化数据是具有正式结构的数据,数据点按不同特征进行分类。 结构化数据的一个示例是 Excel 电子表格,其中包含姓名、电子邮件、电话号码和网站等联系信息。

如果您想了解有关这些数据类型差异的更多信息,请查看此处的链接。

评估大数据的指标

大数据可以根据三个不同的指标进行分析:数量、速度和多样性。

体积是指数据的大小。 数据集的平均大小通常在增加。 例如,2006年最大的硬盘是750GB硬盘。 相比之下,Facebook 被认为一天会生成超过 500 TB 的数据,而当今可用的最大消费类硬盘是 16 TB 硬盘。 在一个时代量化为大数据的东西在另一个时代可能就不是大数据了。 如今,我们周围越来越多的物体配备了传感器、摄像头、麦克风和其他数据收集设备,因此产生了更多的数据。

速度是指数据移动的速度,或者换句话说,是指在给定时间内生成了多少数据。 社交媒体流每分钟都会产生数十万条帖子和评论,而您自己的电子邮件收件箱的活动可能要少得多。 大数据流是通常或多或少实时处理数十万或数百万个事件的流。 这些数据流的例子包括在线游戏平台和高频股票交易算法。

多样性是指数据集中包含的不同类型的数据。 数据可以由许多不同的格式组成,例如音频、视频、文本、照片或序列号。 一般来说,传统数据库被格式化为处理一种或几种类型的数据。 换句话说,传统数据库的结构是为了保存相当同质且具有一致、可预测结构的数据。 随着应用程序变得更加多样化、充满不同的功能并被更多的人使用,数据库必须不断发展以存储更多类型的数据。 非结构化数据库非常适合保存大数据,因为它们可以保存彼此不相关的多种数据类型。

处理大数据的方法

有许多不同的平台和工具旨在促进大数据分析。 需要对大数据池进行分析,以从数据中提取有意义的模式,对于传统的数据分析工具来说,这项任务可能非常具有挑战性。 为了满足对分析大量数据的工具的需求,许多公司创建了大数据分析工具。 大数据分析工具包括ZOHO Analytics、Cloudera和Microsoft BI等系统。