AI 入门 101
结构化数据 vs 非结构化数据

非结构化数据 是指没有按照预定义方式组织的数据,或缺乏特定的数据模型。相反,结构化数据 是指具有明确、可定义的数据点之间关系的数据,具有预定义的模型包含它。这是结构化数据和非结构化数据之间的区别的简要答案,但让我们更详细地了解这两种类型数据之间的区别。
什么是结构化数据?
在计算机科学中,数据结构是指存储和组织数据的特定方式。不同的数据结构具有不同的数据点之间的关系,但数据也可以是非结构化的。什么是结构化数据的含义?为了使这个定义更加清晰,让我们来看看结构化数据的各种方式。
结构化数据通常存储在表格中,例如 Excel 文件或 SQL 数据库。 在这些情况下,数据的行和列持有不同的变量或特征,通常可以通过检查数据行和列的交点来确定数据点之间的关系。结构化数据可以轻松地适应关系数据库,结构化数据集的不同特征的示例可以包括名称、地址、日期、天气统计、信用卡号码等。虽然结构化数据通常是文本数据,但也可以将图像和音频存储为结构化数据。
结构化数据的常见来源包括传感器收集的数据、网络日志、网络数据和零售或电子商务数据。结构化数据也可以由人们填写电子表格或数据库生成,数据来自计算机和其他设备。例如,通过在线表格收集的数据通常会立即输入数据结构中。
结构化数据有着长期存储在 关系数据库 和 SQL 中的历史。这些存储方法很受欢迎,因为它们的读写容易,大多数平台和语言都可以解释这些数据格式。
在机器学习的背景下,结构化数据更容易训练机器学习系统,因为数据中的模式更为明显。可以将某些特征输入机器学习分类器,并使用这些选定的特征对其他数据实例进行标记。相反,训练机器学习系统使用非结构化数据往往更困难,原因将变得明显。
什么是非结构化数据?
非结构化数据是指没有按照预定义的数据模型或结构组织的数据。非结构化数据通常被称为定性数据,因为它不能使用传统的结构化数据方法进行分析或处理。
由于非结构化数据没有定义的数据点之间的关系,因此无法将其组织到关系数据库中。相反,非结构化数据通常存储在 NoSQL 数据库 或非关系数据库中。如果数据库的结构不是主要关注点,可以使用数据湖(大型非结构化数据池)来存储数据,而不是使用 NoSQL 数据库。
非结构化数据难以分析,理解非结构化数据通常涉及检查个别数据以确定潜在的特征,然后检查这些特征是否出现在数据池中的其他数据中。
绝大多数数据是非结构化格式,据估计,非结构化数据占所有数据的约 80%。可以使用数据挖掘技术来帮助结构化数据。
在机器学习方面,某些技术可以帮助组织非结构化数据并将其转换为结构化数据。将非结构化数据转换为结构化数据的热门工具称为自动编码器。












