AI 101

什么是 ETL？（提取、转换、加载）方法和用例

更新 on 2023 年 1 月 14 日

ETL 代表“提取、转换、加载”。它是一个将来自不同来源的数据集成到单个存储库中的过程，以便可以对其进行处理和分析，从而可以从中推断出有用的信息。这些有用的信息可以帮助企业做出数据驱动的决策并实现增长。

“数据是新石油。”

克莱夫·亨比，数学家

全球数据创建量呈指数级增长，据《福布斯》报道，按照目前的速度，人类的数据创建量每两年翻一番。结果，现代数据堆栈得到了发展。数据集市已经转变为数据仓库，当这还不够时，数据湖就被创建了。尽管在所有这些不同的基础设施中，有一个流程保持不变，即 ETL 流程。

在本文中，我们将研究 ETL 的方法、它的用例、它的好处，以及这个过程如何帮助形成现代数据格局。

ETL方法论

ETL 可以将不同来源的数据集成到一处，以便对其进行处理、分析，然后与企业利益相关者共享。它确保用于机器学习模型报告、分析和预测的数据的完整性。这是一个三步过程，从多个来源提取数据，对其进行转换，然后将其加载到商业智能工具中。然后，企业使用这些商业智能工具来做出数据驱动的决策。

提取阶段

在此阶段，使用 SQL 查询、Python 代码、DBMS（数据库管理系统）或 ETL 工具从多个来源提取数据。最常见的来源是：

CRM（客户关系管理）软件
分析工具
数据仓库
数据库
云存储平台
销售和营销工具
移动应用程序

这些来源要么是结构化的，要么是非结构化的，这就是为什么现阶段数据的格式不统一的原因。

转型阶段

在转换阶段，提取的原始数据被转换并编译成适合目标系统的格式。为此，原始数据经历一些转换子过程，例如：

清理——解决不一致和缺失的数据。
标准化——自始至终应用统一的格式。
重复删除——删除冗余数据。
发现异常值——发现异常值并对其进行标准化。
排序——以提高效率的方式组织数据。

除了重新格式化数据之外，还有其他原因需要转换数据。如果数据中存在空值，则应将其删除；除此之外，数据中经常存在异常值，这会对分析产生负面影响；它们应该在转型阶段得到解决。我们经常会遇到冗余的数据，对业务没有任何价值；这些数据在转换阶段被丢弃，以节省系统的存储空间。这些都是转型阶段要解决的问题。

负载阶段

一旦提取原始数据并通过转换过程进行定制，就会将其加载到目标系统中，该目标系统通常是数据仓库或数据湖。有两种不同的方法来执行加载阶段。

完全加载：所有数据在目标系统中第一次加载。它在技术上不太复杂，但需要更多时间。当数据量不太大时，它是理想的选择。
增量加载：增量加载，顾名思义，就是以增量的方式进行。它有两个子类别。

流增量加载：数据按时间间隔加载，通常是每天加载。当数据量较小时，这种加载效果最好。
批量增量加载：增量加载的批量类型是分批加载数据，两批之间有一定的间隔。当数据太大时，它是理想的选择。它速度很快，但技术上更复杂。

ETL 工具的类型

ETL有两种方式进行，手动ETL或无代码ETL。在手动 ETL 中，几乎没有自动化。一切都是由数据科学家、数据分析师和数据工程师组成的团队编码的。所有提取、转换和加载的管道都是手动为所有数据集设计的。这一切都会造成巨大的生产力和资源损失。

另一种选择是无代码 ETL；这些工具通常具有拖放功能。这些工具完全消除了编码的需要，因此甚至允许非技术人员执行 ETL。对于交互式设计和包容性方法，大多数企业使用 Informatica、Integrate.io、IBM Storage、Hadoop、Azure、Google Cloud Dataflow 和 Oracle Data Integrator 进行 ETL 操作。

数据行业存在四种类型的无代码 ETL 工具。