David Langton 是一位经验丰富的软件专业人员,拥有超过 20 年的经验,创建了屡获殊荣的技术和产品。David 目前担任 Matillion 的产品副总裁,Matillion 是一家数据转换解决方案提供商。在加入 Matillion 之前,他曾在金融行业担任数据仓库经理和承包商。
数据的多样性、速度和体量越大,使用预测分析和建模来预测增长和识别机会和改进领域的可行性就越大。然而,要从报告、机器学习(ML)和人工智能(AI)工具中获得最大价值,组织需要从多个来源访问数据,并确保数据是高质量和可信的。这通常是将大数据转化为商业战略的最大障碍。数据专业人员花费大量时间收集和验证数据以准备使用,这样他们就没有太多时间专注于他们的主要目的:分析数据并从中提取商业价值。毫不意外,76%的数据科学家表示数据准备是他们工作中最不愉快的部分。另外,当前的数据准备工作,如数据整理和传统的ETL,需要IT专业人员进行手动努力,并且不足以处理大数据的规模和复杂性。想要利用人工智能力量的公司需要摆脱这些繁琐且大多数手动过程,这些过程会增加“垃圾进,垃圾出”的风险。相反,他们需要数据转换过程,可以从多个来源和格式中提取原始数据,连接和规范化数据,并添加商业逻辑和指标,使其准备好用于分析。通过复杂的数据转换,他们可以确保AI/ML模型基于干净、准确的数据,提供可靠的结果。利用云端ELT的力量今天,准备和转换数据的最佳地点是云数据仓库(CDW),例如Amazon Redshift、Google BigQuery、Microsoft Azure Synapse或Snowflake。虽然传统的数据仓库方法需要在加载数据之前提取和转换数据,但CDW利用云端的可扩展性和性能实现更快的数据摄取和转换,并且可以在CDW内部提取和加载来自多个不同数据源的数据,然后转换它。理想情况下,ELT模型最初将数据移到CDW中为原始数据预留的部分。从那里,CDW可以使用其几乎无限的计算资源来执行数据集成和ETL作业,这些作业清理、聚合、过滤和连接暂存数据。然后可以将数据转换为不同的模式 – 例如数据仓库或星型模式,优化数据以进行报告和分析ELT方法还允许您在CDW中复制原始数据,以便稍后根据需要进行准备和转换。这使您可以使用确定读取模式的商业智能工具,并根据需要生成特定的转换,有效地允许您以多种方式转换相同的数据,当您发现新的用途时。加速机器学习模型这些现实世界的例子展示了两个不同行业的公司如何利用CDW中的数据转换来驱动AI计划。一家精品营销和广告代理公司建立了一个专有的客户管理平台,以帮助其客户更好地识别、理解和激励其客户。通过在CDW中转换数据,该平台可以快速、轻松地将实时客户数据跨渠道整合到360度客户视图中,告知平台的AI/ML模型以使客户互动更加一致、及时和个性化。一家全球物流公司每年向72个国家的3700万个独特客户交付1亿次货物,需要大量数据来驱动其日常运营。采用CDW中的数据转换使公司能够在一年内部署200个机器学习模型。这些模型每天产生50万个预测,显著提高了效率,并推动了优质的客户服务,减少了40%的入站呼叫中心电话。入门的最佳实践想要利用云端数据转换支持其AI/ML计划的公司需要了解其特定的用例和需求。首先确定您想用数据做什么 – 例如,通过优化交货路线来减少燃料成本,通过实时向客户服务代理提供最佳下一个产品来提高销售额等 – 这使您可以逆向工程您的流程,以便确定哪些数据将提供相关结果。一旦您确定了AI/ML项目需要哪些数据来构建其模型,您就需要一个云原生ELT解决方案来使您的数据适合使用。寻找一个能够与您的当前技术栈合作、具有灵活性、能够处理来自多个数据源的复杂数据转换、提供按使用量付费的定价模式以及专门为您的CDW设计的解决方案,以便您可以充分利用CDW的功能以更快的速度运行作业并无缝地转换数据。 与您的当前技术栈无关并且可以与其合作 足够灵活,可以根据您的技术栈的变化而扩大或缩小 可以处理来自多个数据源的复杂数据转换 提供按使用量付费的定价模式,您只需为使用的部分付费 专门为您的CDW设计,以便您可以充分利用CDW的功能以更快的速度运行作业并无缝地转换数据 一个适应所有CDW的共同点的云数据转换解决方案可能会提供一致的体验,但只有一个能够启用您所选CDW的强大差异化功能的解决方案才能提供加速洞察时间的高性能。正确的解决方案将使您能够用更多来源的干净、可信的数据为您的AI/ML项目提供动力,并在更短的时间内生成更快、更可靠的结果,从而推动以前未曾实现的商业价值和创新。