面试

Jay Mishra，Astera Software 首席运营官 – 访谈系列

更新 on 2023 年 9 月 27 日

Jay Mishra 是首席运营官 (COO) Astera软件，一家快速发展的企业级数据解决方案提供商。他们通过一套用户友好且高性能的数据提取、数据质量、数据集成、数据仓库和电子数据交换解决方案帮助业务用户弥合数据与洞察之间的差距，这些解决方案被中型和财富 500 强公司所使用跨越一系列行业。

是什么最初吸引您进入计算机科学？

我一直对数学有着根深蒂固的热情，我的计算机科学之旅就是这种热情的自然延伸。我的本科教育是数学和计算机科学，从数学世界到计算机科学领域的逻辑进展让我着迷。特别引起我注意的是算法的复杂工作原理和先进的算法过程，这促使我在计算机科学硕士学位期间追求算法的专业化。从那时起，我与计算机科学的联系一直很牢固，并且我不断努力掌握该领域的最新发展。

您目前是 Astera 的首席运营官，您能与我们分享一下您的日常职责吗？

作为 Astera 的首席运营官，我的角色是多方面的，反映了我们公司的动态本质。自 Astera 成立以来，我一直在该公司工作，我的职责涵盖该组织的各个领域。这包括从积极贡献我们产品的开发和编码到确保我们的功能符合客户不断变化的需求的一切。我与客户密切合作，与他们共同完善我们的解决方案。我的职责不仅限于产品开发，还包括销售和营销，将我们的产品推向市场。

由于我们正处于增长阶段，我承担了额外的责任，包括监督我们的收入目标和战略性扩展我们的产品组合以进入新市场。从本质上讲，我几乎参与了我们运营的各个方面，确保我们不仅制造出卓越的产品，而且成功地将它们推向市场并实现我们的业务目标。

对于不熟悉这个术语的读者来说，什么是数据仓库？

数据仓库是一种架构模式，用于将所有企业数据整合到一个集中存储库中，该存储库将作为您生成各种类型的分析、报告和仪表板的基础，这些分析、报告和仪表板将呈现您业务所在地的真实情况并预测未来业务的表现。为了满足所有这些需求，您可以以某种方式将数据整合在一起，该架构称为数据仓库。

该术语实际上取自现实生活中的仓库，您的产品存储在有组织的货架上。但当您进入数据世界时，您会从各种来源获取数据。您从生产、网站、客户、销售和营销、财务以及人力资源部门获取数据。您将所有数据集中在一起，将其集中到一个地方，这就是所谓的数据仓库，并以某种方式设计，以便报告（尤其是基于时间线的报告）变得容易。这是数据仓库的核心目的。

当今数据仓库的一些主要趋势是什么？

数据仓库在过去 20 至 25 年中取得了长足的发展。大约十年前，我们见证了自动化数据仓库的出现，这是一种范式转变，加速了构建数据模型和数据仓库的过程。最近，自动化已成为焦点。它解决了数据仓库任务的重复性问题，简化了流程以节省时间和资源。

我们的产品， Astera 数据仓库构建器例如，提供了数据仓库自动化的整体方法。它涵盖了从自动化 ETL（提取、转换、加载）管道和数据建模到将数据自动加载到星型模式或数据仓库等结构的所有内容。此外，它还通过变更数据捕获（CDC）机制有效地维护这些结构。这种包罗万象的自动化已成为数据仓库领域的一个关键趋势。

此外，最新的趋势是数据仓库和人工智能（AI）之间的融合。具体来说，生成式人工智能将自动化提升到了新的高度。它不仅可以自动执行任务，还可以帮助用户做出决策。

数据仓库组件、管道和决策点的配置可以由人工智能指导，使数据仓库比以往更加强大和高效。从本质上讲，这是一种增强型自动化，它正在改变数据仓库的格局。人工智能和数据仓库之间的交叉是一种为未来带来巨大前景的趋势。

企业在开发数据仓库时应考虑的四个基本原则是什么？

1. 定义明确的目标

首先必须准确了解您需要从数据仓库中获得什么。避免在没有明确目的的情况下收集过多数据的常见陷阱。相反，确定您想要通过数据仓库实现的具体目标。您正在寻求哪些报告和见解？通过专注于您的目标，您可以确保只引入相关的数据，而不是不加区别地积累大量信息。鉴于存储和计算能力成本不断下降，明智且合乎道德地利用这些资源至关重要。

2. 选择正确的架构模式

架构模式非常重要。他们决定您的数据仓库解决方案是否成功。有多种选择，从 Inmon 风格的数据仓库到 Ralph Kimball 的星型模式，以及 Data Vault 等较新的模式和列数据库供应商提倡的一张大表方法。并非所有模式都适合所有场景。

我们看到的大部分是位于数据保险库顶部的星型模式的组合。因此，Data Vault 和 Star Schema 的组合仍然是最广泛使用的模式。但是，正如我所说，对于每个要求或每个场景都会有不同的答案。因此，请专家运行它，看看哪种架构模式最适合您的场景。

3. 选择正确的工具

它们非常重要，并且它们在构建解决方案所需的时间和资源以及解决方案的准确性和质量方面再次产生巨大的影响，这取决于您将用于构建解决方案的产品数据仓库并对其进行维护。高度关注产品的功能，并关注能够在一个保护伞下带来最多需求的产品。在某些领域，例如 ETL（提取、转换、加载）、数据质量、数据建模、数据加载和数据发布都发挥着重要作用。如果您尝试在每个领域使用多种产品，那就会很困难。因此，看看可用于完成大部分（如果不是全部）不同成分的产品。

4. 你的团队

最后但并非最不重要的一点是，为构建数据仓库解决方案而组建的团队是最重要的部分。我们建议聘请在数据架构模式方面具有深厚背景的人员。就团队组成而言，跨职能团队是最好的方式，其中业务用户和具有一定编程背景或至少具有数据专业知识的人员混合在一起，并且数据保管人、数据管理人员之间有密切的协作。负责数据，当然还有业务。通过促进组织的这些不同方面之间的密切合作，您可以创建一个有凝聚力且有效的团队，负责构建和维护数据仓库解决方案。

数据仓库的成功取决于这四个原则之间的平衡。根据我们的经验，如果认真遵循这些原则，就会被证明是成功的秘诀。

为什么公司需要现代数据堆栈？

这取决于我们如何定义 “现代的” 而且这种情况一直在变化，有时每年、每月、甚至每天都在变化。我们必须考虑在设计时考虑到不断变化的数据环境的现代工具集。在过去几年中，数据的性质和数量发生了重大变化。大数据的兴起改变了数据格局，数据从电子商务网站、生产数据库和业务的各个部分等来源涌入。这些数据不仅在数量上发生了变化，而且其本质也在发生变化。

过去，数据大多是结构化的，但现在，非结构化数据发挥着重要作用。此外，数据生成和可供使用的速度也有所提高。鉴于数据的这些变化，我们必须不断评估和调整我们的工具集，以有效应对这些不断变化的数据挑战。

现代数据堆栈旨在处理数据结构和速度的所有变化，并且它能够很好地适应过去几年发展的新兴架构模式。因此，如果您想充分利用数据，则必须考虑实现数据堆栈的现代化。这是应对新数据挑战的唯一方法。

我们已经看到，公司坚持使用似乎有效的现有解决方案。认识到数据本身本质上是动态的这一点至关重要。它不断发展，带来新的挑战和机遇。现有的解决方案可能无法适应这些变化。因此，为了充分发挥数据的潜力，公司必须接受数据堆栈现代化的概念。这并不是要破坏有效的方法；而是要破坏有效的方法。这是关于保持敏捷性并响应数据不断变化的性质。通过不断评估和整合数据技术的进步，企业可以保持竞争力并在日益数据驱动的世界中做出明智的决策。

当前行业中存在哪些数据管理挑战？

1. 数据速度和集成

我们今天面临的重大挑战之一是从各种应用程序涌入的大量数据。如果您以任何典型的 IT 组织为例，他们都会处理不断涌现的新应用程序 - 每年有数十个，有时甚至数百个，尤其是在中型组织中。

现在，所有这些应用程序都会生成数据，并且这些数据包含有价值的见解。这里主要关注的是能够将这些新数据源快速集成到现有数据管道中并将它们整合到统一视图中。组织适应和整合这些新数据流的速度是我们看到的最大挑战。

2. 不同的数据格式

另一个关键挑战源于数据本身的性质，特别是非结构化数据的日益普遍。当然，对于非结构化数据，对于如何处理它有不同的想法。

组织必须决定是将这些数据直接存储在数据湖中以供以后使用，还是将其提取并转换为更结构化的格式以供立即使用。如何处理非结构化数据的挑战仍然存在，我们看到即使是中型公司或小型公司也受到了影响。因此，制定有效的策略来处理非结构化数据至关重要。

3. 数据发布与共享

虽然数据集成和整合至关重要，但有效共享数据的能力也同样重要。组织需要向内部部门、第三方供应商、合作伙伴和其他利益相关者发布和分发数据的机制。这一挑战不仅仅是让数据易于访问；它涉及确保数据安全、隐私和遵守法规。随着数据共享成为各种规模企业的必需品，该领域的技术和产品正在迅速发展以满足需求。

Astera 通过哪些方式将人工智能集成到客户工作流程中？

我们以两种不同的方式看待人工智能与数据管理的交叉。

1. 通过生成式人工智能增强可用性

我们对可用性的坚定承诺是我们产品开发理念的基石。在过去的 12 到 13 年里，我们在设计学习曲线短的产品方面建立了良好的声誉，甚至让非技术用户也可以使用它们。只需进行适量的培训，个人就可以有效地利用我们的产品，利用他们的数据执行有意义的任务。

随着生成式人工智能的引入，Astera 将可用性提升到了一个新的水平。我们利用生成式人工智能创建了一个用户界面，允许客户使用自然语言命令与产品进行交互。这种人工智能驱动的界面简化了配置任务，使用户更加直观和高效。

此外，Astera还集成了由人工智能支持的自动化，以处理以前需要数小时手动工作的任务，特别是在数据管理产品的配置方面。构建数据管理解决方案的最大成本因素不仅仅是购买产品，而是配置它所花费的时间和精力。我们尝试用人工智能来解决这个问题。这种方法显着减少了传统上花费在产品配置上的时间和资源。

以Astera的产品为例，报告矿工，通过允许用户根据规则创建提取模板，简化了从非结构化文档中提取数据的过程。人工智能现在可以在几秒钟内生成初始模板，而这项任务以前一般用户需要两到三个小时才能完成。 AI 生成的模板的第一次剪切可能并不完美，但它可以处理大约 90% 的工作量，允许用户快速调整并在几分钟而不是几小时内完成任务。这种方法只是 Astera 如何利用人工智能来增强其产品可用性的一个例子。

我们在整个数据堆栈中做类似的事情，人工智能的可用性得到了显着提升。

2. 人工智能功能作为工具集

Astera 提供统一的数据堆栈，涵盖数据管理的各个方面，包括摄取、转换、数据质量、数据仓库、API 和数据发布。该公司认识到为用户提供人工智能功能作为多功能工具集的重要性。在此工具集中，Astera 的客户可以访问整个数据科学领域的 AI，从构建和部署机器学习模型到处理 ML Ops（机器学习操作）。 Astera 还支持使用基于开源的模型，包括大型语言模型 (LLM)，并有助于针对特定用例进行微调。

这种更广泛的人工智能功能使 Astera 的用户能够利用人工智能来执行各种与数据相关的任务，包括部署机器学习模型、实施 ML Ops 和微调开源模型。此外，Astera 不断致力于扩展其人工智能支持，涵盖矢量数据库、相似性搜索、嵌入等领域。

大公司在数据管理中利用人工智能和机器学习模型的最佳实践有哪些？

1. 保持人工智能和机器学习发展的前沿

大型语言模型领域正在迅速发展。为了获得竞争优势，大公司应该随时了解最新进展。例如，Astera 是生成式人工智能的早期采用者，利用 OpenAI 和 LAMA 等模型。对新兴技术的持续监控可确保您做好充分准备，有效地利用它们。

2. 尝试多种模型和配置

通过 LLMS 的微调，我们能够部署小规模（例如 8 到 13 亿个参数模型），并在本地部署它们。这对我们来说非常有效，我们建议不要只使用一种与另一种，而是尝试不同的基本模型和不同的配置，看看哪一种适合您。

大型语言模型有不同的风格，每种都有其独特的功能。创建一个配置，允许您从多种选项中进行选择，反映开发人员和数据科学家在数据科学之旅中所做的事情。

为了增强用户的能力，我们创建了一个配置系统，它提供了广泛的选项，类似于开发人员和数据科学家在使用开源库进行数据驱动的工作时遇到的情况。我们的目标是将这些选项无缝集成到我们的产品中，为用户提供动态且适应性强的体验。

3. 优先考虑本地部署而不是 API

在处理以数据为中心的产品时，减少延迟至关重要。仅依靠 API 进行 AI 和 ML 模型访问可能会带来不可接受的延迟，尤其是在处理大量数据时。建议优先在本地部署微调模型，专门针对您的特定场景。这种方法可以显着提高响应时间和整体性能。

为什么 Astera 是比竞争平台更优越的解决方案？

Astera 的解决方案具有无代码、直观、可视化界面以及由人工智能支持的增强可用性，这使得所有用户（无论其技术能力如何）都可以轻松执行复杂的数据处理。
我们的数据堆栈的自动化功能减少了可重复的手动任务，节省了时间和开发资源。
我们的统一平台可以帮助用户执行端到端的数据处理，而无需切换解决方案。这消除了学习和管理多个孤立系统的费用。

感谢您的精彩采访，想要了解更多信息的读者可以访问 Astera软件.

相关话题：阿斯特拉数据仓库专属采访

下一步

Elai 首席执行官兼联合创始人 Vitalii Romanchenko – 访谈系列

不要错过

CentralReach 首席执行官 Chris Sullens – 访谈系列

安托万·塔迪夫

Unite.AI 创始合伙人 & 会员福布斯技术委员会，安托万是一个未来学家他对人工智能和机器人技术的未来充满热情。

他也是证券，一个专注于投资颠覆性技术的网站。

联合人工智能

Jay Mishra，Astera Software 首席运营官 – 访谈系列

面试

Jay Mishra，Astera Software 首席运营官 – 访谈系列

目录

最新文章

联合人工智能

Jay Mishra，Astera Software 首席运营官 – 访谈系列

目录

你可能会喜欢

最新文章