Connect with us

访谈

Xavier Conort,FeatureByte 联合创始人和 CPO – 采访系列

mm

Xavier Conort 是一位具有 25 年以上数据经验的远见卓识的数据科学家。他在保险行业担任精算师开始了他的职业生涯,然后转向数据科学。他是 Kaggle 的顶级竞争者,并且曾是 DataRobot 的首席数据科学家,然后联合创立了 FeatureByte。

FeatureByte 的使命是通过彻底简化和工业化 AI 数据来扩大企业 AI 的规模。该功能工程和管理平台使数据科学家能够在几分钟内创建和共享最先进的功能和生产就绪数据管道,而不是几周或几个月。

您从保险行业的精算师开始您的职业生涯,然后转向数据科学,是什么导致了这种转变?

一个决定性的时刻是我赢得了 GE 飞行任务,一场由 GE 组织的比赛,奖金池为 25 万美元,参赛者需要预测美国国内航班的延误。我将这部分成功归功于保险实践中的一个有价值的方法:2 阶段建模。这一方法有助于控制特征中的偏差,这些特征在可用的训练数据中没有足够的代表性。结合我在 Kaggle 上的其他胜利,这一成就让我相信我的精算背景给我在数据科学领域带来了竞争优势。

在我的 Kaggle 之旅中,我还有机会与其他热衷的数据科学家联系,包括后来成为 DataRobot 联合创始人的 Jeremy Achin 和 Tom De Godoy。我们有一个共同的背景,即保险业,并在 Kaggle 上取得了显著的成功。当他们最终推出了 DataRobot,一家专门从事自动机器学习的公司时,他们邀请我加入他们担任首席数据科学家。他们将保险业的最佳实践与机器学习的力量结合起来的愿景激励了我,这为我提供了一个机会去创造一些创新且有影响力的东西。

在 DataRobot,您在构建数据科学路线图方面发挥了重要作用。您面临了什么样的数据挑战?

我们面临的最重大挑战是输入到我们的自动机器学习解决方案中的数据质量差异。这一问题通常会导致我们团队和客户之间耗时的合作,或者如果不恰当地解决,会导致生产环境中的结果令人失望。质量问题来自于我们需要关注的多个来源。

其中一个主要挑战是使用商业智能工具进行数据准备和管理。虽然这些工具对于生成见解非常有价值,但它们缺乏确保机器学习数据准备的点对点正确性的功能。因此,训练数据可能会出现泄漏,导致过拟合和模型性能不准确。

数据科学家和数据工程师之间的误解是另一个影响生产中模型准确性的挑战。训练和生产阶段之间的不一致性可能会影响模型在现实世界环境中的性能。

您从这段经历中得到了什么样的关键启示?

我的 DataRobot 经验凸显了数据准备在机器学习中的重要性。通过解决生成模型训练数据的挑战,例如点对点正确性、专业知识差距、领域知识、工具限制和可扩展性,我们可以提高机器学习模型的准确性和可靠性。我得出结论,简化数据准备过程并融入创新技术将在解锁 AI 的全部潜力和兑现其承诺方面发挥重要作用。

我们也听到了您联合创始人 Razi Raziuddin 关于 FeatureByte 背后的创业故事,您能给我们讲述您自己的版本吗?

当我与我的联合创始人 Razi Raziuddin 讨论我的观察和见解时,我们意识到我们对数据准备挑战的理解是一致的。在我们的讨论中,我与 Razi 分享了我对 MLOps 社区最近进展的见解。我观察到 AI 第一技术公司正在实施特征存储和特征平台,以减少特征服务的延迟,鼓励特征重用或简化特征物化为训练数据,同时确保训练和服务的一致性。然而,很明显仍然存在一个满足数据科学家需求的差距。Razi 与我分享了他对现代数据栈如何革新商业智能和分析的见解,但并没有被完全利用用于 AI。

对 Razi 和我来说,很明显我们有机会通过根本性地简化特征工程过程并为数据科学家和机器学习工程师提供正确的工具和用户体验来实现无缝的特征实验和特征服务。

您在从数据科学家转变为企业家的过程中面临了哪些最大的挑战?

从数据科学家转变为企业家需要我从技术角度转变为更广泛的商业导向的思维方式。虽然我在理解痛点、创建路线图、执行计划、建立团队和管理预算方面有坚实的基础,但我发现我最大的障碍是创造出真正能与我们的目标受众产生共鸣的正确信息。

作为一名数据科学家,我的主要重点一直是分析和解释数据以得出有价值的见解。然而,作为一名企业家,我需要将我的思维转向市场、客户和整体业务。

幸运的是,我能够通过利用像我的联合创始人 Razi 这样的经验来克服这个挑战。

我们听说了 Razi 关于为什么特征工程如此困难的看法,您认为是什么让它如此具有挑战性?

特征工程有两个主要挑战:

  1. 转换现有列:这涉及将数据转换为适合机器学习算法的格式。技术如 one-hot 编码、特征缩放和高级方法,如文本和图像转换,用于此类特征工程。从现有特征创建新特征,例如交互特征,可以大大提高模型性能。流行的库,如 scikit-learn 和 Hugging Face,提供了对此类特征工程的广泛支持。自动机器学习解决方案也旨在简化此过程。
  2. 从历史数据中提取新列:历史数据在推荐系统、营销、欺诈检测、保险定价、信用评分、需求预测和传感器数据处理等问题域中至关重要。从这些数据中提取信息列具有挑战性。示例包括自上次事件以来经过的时间、对最近事件的聚合以及从事件序列中提取的嵌入。这种特征工程需要领域专业知识、实验、强大的编码和数据工程技能以及深厚的数据科学知识。时间泄漏、处理大型数据集和高效代码执行等因素也需要考虑。

总体而言,特征工程需要专业知识、实验和在没有专门为其设计的工具的情况下构建复杂的特定数据管道。

您能分享 FeatureByte 如何简化特征管道同时赋予数据科学专业人员权力吗?

FeatureByte 通过简化整个特征工程过程来赋予数据科学专业人员权力。使用直观的 Python SDK,它使快速特征创建和从大型事件和项目表中提取成为可能。计算通过利用 Snowflake、DataBricks 和 Spark 等数据平台的可扩展性来高效处理。笔记本电脑促进实验,而特征共享和重用节省时间。审计确保特征准确性,而立即部署消除了管道管理的头痛。

除了我们的开源库提供的功能外,我们的企业解决方案提供了一个全面的框架,用于在大规模管理和组织 AI 操作,包括治理工作流和特征目录的用户界面。

您对 FeatureByte 的未来有什么样的愿景?

我们对 FeatureByte 的最终愿景是通过赋予用户解锁其数据资产的全部创造潜力和提取前所未有的价值来革新数据科学和机器学习领域。

我们特别兴奋地看到生成式 AI 和变换器的快速进展,这为我们的用户开启了一个全新的可能性世界。另外,我们致力于使特征工程民主化。生成式 AI 有潜力降低创造性特征工程的进入门槛,使其更容易被更广泛的受众接受。

总之,我们对 FeatureByte 未来的愿景围绕着持续创新、利用生成式 AI 的力量和民主化特征工程。我们旨在成为数据专业人员将原始数据转化为机器学习的可行输入的首选平台,推动各个行业的突破和进步。

您对有志于成为 AI 企业家的建议是什么?

定义您的空间,保持专注,并欢迎新颖性。

通过定义您想要拥有的空间,您可以区分自己并在该领域建立强大的存在感。研究市场,了解潜在客户的需求和痛点,并努力提供一种独特的解决方案来有效地解决这些挑战。

定义您的长期愿景,并设定明确的短期目标与该愿景保持一致。专注于建立坚实的基础,并在您选择的空间中提供价值。

最后,虽然保持专注很重要,但不要害怕在您的定义空间内探索新思想。AI 领域不断演变,创新方法可以带来新的机会。

感谢这次精彩的采访,希望了解更多的读者可以访问 FeatureByte

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。