面试

Ople.ai 首席执行官兼创始人 Pedro Alves – 访谈系列

发布时间 2020 年 11 月 5 日

更新 2021 年 11 月 24 日

安托万·塔迪夫， Unite.AI首席执行官兼创始人

Pedro Alves 是 Ople.ai 的首席执行官兼创始人，该平台为分析师和领域专家提供强大的预测分析能力。该平台汇聚了全球顶尖数据科学家的知识和专业技能，使用户能够专注于自己真正擅长的领域：创造商业影响力。

最初是什么吸引您进入数据科学领域？

早在 2001 年，我就看到了机器学习和人工智能的巨大潜力。在本科生学习计算机科学并决定进一步研究哪个子领域时，我想：好吧，人工智能/机器学习是我认为很有趣的计算机科学领域——你可以帮助预测任何领域的事件。无论你是在生物学、医学还是金融领域，如果你拥有机器学习和人工智能，你就可以显着推进这些领域。我一直认为它背后的数学很有趣。

进入研究生院后，我认定提升机器学习专业知识的最佳途径是学习如何应用它。我一直非常注重实践；我不想仅仅为了理论而学习理论。我选择研究机器学习在基因组学和蛋白质组学领域的应用。我所有的研究生工作都是计算生物学，但重点是机器学习。

不久之后，我进入了医疗保健行业，看到了人工智能/机器学习应用的巨大潜力。从那时起，我开始关注学术界之外的人工智能实践中存在的问题。我亲身经历了人工智能的现实，并了解到它在现实世界中的应用是多么低效，而这并非源于技术问题。因此，我开始致力于解决这个问题。

您曾担任 Banjo 的首席数据科学家，负责解决社交网络领域的挑战。您能讨论其中一些挑战吗？

作为一家公司，我们会检测社交媒体上记录的事件，特别是需要强调为潜在危险的事件，例如附近的车祸或建筑物着火。我们将帮助标记这些事件，以便我们可以进一步帮助动员急救人员。我们一直在使用社交媒体。

很多这类事件在社交媒体数据中并不常见。例如，任何城市每天都会发生无数起车祸，但当你查看社交媒体数据量时，一张车祸照片就显得微不足道了。想想看，几分钟之内，数百万张小狗照片、食物照片、数百万张自拍照，然后是一张车祸照片。本质上，在 Banjo，我们就像大海捞针。

因此，将出现的挑战之一是计算机视觉。尽管计算机视觉在当时很不错，但当你试图找到几百万分之一的概率时，即使是很小的错误率概率也会完全消除你检测到这些罕见事件的机会。

例如，有一个公共数据集，当用于训练神经网络时会导致它们无法识别颜色。即使数据集中的图片是彩色的，并且神经网络查看的是所有 RGB，它也不会使用颜色作为指示符。以传统警车和传统出租车为例，两者的基本车型相同，但顶部有一个额外的机械装置（即警车上的警报器或出租车上的忙/闲信号）。但是，如果你看一下颜色，两者之间的差异就很明显。由于这个例子，我们能够理解创建合适的数据集是至关重要的。

2017 年，你们又推出了 Ople。这家初创公司背后的起源故事是什么？

我希望公司通过实施人工智能获得可观的投资回报率。据 Gartner 称，80% 到 90% 的人工智能项目从未面世。这与技术方面无关，例如模型的准确性。通常是公司文化或公司内部的程序方面。

这可能是由于数据科学团队和业务用户之间缺乏充分的沟通，导致模型预测业务团队不需要的东西，因为数据科学团队不了解需要构建什么。或者，如果他们构建了正确的模型，那么当数据科学团队完成时，业务团队根本不会利用预测。在大多数公司中，销售、营销和物流等部门才是真正应该利用人工智能的部门，但理解这些模型的是数据科学团队。当这些团队不理解为他们构建的模型时，他们往往不相信其预测，因此不会使用它们。

那么，如果人工智能不能改变公司的业务方式，那还有什么意义呢？

我们希望创建一个平台来解决这个问题——我们希望帮助数据科学团队或业务分析师、数据分析师，以及参与公司这一过程的任何人——构建正确的项目并帮助员工理解和信任模型。如果我们解决这个问题，那么我相信数据科学最终可以真正为公司带来价值。

您曾说过，数据科学家正在浪费宝贵的时间来执行可以通过人工智能自动化的任务。应该自动化的任务有哪些示例？

数据科学家通常需要几个月的时间来完成一个模型，一旦最终确定，公司将实施该模型，尽管它可能不会尽可能准确。在模型实施后的几个月里，数据科学家将继续研究它，试图使模型的准确性得到小幅增量的提高。当许多数据科学家可以花时间做其他任务时，例如确保员工理解、信任和使用现有的人工智能模型，他们通常会花时间在这上面。所有花在特征工程、训练模型、参数调整和算法选择等任务上的时间，试图提高模型的准确性，都可以通过人工智能轻松实现自动化。

你能描述什么元学习 Ople 是如何应用它的？

在开始元学习之前，了解机器学习的第一层非常重要。假设您有一个数据集可以预测工厂车间的机器何时会出现故障。机器会通知员工机器即将损坏，以便他们进行预防性维护。这被认为是第一层学习。

元学习，通常被称为“学会学习”，是对学习过程的进一步理解。因此，当您训练模型来预测机器错误时，您会看到另一个模型。例如，第二个模型可以帮助企业了解预测维护模型的哪些参数学习得很好，哪些参数效果不佳。当您进行元学习时，您可以更快地更好地构建更高效的模型。

您对此有何看法综合数据?

如果执行不正确，合成数据可能会非常难以使用。

比方说，您有医疗记录数据 - 您有 20 名患者，对于这些患者，您有他们的年龄、性别、体重、身高、血压、药物清单等。可以使用基于机器学习的方法创建合成数据在这些医疗记录上。然而，如果您仅依赖机器学习或统计，您最终可能会得到无意义的合成数据。它可以创建值的随机混合和匹配，例如 3 岁儿童身高 4 英尺，或 XNUMX 英尺高体重 XNUMX 磅。虽然人工智能/机器学习在许多情况下都是可靠的，但用于医疗记录的合成数据需要有医生的输入。

因此，您需要一位医疗专业人员参与创建参数，例如“如果这个人是这个年龄，实际的身高范围和体重是多少”，或者“如果他们正在服用这种药物，他们不应该服用哪些药物？” 这个过程将不可避免地成为一项艰巨的任务，而且过于复杂，无法列出所有可能性，因为它们与每个患者的医疗记录有关。

然而，在图像领域，合成数据更容易理解和创建。假设您有一张汽车的图片，并且汽车位于左上角。您无需成为专家就知道同一辆车可能位于左下角、右上角或中心。人们不仅可以通过多种方式对准相机，还可以重新调整图片。移动图片的焦点，使汽车位于所有不同的角落，正在创建合成数据 - 另一种简单的方法是使用旋转。

您能否举例说明 Ople 如何帮助企业满足数据需求？

Ople.AI 使企业能够在组织的各个层面利用深入的数据分析，并让员工只需点击几下就有机会释放人工智能的价值。与依靠一小群数据科学家来阐明和实施人工智能的组织不同，Ople.AI 平台为各个部门的员工提供了从数据中获取见解的工具，从而提高了他们的日常效率。

话虽如此，组织在实施人工智能时经常面临的一大障碍是模型的可解释性。对于企业来说，提供员工能够理解、更重要的是能够信任的人工智能至关重要。模型的可解释性对此有所帮助。我们 Ople.AI 平台的目标是让那些可能不懂人工智能或技术的员工有机会轻松了解模型如何进行预测以及为何进行预测。从长远来看，创建模型的可解释性将为企业带来强大的成果。

此外，除了预测之外，模型还能为公司带来更多价值。人工智能可以发现潜在的问题或可以利用的领域。我们称之为数据可解释性——它指的是模型能够以各种方式分享对公司有价值的数据智能洞察。这是人工智能助力企业的重要方式，也是我们在竞争中不断进步的领域。

感谢您接受采访，想要了解更多信息的读者可以访问 Ople.ai。

联合人工智能

Ople.ai 首席执行官兼创始人 Pedro Alves – 访谈系列

你可能会喜欢