Connect with us

访谈

Wilson Pang,Real World AI 的共同作者 – 采访系列

mm

Wilson Pang 于 2018 年 11 月加入 Appen 担任首席技术官,负责公司的产品和技术。Wilson 在软件工程和数据科学方面拥有超过 19 年的经验。在加入 Appen 之前,Wilson 曾是中国最大的在线旅行社公司 Ctrip 的首席数据官,他领导数据工程师、分析师、数据产品经理和科学家,以提高用户体验和增加运营效率,从而促进业务增长。在此之前,他曾是 eBay 在加利福尼亚的高级工程总监,提供了包括数据服务和解决方案、搜索科学、营销技术和计费系统在内的各个领域的领导。他曾在 IBM 担任架构师,为各个客户构建技术解决方案。Wilson 获得了浙江大学电气工程的硕士和学士学位。

我们讨论了他的新书:人工智能的真实世界:负责任的机器学习实用指南

您描述了当您领导 eBay 的搜索科学团队时,您在机器学习方面的第一个教训是了解知道什么指标需要测量的重要性。给出的例子是如何指标“每次会话的购买量”没有考虑到物品的货币价值。公司如何才能最好地了解需要测量什么指标,以避免类似的问题?

从您的团队为 AI 模型设定的目标开始 – 在我们的例子中,我们希望通过机器学习来推动更多的收入。当您将指标附加到目标时,思考这些指标将产生什么机制,一旦您发布模型并且人们开始与之交互,但也要注意您的假设。在我们的例子中,我们假设模型将优化收入,但每次会话的购买量并没有转化为此,因为模型正在优化高数量的低票值销售,最终我们没有赚到更多的钱。一旦我们意识到这一点,我们就能够更改指标并将模型引向正确的方向。因此,确定粒度指标以及注意假设对于项目的成功至关重要。

您在研究和撰写这本书的过程中,个人有什么收获?

我们有很多不同的问题可以通过人工智能从不同公司和不同行业解决。用例可以非常不同,人工智能解决方案可能不同,用于训练人工智能解决方案的数据可能不同。然而,尽管存在所有这些差异,人们在人工智能之旅中犯的错误却非常相似。这些错误一次又一次地发生在所有种类的公司和所有种类的行业中。

我们分享了一些在实施人工智能项目时的常见最佳实践,希望能够帮助更多的人和公司避免这些错误,并使他们拥有部署负责任的人工智能的信心。

您希望人们从阅读这本书中获得的最重要的教训是什么?

我们坚信,机器学习技术的深思熟虑、负责任和道德使用可以使世界变得更加公正、公平和包容。机器学习技术承诺重塑整个商业世界,但这并不一定很难。有尝试过和经过验证的方法和流程,团队可以遵循这些方法和流程,并获得部署到生产环境的信心。

另一个关键教训是,业务所有者(如产品经理)和技术团队成员(如工程师和数据科学家)需要使用共同的语言。为了成功部署人工智能,领导者必须弥合团队之间的差距,为业务专家和 C 级高管提供足够的背景,以便与技术实施者高效地交谈。

很多人一想到人工智能,就会想到代码。这本书中的一个关键教训是,数据对于人工智能模型的成功至关重要。从收集到标记、存储等,每一步都将影响模型的成功。最成功的人工智能部署是那些对数据高度重视并努力不断改进人工智能模型这一方面的人。

所有现实世界的人工智能都需要一个跨职能团队和创新精神。

讨论了确定人工智能模型的准确性足以支持使用人工智能的方法。评估所需的准确性类型的最简单方法是什么?

这取决于您的用例和风险承受能力。开发人工智能的团队应该始终有一个测试阶段,在这个阶段,他们确定准确性水平和组织及利益相关者的可接受阈值。对于生死攸关的用例 – 如果人工智能出错可能会造成伤害,例如判刑软件、自动驾驶汽车、医疗用例,标准非常高 – 团队必须制定应急计划,以防模型出错。对于更能容忍错误的用例 – 在这些用例中,主观性很强 – 如内容、搜索或广告相关性,团队可以依靠用户反馈来调整他们的模型,即使在生产中也是如此。当然,在这些用例中也有一些高风险用例,用户可能会看到非法或不道德的材料,因此必须制定防范措施和反馈机制。

可以定义项目前期定义成功的重要性吗?

从业务角度出发,定义成功与开始解决业务问题一样重要。按照书中的例子,汽车经销商使用人工智能标记图像,他们没有确定成功的定义,因为他们没有定义要解决的业务问题。成功对他们来说可能是很多事情,这使得即使对于团队来说,也很难解决问题,更不用说具有固定范围的机器学习模型。如果他们设定目标标记所有有凹痕的车辆,以创建需要维修的车辆清单,并将成功定义为准确标记 80% 的所有车辆凹痕,那么当他们准确标记 85% 时,团队将其称为成功。但如果这种成功没有与业务问题挂钩,也与直接的业务影响无关,那么很难在这个例子的标记准确性定义之外评估项目。在他们的例子中,他们可以通过定义成功为节省索赔流程的时间/金钱或通过 X% 优化维修流程来做得更好,然后将标记的影响转化为真正的业务成果。

确保训练数据示例涵盖生产部署中将发生的所有用例的重要性如何?

模型被训练以涵盖所有用例以避免偏见至关重要。但也很重要的是要注意,虽然不可能涵盖生产中绝对所有的用例,但构建人工智能的团队需要了解生产数据以及训练数据,以便训练人工智能来应对生产中遇到的情况。获取来自大型多样化群体的训练数据,涵盖各种用例,对模型的成功至关重要。例如,训练模型识别上传图像中的人们的宠物,需要训练模型识别所有类型的宠物;狗、猫、鸟、小型哺乳动物、爬行动物等。如果模型仅训练识别狗、猫和鸟,那么当有人上传带有豚鼠的图像时,模型将无法识别它。虽然这是一个非常简单的例子,但它表明训练模型以涵盖尽可能多的可能用例是模型成功的关键。

书中讨论了从上到下培养良好的数据卫生习惯的必要性,培养这种习惯的一些常见的第一步是什么?

良好的数据卫生习惯将提高内部数据的可用性,并使其适用于机器学习用例。整个公司必须擅长组织和跟踪其数据集。实现这一点的一种确保方法是使其成为业务要求,并跟踪实施情况,以便只有很少的报告是定制工作,团队越来越多地使用数据管道,汇总到中央存储库,并具有明确的本体论。另一个好的做法是记录数据的收集时间和地点,以及在将其放入数据库之前发生了什么事情,以及建立周期性清理未使用或过期数据的流程。

感谢这次精彩的采访,对于有兴趣了解更多的读者,我推荐他们阅读这本书 人工智能的真实世界:负责任的机器学习实用指南

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。