人工智能

尼尔·耶格博士,Phrasee联合创始人兼首席科学家 – 采访系列

mm

尼尔·耶格博士是Phrasee的首席科学家,也是Phrasee方法的架构师,Phrasee是一种由人工智能驱动的文案写作工具,帮助优化了世界上一些最知名品牌的营销文案,包括eBay、Groupon和Virgin等,覆盖20多种语言,从英语到日语。

耶格博士撰写了十几篇学术论文,撰写了一本关于数据挖掘的书,并拥有多项专利。他是商业化人工智能领域的世界领先专家之一,拥有澳大利亚新南威尔士大学计算机科学博士学位。

您是科技行业20年的资深人士,您之前的AI相关工作是什么?

我从2000年代中期的博士学位开始就参与了AI相关的工作。然而,这个领域在那时以来经历了几次重塑。例如,15年前,我研究“统计模式识别”。几年后,这被更常称为“机器学习”,这是一个更吸引人的名字。更近期,机器学习(特别是“深度学习”)已经成为人工智能的代名词。我对此有混合的感受。一方面,我的工作经验告诉我品牌的重要性。另一方面,人工智能这个词带来了很多负面影响,可能会对技术产生误解。我想知道如果我们仍然称之为“统计模式识别”,我们会在哪里。

大部分我之前的工作是在信号处理和计算机视觉领域。我在加入Phrasee之前没有太多自然语言处理的经验。我已经学会了语言可能是AI中最困难的问题。

 

2008年,您共同撰写了一本名为‘生物测量系统和数据分析:设计、评估和数据挖掘’的书,这本书结合了统计和机器学习的方面,提供了一个全面指南,用于评估、解释和理解生物测量数据。在计算资源之外,您是否认为该领域自该书出版以来已经发展?您能描述一下吗?

自从我写那本书以来,深度学习已经彻底改变了计算机视觉、语言处理和机器学习的领域。如果没有深度学习的内容,今天就不可能写那本书。

深度学习革命真正开始于2012年,当时一个深度学习模型赢得了ImageNet竞赛。ImageNet是一个视觉对象识别数据集,计算机确定图像中有什么(例如“狗”或“气球”)。几十年来,研究人员一直在像这样的基准数据集上取得渐进式的进步。每个子领域独立运作,严重依赖特定领域的专业知识。几乎一夜之间,多年来精心构建的所有模型都变得过时了。由外行设计的深度学习算法以显著的优势赢得了比赛。这改变了AI行业。

该领域仍然快速发展,即使从Phrasee成立几年来看,也已经发生了变化。例如,我们现在依赖的深度学习工具在我们创立公司时还不存在。创新速度带来了自己的挑战。

 

您能否与我们分享Phrasee能够为企业做什么?

Phrasee解决了两个问题。首先,是写作营销文案的问题。现在有比以往任何时候都多的广告渠道(例如,电子邮件、AdWords、社交媒体、印刷品、播客等)。很难为所有这些渠道写出高质量的文案,并且符合品牌的风格和语气。Phrasee通过自动生成文案来解决规模的问题。其次,使用的语言必须有效。Phrasee不仅生成语言,还使用机器学习来预测信息的影响并相应地优化。

 

是什么吸引您使用自然语言处理(NLP)和深度学习来提高广告文案的力量?

使用人工智能来最大化数字营销活动的影响力并不是一个新想法。有很多拥有物理学博士学位的团队被招募来从事广告优化工作。然而,在大多数情况下,他们专注于研究和开发工作,例如受众细分、个性化、投放时间、广告位置、字体等。当我们最初为Phrasee提出想法时,我们注意到几乎所有关于广告的东西都被优化了,除了实际使用的语言!我们将其确定为市场中的一个缺口和一个巨大的机会。

 

Phrasee能够以20多种语言改进营销文案,包括日语。您能否讨论一下在外语中遇到的独特的自然语言处理问题?

我们支持的最新语言是俄语。这是一种斯拉夫语,与其他印欧语系语言有很大区别。在这种情况下,我们需要在语言生成系统中构建新的规则,以便输出流利且语法正确的语言。这不仅仅是一个语言问题,也是一个软件开发问题。当我们的系统输出是开发人员的母语时,相对容易发现错误并验证一切是否正常工作。但是,当我们处理俄语或日语时,我们可能会输出无意义的内容,并不知道。因此,必须让母语者密切参与QA过程。

挑战不仅仅在于外语。还有些有趣的区域差异。例如,英语有美式英语、英式英语、澳大利亚英语、加拿大英语等拼写变体。此外,还有语法差异。在英国英语中,你“have a look”,而在美国英语中,你“take a look”。单词的含义也可能从一个地方到另一个地方变化。橡皮擦在英国被称为“rubber”,而在北美,它指的是避孕套!为了使NLG系统能够用于商业应用,它们需要处理所有这些细微差别。

 

您能否与我们分享Phrasee中深度学习的使用细节?

Phrasee的技术有两个主要的AI组件。第一个是自然语言生成(NLG),它实际上产生语言。第二个是深度学习,重点是性能。性能可以根据上下文有不同的含义。例如,电子邮件主题行的目标是诱使收件人打开电子邮件并查看内容。对于Facebook,目标可能是最大化点赞或分享。给定大量的历史数据,很可能找到人类无法注意到的微妙趋势和模式。这是一个标准的机器学习问题。

深度学习相比传统的机器学习方法提供了几个优势。使用传统的机器学习,重点是“特征工程”。这意味着开发人员需要决定他们认为语言中最重要的特征是什么。例如,单词、长度、表情符号使用等。问题在于,这受到工程师的技能和想象力的限制。然而,使用深度学习,原始文本被输入到模型中,模型构建了它自己的语言机器表示(这被称为端到端学习)。因此,它不受人类偏见的影响,并且是一种强大的方法。然而,缺点是很难理解为什么模型会以这种方式表现。可解释性是深度学习社区内的一个活跃研究领域。然而,系统的复杂性和我们理解它的能力之间存在一个基本的权衡。人类语言是混乱的,因此成功的NLP解决方案通常具有很高的复杂性。

 

Phrasee的一项功能是能够以品牌独特的语气写作,您能否详细说明这是如何实现的?

当我们为新客户签约时,我们首先收集有关其品牌沟通风格的信息。这包括任何正式的品牌指南、历史上的营销活动,以及我们为此目的开发的一系列问卷。所有这些信息都被我们的一支语言技术人员团队用来为客户构建一个特定的语言模型。我们的语言模型是生成式的,这意味着它们能够以客户独特的风格生成从未见过的语言。

语言模型可以在任何时候更新。例如,在COVID-19危机的高峰期,我们的语言团队正在审查我们的模型,以确保不可能创建不恰当的语言。像“这些交易正在传播!”这样的短语几个月前可能是无害的,但在全球大流行期间显然是不恰当的。这表明了我们系统的灵活性。

 

一家公司要开始使用Phrasee,需要什么样的数据?

说实话,要开始使用Phrasee,我们不需要太多的数据。第一步是确定一个合适的项目领域。例如,这可能是每周促销电子邮件的主题行。理想情况下,这将有一个相对较大的受众,并且沟通将是定期的。一旦项目被确定,我们需要有关预期主题和品牌声音的信息,以便构建语言模型。Phrasee需要持续的性能结果。由于我们的解决方案使用机器学习,因此跟踪和衡量关键指标随着时间的推移至关重要。这些信息被反馈到我们的系统中,以便它可以不断优化以提高参与度。

 

您是否还有其他关于Phrasee的信息想要分享?

当Parry、Victoria和我五年前创立Phrasee时,我们确信这只是时间问题,其他许多初创公司将会出现类似的产品。我们的计划是领先于竞争对手一步。然而,我们对进入这个领域的其他公司数量的缺乏感到惊讶。其他人在哪里?我认为有几个原因,但其中一个主要原因是语言如此困难。我怀疑其他人可能已经尝试过创建类似的产品,但在R&D的早期阶段就失败了。这证明了我们的技术是多么独特。

感谢您关于自然语言处理、自然语言生成和深度学习的信息丰富的采访。要了解更多信息,访客可以访问Phrasee

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。