访谈

马洛斯·C·马查多，阿尔伯塔大学副教授，Amii 研究员，CIFAR AI 主席 – 采访系列

发布于 2023年6月13日

更新于 2026年5月23日

作者

Antoine Tardif, Unite.AI 首席执行官兼创始人

马洛斯·C·马查多是阿尔伯塔机器智能研究所（Amii）的研究员，阿尔伯塔大学的副教授，也是 Amii 研究员，他还拥有加拿大 CIFAR AI 主席的头衔。马洛斯的研究主要集中在强化学习问题上。他在巴西的 UFMG 获得了学士和硕士学位，并在阿尔伯塔大学获得了博士学位，在那里他推广了通过选项进行的时间延伸探索的思想。

他曾于 2021 年至 2023 年在 DeepMind 任职，并于 2019 年至 2021 年在 Google Brain 任职，在此期间他为强化学习做出了重大贡献，特别是在应用深度强化学习控制 Loon 的平流层气球方面。马洛斯的工作已发表在 AI 领域的顶级会议和期刊上，包括 Nature、JMLR、JAIR、NeurIPS、ICML、ICLR 和 AAAI。他的一些研究也曾在 BBC、Bloomberg TV、The Verge 和 Wired 等热门媒体上被报道。

我们在 2023 年的 Upper Bound 会议上进行了采访，这是一年一度在艾伯塔省埃德蒙顿举行的 AI 会议，由 Amii（阿尔伯塔机器智能研究所）主办。

您主要专注于强化学习，什么吸引您对这种机器学习的兴趣？

我喜欢强化学习的概念，因为它是一种非常自然的学习方式，即通过交互来学习。这种方式感觉就像人类的学习方式一样。我不喜欢将 AI 人格化，但它是一种直观的方式，你尝试做某些事情，有些事情感觉良好，有些感觉不好，然后你学会做让你感觉良好的事情。强化学习中让我着迷的一件事是，因为你与世界交互，你可以提出假设并测试这些假设。

这很重要，因为它允许发现新的行为。例如，AlphaGo 中最著名的例子是第 37 手，这在纪录片中被提及，这是一种创造性的行为，之前从未见过。它让我们所有人都感到惊讶。强化学习能够发现这种行为，因为你正在与世界交互，你可以发现新的行为。我们在一个项目中看到类似的行为，这个项目涉及在平流层中飞行可见的气球，我们看到了一些让每个人都印象深刻的行为，这些行为以前从未被想到过，但它们很聪明。

我认为强化学习非常适合发现这种行为，因为你正在交互，你可以发现新的行为。当然，我不是要自相矛盾，我认为强化学习带来的许多很酷的应用也让我对它感兴趣。就像几十年前，即使我们谈论强化学习的早期成功例子，这也让我觉得很有吸引力。

您最喜欢的历史应用是什么？

我认为有两个非常著名的应用，一个是斯坦福大学使用强化学习飞行的直升机，另一个是 TD-Gammon，这是一个在 90 年代成为世界冠军的西洋双陆棋玩家。当我开始做强化学习时，我并没有完全意识到它是什么。当我申请研究生院时，我会阅读教授的研究描述，因为我想做机器学习，一般来说，我会阅读每个人的描述，我会说：“哦，这很有趣。”当我回顾过去时，我会说：“哦，这些都是强化学习中著名的教授，但当时我并不知道这一点。”

我选择了他们，因为他们的研究描述很吸引人。我会说：“哦，这个网站很好，我想和这个人一起工作。”我会说：“哦，这篇论文很吸引人，我想读它。”我会不断地回到强化学习上，即使我当时并不知道我在做什么。当我开始做强化学习时，我并没有完全意识到它是什么，但我被它吸引了，因为它感觉像是一种非常自然的学习方式。

在谷歌大脑工作期间，您曾参与过平流层气球的自治导航。为什么这是为难以接触的地区提供互联网接入的良好用例？

这是 Loon 的一个项目，Loon 是 Alphabet 的子公司。当我们尝试为世界各地的人们提供互联网时，我们会建造一个天线，例如在埃德蒙顿建造一个天线，这个天线可以为半径 5-6 公里的区域提供服务。如果你在纽约市中心建造一个天线，你就可以为数百万人提供服务。但是，如果你想为亚马逊雨林中的一个部落提供互联网服务，可能只有 50 个人，那么在那里建造一个天线的经济成本就非常高，不仅如此，进入该地区也是一个挑战。

从经济角度来说，在一个人口如此稀少的地区投资基础设施并不合理。气球的想法是：“但如果我们能建造一个非常高的天线呢？如果我们能把一个气球放到 20 公里高空中呢？”当然，我们不知道如何建造这样的天线，但我们可以放一个气球到那里，然后气球就可以为一个比天线大 10 倍的区域提供服务。如果我们把它放在森林或丛林的中间，也许我们可以为多个原本需要单独天线的部落提供服务。

为这些难以接触的地区提供互联网服务是主要动机之一。我记得 Loon 的座右铭不是为下一个十亿人提供互联网，而是为最后一个十亿人提供互联网，这是一个非常雄心勃勃的目标。它不仅仅是为下一个十亿人提供互联网，而是为最难以接触的十亿人提供互联网。

您试图解决的导航问题是什么？

这些气球的工作原理是，它们不被推进，就像热气球一样，你要么上升，要么下降，然后找到一股风向你想要去的方向，然后你就乘着这股风。然后，如果你不想再去那边了，你可以上升或下降，然后找到另一股风向你想要去的方向。这就是气球的导航方式。它不是热气球，而是一个固定体积的气球在平流层飞行。

从导航的角度来看，气球只能上升、下降或保持原位，然后它必须找到能带它到达目标位置的风。在这个意义上，这就是我们导航的方式。有很多挑战，第一点是，从公式上来说，你想在一个区域内，但你也想确保气球是太阳能驱动的，这样你就可以保持电力。这是一个多目标优化问题，不仅要确保你在目标区域内，还要确保你在能量效率方面做得很好。

这是问题本身，但当你深入研究细节时，你不知道风是什么样的，你只知道你当前位置的风况。你有我们在 AI 中称之为“部分可观察性”的东西，你没有所有数据。你可以有预报，但预报经常是错误的，可能会有 90 度的差异。这是一个非常困难的问题，因为我们正在谈论数百个不同的风层，你还必须考虑风速、风向、我们如何建模它以及我们对预报的信心程度。

这只是问题的一部分，但当你实际尝试解决它时，你会意识到它有多么困难。我们在这个项目中遇到的最大挑战之一就是如何传达这个问题的难度。因为它不是你可以在屏幕上看到的东西，它是数百个维度的风，最后你想要在某个区域提供互联网服务。这是一个非常困难的问题，需要考虑很多因素。

机器学习研究的是什么？仅仅是风模式和温度吗？

它的工作原理是，我们有一个风模型，这是一个机器学习系统，但它不是强化学习。我们有来自不同海拔的历史数据，然后我们在这些数据上建立了一个机器学习模型。当我说“我们”时，我指的是 Loon，即使在谷歌大脑参与之前，他们就已经有了这个风模型。它不仅仅是关于不同海拔的风，还包括如何在这些海拔之间进行插值。你可以说：“两年前，这就是风的样子，但在 10 米上方是什么样的，我们不知道。”

然后你可以在这些数据上添加一个高斯过程，他们已经写了关于这个模型的论文。我们从强化学习的角度开始，我们有一个非常好的气球动力学模拟器，我们还有一个风模拟器。然后我们做的事情是，我们回到过去，说：“让我们假设我们在 2010 年。”我们有 2010 年的世界各地风数据，但它是粗略的，然后我们可以叠加这个机器学习模型，这个高斯过程，然后我们可以引入噪音，我们可以做各种事情。

然后，最后，因为我们有动力学模型和风模型，我们可以模拟气球的行为。我们设计了一个奖励函数，目标是保持在目标区域内并尽量减少能耗。我们设计了这个奖励函数，气球可以通过与这个世界交互来学习，但它只能与世界交互，因为我们不知道如何建模天气和风，但因为我们假设自己在过去，我们能够学习如何导航。基本上就是决定是否上升、下降或保持原位，考虑到周围的一切，最终目标是为该区域提供互联网服务。

这就像一个数字孪生体，在时间上是倒退的。

确切地说，我们设计了一个奖励函数，目标是保持在目标区域内并尽量减少能耗。我们设计了这个奖励函数，气球可以通过与这个世界交互来学习，但它只能与世界交互，因为我们不知道如何建模天气和风，但因为我们假设自己在过去，我们能够学习如何导航。基本上就是决定是否上升、下降或保持原位，考虑到周围的一切，最终目标是为该区域提供互联网服务。

在现实世界中部署强化学习与在游戏环境中部署相比，有哪些挑战？

我认为有几个挑战。我不认为这一定是关于游戏和现实世界的问题，而是关于基础研究和应用研究的问题。因为你可以在游戏中进行应用研究，比如说你试图部署一个模型到一个将要发布给数百万人的游戏中，但我认为一个主要的挑战是工程问题。如果你正在处理一个游戏，你使用游戏作为研究环境，因为它捕捉了我们关心的许多属性，但它是在一个更有约束的环境中捕捉的。因为这样，我们可以进行研究，我们可以验证学习，但它是一个更安全的环境，我们更好地理解它。

这并不意味着研究需要非常不同，但我认为现实世界带来了额外的挑战。它是关于部署系统，如安全约束，我们必须确保解决方案是安全的。当你只是玩游戏时，你不必考虑这个问题。最坏的情况是，你会输掉游戏。但是在现实世界中，有很多事情可能会出错，我们必须考虑这些因素。另一个挑战是工程堆栈，它与你作为研究人员与计算机交互以验证某个东西的方式非常不同。现在你有一个产品的整个工程堆栈，你必须处理它。

我认为团队的规模也可能非常不同。Loon 在当时有数十甚至数百人，我们与其中一小部分人交互，但他们有一个控制室，实际上与航空人员交谈。我们对此一无所知，但你有很多利益相关者。现实世界中还有一个挑战，即你的假设不成立。算法的基础假设，在现实世界中并不成立，你必须弄清楚如何处理这个问题。世界并不像任何你在游戏中会做的应用程序那样友好，它是一个更复杂的环境，我们必须考虑到这一点。

与游戏不同，在现实世界中没有数百万个相同游戏同时运行。

是的，我们有一个模拟器，我们可以利用它进行训练，即使模拟器比任何游戏都慢得多，但我们能够处理这个问题。但是，当你在现实世界中做这件事时，它是不同的。你没有那么多机会尝试不同的东西。我们有一个例子，我非常喜欢，就是我们给 Loon 工程师一个解决方案，我们说：“我们解决了你的问题。”他们看着我们，带着一种嘲笑的表情，说：“你们没有，你们不可能解决这个问题。”我们说：“是的，我们做到了，我们有 100% 的准确率。”

他们说：“这根本不可能，因为有时候风不会让你到达你想要去的地方。”我们弄清楚了发生了什么。气球的强化学习算法学会了去区域的中心，然后它会上升，直到气球爆炸，然后气球会下降，永远留在区域内。他们说：“这不是我们想要的。”但当然，这只是一个模拟，我们说：“好吧，我们怎么解决这个问题？”他们说：“好吧，有几件事情，我们可以确保气球不会上升到会爆炸的高度。”

这些现实世界中的约束，解决方案与其他事物交互的方式，很容易被忽视，当你只是一个从事游戏的强化学习研究人员时，你不太会考虑这些因素。但是，当你实际进入现实世界时，你会说：“等一下，这些事情有后果，我必须意识到这一点。”我认为这是一个主要的困难。

我认为另一个挑战是实验的周期时间非常长。就像在一个游戏中，你可以按播放， worst-case 情况下，一周后你就有结果了。但是，如果你实际上要在平流层中飞行气球，你必须飞行数周，甚至数月，才能验证你的解决方案是否有效。这是一个非常漫长的过程，你没有太多机会尝试不同的东西。

现在您正在进行的研究是什么？

现在我在阿尔伯塔大学，我在这里有一个研究小组，里面有很多学生。我的研究更加多样化，因为我的学生让我能够这样做。一件我特别兴奋的事情是持续学习的概念。发生的事情是，每次我们谈论机器学习时，我们都会做一些计算，使用模拟器或处理数据，然后我们会学习一个机器学习模型，我们会部署它，我们希望它能正常工作。大多数时候，这正是你需要的，但有时这不够，因为现实世界的问题太复杂了，你不能指望一个模型，无论它有多大，都能包含世界上所有的复杂性，所以你必须适应。

我参与的一个项目是关于水处理厂的。基本上，我们试图开发强化学习算法，以支持人类在决策过程中，或者为水处理自动化做出决定。我们有数据，我们可以看到数据，但有时水质会在几个小时内发生变化。即使你说：“每天我都会训练我的机器学习模型，然后在一天内部署它”，这个模型在一天结束时就不再有效了，因为数据不是静态的。它很难建模，因为可能有森林火灾正在上游发生，或者雪正在开始融化，所以你必须建模整个世界，但没有人这样做。我们不会这样做，我们会适应，我们会说：“哦，这个事情不再有效，所以我得学习做其他事情。”

我认为有很多出版物，主要是关于现实世界的问题，需要持续学习和适应。这种学习方式在机器学习中并不常见。通常，我们谈论的是做一个大批量的计算，然后部署一个模型，也许我们会在几天或几周后部署另一个模型，但有时这些事情的时间尺度不匹配。问题是：“我们如何能够持续学习和改进？”这是一个非常困难的问题。我们有一些关于这个问题的论文，我们当前的解决方案在这种情况下不能正常工作。如果你让它持续学习而不停止和部署，事情会很快变得糟糕。这是我非常兴奋的一个领域，我认为这是机器学习领域的一个前沿领域。

我认为强化学习特别适合做这件事，因为我们的算法在数据到来时就开始处理数据，所以很多算法天然适合学习。它不意味着它们擅长学习，但我们不需要问自己，我们有很多关于如何做到这一点的有趣研究问题。

您对使用这种持续学习的未来应用程序最感兴趣的是什么？

这是一个价值十亿美元的问题，因为作为一名研究人员，我一直在寻找这些应用程序。我认为，作为一名研究人员，我能够提出正确的问题，这是工作的很大一部分。我认为，在强化学习中，我们经常被问题驱动，就像：“哦，看，我们有这个挑战，现在我们必须解决它。”然后我们在解决问题的过程中取得科学进步。现在我正在与其他人合作，例如 Adam White 和 Martha White，关于水处理厂的项目，这是我非常兴奋的项目，因为它非常具有挑战性。

它需要这种持续学习的方面，因为水会经常变化，无论是浑浊度、温度还是其他因素。它运作在不同的时间尺度上，我认为这是不可避免的，我们需要持续学习。它有巨大的社会影响，很难想象比为人们提供饮用水更重要的事情。有时这真的很重要，因为在加拿大，例如，当我们进入北部和其他一些地区时，我们甚至没有操作水处理厂的操作员。这不是说它一定会取代操作员，而是它可以增强我们做其他事情的能力，因为我们没有足够的人员或力量来做到这一点。

我认为它有巨大的潜在社会影响，这是一个极其具有挑战性的研究问题。我们没有模拟器，我们没有获得一个的途径，所以我们必须使用最好的数据，我们必须在线学习，所以这里有很多挑战。这是我非常兴奋的一个事情。另一个事情，我没有做太多，但另一个事情是冷却建筑，我在想天气、气候变化以及我们可以产生影响的事情。经常只是如何决定冷却一栋建筑。就像这栋建筑，我们今天有这么多人，这与上周非常不同，我们是否会使用完全相同的策略？

最多我们有一个恒温器，所以我们会说：“哦，是的，它很温暖，所以我们可以在这方面更聪明一些，适应。”再次，这需要适应，有时一栋建筑中有很多人，而另一栋建筑中的人很少。有很多机会可以控制这些高维、难以理解的系统，我们可以比现在做得更好。就像在你的家中，你已经有一些产品使用机器学习，然后从客户那里学习，但在这些建筑中，你可以有一个更细致的方法。像佛罗里达、巴西这样的地方有很多这样的需求。冷却数据中心也是一个例子，有些公司已经开始这样做，这听起来几乎像科幻小说，但有能力不断学习和适应，这可以对这些高维控制问题产生巨大的影响。

就像我们飞气球一样，通过传感器做出决策，仅凭人类无法设计的响应曲线。仅凭借神经网络，你就可以学习所有非线性，使决策更加细致入微，有时会非常有效。谢谢您这次精彩的采访，希望读者能够通过以下资源进一步了解相关内容：

Antoine Tardif, Unite.AI 首席执行官兼创始人

安托万是一位具有远见的领导者和Unite.AI的联合创始人，他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者，他相信人工智能将对社会产生电力的影响一样的颠覆性影响，并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家，他致力于探索这些创新将如何塑造我们的世界。另外，他还是Securities.io的创始人，这是一个专注于投资尖端技术的平台，这些技术正在重新定义未来并重塑整个行业。

Unite.AI

马洛斯·C·马查多，阿尔伯塔大学副教授，Amii 研究员，CIFAR AI 主席 – 采访系列

发现更多