思想领袖

即将到来的“演化”(Exolution)- 人工智能的新时代

mm

今天,我们站在技术的前沿,观察着从大型语言模型(LLMs)到基于代理的系统,最后到具有代理能力的人工智能(Agentic AI)和通用人工智能(AGI)的旅程。这不仅仅是关于更大的模型或更快的响应,而是关于机器从被动的助手转变为主动的协作者,甚至可能成为独立的思考者。

让我们探索这条路径,并探讨这对工作、专业知识和人类在塑造明天的智能中的角色意味着什么。

LLMs、基于代理的系统和具有代理能力的人工智能之间的区别

为了更好地理解这种区别,以下是一个例子。如果我问一个大型语言模型(LLM)类似这样的问题:“我想从芝加哥到奥斯汀旅行,每天开车不超过四个小时,并且途经风景优美的地方”,一个普通的LLM会返回一个基于语言生成的静态文本响应。它可能只是对请求做出反应,而不进行彻底的分析。

一个代理会首先将请求分类为与旅行相关的。然后,它会确定需要什么数据:使用地图服务的路线、天气信息、燃油成本、酒店、餐厅等。之后,代理会将请求分解为子任务,并将它们路由到专门的模块或在相关源上训练的LLMs。这是协调和管理多个模型和工具的统一逻辑。

今天,大多数主要系统,如ChatGPT或Anthropic的Claude,基本上已经是代理。虽然对于用户来说,它们看起来像是在与单个模型交互,但在幕后是一个复杂的架构,涉及许多模型和系统。它们可以处理复杂的查询,但它们的能力主要局限于提供信息;它们尚未采取行动。

一个完全自治的代理是一个可以独立收集信息的系统,例如,独立预订酒店、购买票或启动付款,假设它有访问相关API或用户数据的权限。这样的代理目前处于早期开发阶段。目前,它们更像半代理,能够处理信息但尚未执行自治操作。

关于研究社区的一个有趣讨论领域是具有代理能力的人工智能。与普通代理不同,其行为由开发人员编写,具有代理能力的人工智能是一个可以独立决定要执行的任务、需要什么数据以及如何继续其自身训练的系统。这超出了执行指令的范畴,涉及做出自治决策。然而,具有代理能力的人工智能仍然处于理论阶段;目前尚无这样的系统存在。

AGI – 新的地平线。但是它是否可以实现?

Meta 三个月前投资了 Scale AI。目标是联合打造通用人工智能(AGI),即能够以人类或超越人类水平执行任何任务的人工智能。如果今天的人工智能是一场技术革命,AGI将是一场真正的巨大革命;有时我称之为“演化”(exolution),即人工智能从阴影中“出逃”的过程。谁先实现它,谁将获得全球战略优势。

至于我们距离真正的AGI有多远,这取决于我们如何定义它。我同意Ilya Sutskever的观点:AGI是一种能够执行任何人类能够执行的智力任务的系统。不仅仅是回答问题,还包括推理、决策、概括和跨领域的解释。真正的AGI是普遍的,不局限于狭窄的任务边界。

目前尚无模型达到这一水平。我们正在朝着这个方向努力,但真正的AGI,在理论意义上,仍然不存在。也许这才是最好的选择。我们仍处于近似阶段,可能会在相当长的一段时间内保持这种状态。

AGI的基础可能是一个基于代理的系统。它不一定依赖于单个大型语言模型,因为就像没有一个人类,无论多么杰出,可以掌握所有领域的知识和技能一样,没有一个大型语言模型能够单独处理AGI任务的全部范围。我们需要的是一种“集体智能”:一种能够协调多个模型和组件的架构。

AGI可能不会简单地作为一个由人类设计的代理出现,而是一个部分由人工智能自身帮助开发和演化的系统。这很重要,因为完全由人类设计的系统可能带有固有的局限性。让人工智能参与设计过程可以帮助克服这些限制,使系统更加适应性。

AGI可能不会来自任何特定的突破。不是更大的大型语言模型、更聪明的代理或完全新的架构,而是这三者的综合。最有可能的是,某种超越我们目前使用的范畴的根本新事物。

“人类的最后一次考试”和其他AGI基准

“人类的最后一次考试”(HLE)是当前在大型语言模型、代理和AGI背景下讨论的更具雄心的基准之一。基本上,它是一个包含大约2500个问题的测试,涵盖了数学、物理、生物学、化学、工程、计算机科学,甚至国际象棋等广泛的学科。这个想法是评估人工智能系统是否能够以反映真正的人类理解水平来解决问题。

当前的语言模型在HLE上表现非常糟糕,通常得分不到5%。这与其他基准如MMLU或GPQA形成鲜明对比,在这些基准上,模型取得了显著更高的分数。模型在HLE上的困难凸显了它们与真正的通用智能之间的巨大差距。

重要的是要注意,在已知或狭窄数据集上的基准上取得高分并不一定表明存在真正的通用智能。一个模型可以被微调或“训练到测试”,这可能会夸大其看似能力。因此,即使在HLE上取得完美分数,也不意味着我们已经达到AGI;它只意味着我们通过了一个特定的测试。

是什么驱动AGI

我完全同意,AGI的核心支柱是数据、计算和人才。计算的情况很明确。关键玩家如Meta尝试生产自己的芯片,在自己的芯片开发过程中投入了数十亿美元。但公司仍然严重依赖其他公司的芯片和计算能力,如Nvidia,不仅提供必要的硬件,还理解扩大生产的重要性。

关于数据和人才的问题更多。互联网已经用完——没有任何人类创造的文本没有被用于训练。人类迄今为止产生的信息总量出乎意料地小。这就是为什么公司开始积极地与能够生成高质量人类数据的合作伙伴合作。

全自动还是人机混合

另一个观点是手动数据注释需求的下降。几年前,行业正在以全速发展。成千上万的注释员被招募来满足人工智能管道的需求。今天,很多动力已经转向自动化。模型已经成熟,周围的工具也已发展。像YOLO、SAM和Samurai这样的模型正在迅速吸收常规工作。这些系统可以在几分钟内压缩数周的手动工作,通常具有惊人的准确性。我们还在我们的专有平台 Keylabs 中实施了许多机器学习辅助工具。它确实有助于减少常规工作流程。

但是所有这些模型都受到其普遍性限制,适合自动化标准化和统一的操作。复杂或独特的案例仍然需要人类的关注。

我们正在远离旧的范式,即注释员只是一个细心的人,可以识别对象或情绪。在新的现实中,需要专业人员:医生来注释医疗图像,程序员来编码,建筑师来创建蓝图,营销人员来提供客户洞察,军事专家来处理防御场景。

我们已经看到现实世界中的案例,例如战斗机飞行员注释数据用于人工智能,并以每小时1000美元的价格出售他们的专业知识。因为这样的专家很少见,他们的知识对于训练高性能人工智能至关重要。

世界正在变化:越来越多的人正在成为人工智能的操作员和“训练师”。就在前几天,我收到了一条LinkedIn消息,要求我检查一个为CEO设计的人工智能应用程序的数据集。在未来,任何一个人都可能收到一份工作邀请,作为注释员,不仅仅是点击按钮的人,而是一个专家,他们的知识塑造了明天的智能。

我们已经生活在这个新现实中,一个数据标注和人工智能训练的世界。那些认识到它并适应的人将获得显著的优势。

迈克尔·阿布拉莫夫(Michael Abramov)是Introspector的创始人兼首席执行官,拥有15多年的软件工程和计算机视觉AI系统经验,致力于打造企业级标注工具。

迈克尔在软件工程师和研发经理的职位上开始了他的职业生涯,构建了可扩展的数据系统,并管理着跨功能的工程团队。直到2025年,他曾担任Keymakr的首席执行官,Keymakr是一家数据标注服务公司,他在那里开创了人机协同工作流程、先进的QA系统和定制工具,以支持大规模计算机视觉和自主驾驶数据需求。

他拥有计算机科学学士学位,并具有工程和创意艺术背景,带来多学科视角解决复杂问题。迈克尔生活在技术创新、战略产品领导和现实世界影响的交叉点,推动自主系统和智能自动化的下一个前沿。