ہمارے ساتھ رابطہ

متحد اے آئی

مصنوعی ذہانت3 گھنٹے پہلے
By ڈاکٹر تحسین ضیاء

为何智能体AI在现实世界中依然会"失灵"

过去几年，我们见证了智能体AI系统展示出令人印象深刻的演示。它们编写的代码能通过测试用例。它们搜索网络并回答复杂问题。它们以惊人的准确性操作软件界面。每一次会议演示、每一次新闻发布、每一次基准测试报告都强调着智能体AI的崛起。但在这类令人印象深刻的演示之下，隐藏着一个问题。当这些相同的系统从受控环境转移到现实世界部署时，它们常常以基准测试从未预测到的方式失败。在100个精选示例上完美运行的代码生成器，在遇到从未见过的边缘情况时开始产生错误。在实验室中达到85%准确率的网络搜索代理，随着用户行为的变化，检索到的结果越来越不相关。在测试中能完美协调十个API调用的规划系统，在遇到意外的API响应格式时就会崩溃。这些系统失败并非因为缺乏智能，而是因为缺乏适应性。问题在于AI智能体如何学习和调整。虽然尖端系统建立在庞大的基础模型之上，但仅凭原始智能是不够的。要执行专门任务，智能体必须具备适应能力。当前的智能体AI系统由于设计和训练上的结构性限制，无法做到这一点。在本文中，我们将探讨这些限制及其持续存在的原因。演示中的能力幻觉现代AI中最危险的故障模式是能力幻觉。简短的演示常常掩盖了真正的复杂性。它们在干净的数据集、可预测的API和狭窄的任务范围内运行。生产环境则恰恰相反。数据库不完整，模式在无通知的情况下更改，服务超时，权限冲突，用户提出的问题违反了系统的基本假设。这正是生产复杂性显著增加之处。在演示中出现一次的单个边缘情况，在部署中可能每天出现数千次。微小的概率性错误会累积。一个“基本正确”的智能体在真实操作中会迅速变得不可靠。问题的核心在于对冻结的基础模型的依赖。这些模型擅长模式补全，但智能体行为是顺序性和有状态的。每个动作都依赖于前一个动作的结果。在这种设定下，统计不确定性会迅速复合。任务早期的一个小错误可能会在后期级联成循环、死胡同或破坏性操作。这就是为什么在评估中显得能力出众的智能体，一旦部署后性能往往会迅速下降。问题不在于缺少某个功能。而在于通用模型被要求表现得像领域专家，却不被允许从其环境中学习。从通用智能到情境能力基础模型本质上是通才。它们编码了广泛的知识和灵活的推理模式。然而，生产环境中的智能体必须是情境化的。它们需要理解特定组织及其工具的具体规则、约束和故障模式。没有这一点，它们就像读遍了所有手册却从未上过一天班的人。弥合这一差距需要重新思考适应性本身。当前的方法大致分为两个有缺陷的阵营：重新训练核心AI智能体本身，或者调整其使用的外部工具。每种方法在解决一个问题的同时，都会产生其他问题。这导致我们得到的系统要么过于僵化，要么成本过高，要么过于不稳定，无法满足生产环境对一致性和成本的要求。单体智能体陷阱第一种方法，智能体适应，试图让核心LLM更聪明地使用工具。它本质上是教授AI使用工具所需的特定技能。研究人员进一步将其分为两类。一些方法利用来自工具的直接反馈（如代码编译器的成功或搜索引擎的结果）来训练智能体。另一些则根据最终输出的正确性（如答案的对错）来训练它。像DeepSeek-R1和Search-R1这样的系统表明，智能体可以学习复杂、多步骤的工具使用策略。然而，这种能力伴随着巨大的成本。训练拥有数十亿参数的模型在计算上是极其昂贵的。更重要的是，它创造了一种僵化、脆弱的智能。通过将智能体的知识和工具使用规则结合在一起，这种方法使得更新缓慢、风险高，不适合快速变化的业务需求。让智能体适应新任务或新工具，可能会引发“灾难性遗忘”，即失去先前掌握的技能。这就像每次想添加一个新部件时，都需要重建整个工厂装配线。脆弱的工具箱问题认识到这些限制后，第二种主要方法——工具适应——将核心智能体保持冻结状态，转而优化其生态系统中的工具。这更具模块化和成本效益。一些工具是通用训练的，如标准搜索检索器，然后被接入系统。另一些则专门针对冻结的智能体进行调整，从其输出中学习，成为更好的助手。这种范式在效率方面前景广阔。一项关于名为s3系统的里程碑式研究展示了这种方法的潜力。它训练了一个小型、专门的“搜索器”工具来支持一个冻结的LLM，实现了与像Search-R1这样完全重新训练的智能体相当的性能，但使用的训练数据却少了70倍。其理念是：为什么要重新教一位天才物理学家如何使用图书馆目录？不如直接训练一个更了解物理学家需求的图书管理员。然而，工具箱模型也有其自身的局限性。整个系统的能力最终受限于冻结LLM固有的推理能力。你可以给外科医生一把更锋利的手术刀，但无法让一个非外科医生进行心脏手术。此外，协调日益增长的适应性工具套件成为一个复杂的集成挑战。工具A可能针对某个指标进行了优化，但这违反了工具B的输入要求。系统的性能随后依赖于相互关联组件之间脆弱的平衡。协同适应挑战这让我们触及了当前智能体AI范式中适应性缺陷的核心。我们要么适应智能体，要么适应工具，但无法以同步、稳定的方式同时适应两者。生产环境不是静态的。新数据、新用户需求和新工具不断涌现。一个无法平稳、安全地同时进化其“大脑”和“双手”的AI系统，最终必然会崩溃。研究人员指出，这种协同适应的需求是下一个前沿领域。然而，这是一个复杂的挑战。如果智能体和它的工具同时学习，失败的责任归咎于谁？如何防止不稳定的反馈循环，即智能体和工具相互追逐变化，却未能提高整体性能？早期的尝试，例如将智能体-工具关系视为一个协作多智能体系统，揭示了其中的困难。如果没有稳健的信用分配和稳定性解决方案，即使是我们最先进的智能体AI，也仍然只是一组令人印象深刻但互不关联的能力。内存作为一等系统适应性缺陷最明显的迹象之一是静态内存。许多已部署的智能体不会随着时间的推移而改进。它们重复同样的错误，因为它们无法内化经验。每次交互都被当作是第一次。生产环境需要适应性内存。智能体需要情景记忆来处理长视野任务，需要策略性记忆来完善计划，需要操作性记忆以避免重复失败。没有这些，智能体会显得脆弱且不可信。内存应被视为一个可调组件，而非被动日志。能够回顾经验、从错误中学习并调整行为的系统要稳定得多。适应性系统带来的新风险适应性本身也带来了新的风险。智能体可能学会优化指标而非目标，这种现象被称为寄生性适应。它们可能在表面上看起来成功，却损害了根本目标。在多智能体系统中，被攻破的工具可以通过微妙的提示注入或误导性数据来操纵智能体。为了缓解这些风险，智能体需要强大的验证机制。行动必须是可测试、可逆和可审计的。智能体与工具之间的安全层可以确保错误不会无声地传播。核心要点要让智能体AI在现实世界中发挥作用，它不能仅仅是智能的；它必须能够适应。如今大多数智能体失败，是因为它们在时间上是“冻结”的，而现实世界是复杂且不断变化的。如果一个AI无法更新其内存并从错误中改进，它最终会崩溃。可靠性并非来自完美的演示；它来自于适应的能力。
مصنوعی ذہانت3 دن پہلے
By ڈاکٹر اسد عباس

AI军备竞赛加剧: AMD与OpenAI达成战略合作

2025年10月6日，AMD与OpenAI宣布了现代人工智能（AI）领域规模最大的计算合作伙伴关系之一。根据该协议，OpenAI计划在未来几代产品中使用高达六吉瓦的AMD Instinct GPU。第一阶段将于2026年开始，部署AMD的Instinct MI450芯片。AMD还向OpenAI发行了约1.6亿股认股权证，若全部行使，OpenAI可能获得近10%的股份。市场立即做出反应，AMD股价在几小时内上涨超过20%。这一反应表明投资者对该公告表达了强烈的信心。该交易还具有更广泛的意义。它将AMD纳入了OpenAI的长期计算计划，并给多年来主导数据中心AI市场的Nvidia带来了更大压力。因此，此次合作被视为AI计算竞赛中的一个重要时刻。它表明未来先进模型的研发将依赖于更广泛的芯片供应商群体。这也意味着该领域的竞争正在加剧，这可能会定义全球AI发展的下一阶段。OpenAI与AMD合作的战略考量现代AI模型需要巨大且持续的计算资源，全球对高性能GPU的需求增长速度已超过供应能力。Nvidia长期在AI加速器市场占据主导地位，这给大型AI客户造成了供应瓶颈和价格波动。通过与AMD合作，OpenAI减少了对单一供应商的依赖，并确保了训练和部署先进模型所必需的、可预测的大规模计算能力。此次合作还带来了超越供应本身的重要战略优势。与AMD合作增强了OpenAI与所有硬件供应商的谈判地位，并使该公司对模型发布的时间和执行拥有更大的控制权。此外，该协议补充了OpenAI与Nvidia及其他定制芯片合作伙伴的现有关系，形成了一个旨在实现韧性和可扩展性的多供应商战略。同时，它使得硬件和软件优化的协调更加紧密，确保计算基础设施能够与OpenAI日益复杂的AI模型同步发展。技术概览：从MI300X到MI450及数据中心部署AMD的Instinct GPU系列目前包括MI300X，其设计具有高内存容量和带宽，以处理大型AI模型。这些GPU已部署在早期的云和超大规模环境中，例如Microsoft Azure，为AMD提供了大规模运营的宝贵经验。在此基础上，即将推出的MI450系列计划于2026年首次部署。预计这一新一代产品将提供更高的吞吐量和更高的能效。根据行业报告，MI450将采用先进的工艺节点，实现更好的每瓦性能，使其适用于超大型AI工作负载。然而，在超大规模数据中心部署GPU不仅仅是安装硬件。机架系统必须将MI450 GPU与优化的供电和冷却基础设施集成。工程师需要监控关键指标，例如每张卡的内存带宽、GPU互连速度以及整体机架级密度，以确保可靠运行。此外，硬件性能在很大程度上依赖于软件。AMD的ROCm平台已经成熟，能够支持大型AI模型，预计与OpenAI的合作将侧重于硬件和软件的协同。这种协调将有助于最大化OpenAI多吉瓦级部署的吞吐量和效率。市场反应、财务细节与战略考量AMD与OpenAI合作的消息在金融市场引起了显著反应。消息公布当天，AMD股价大幅上涨，反映出投资者对该公司在AI基础设施中扩大角色的信心。分析师迅速修正了预测，指出该协议可能带来可观的收入增长。虽然AMD强调了扩大其数据中心AI市场份额的机会，但独立分析师警告称，财务结果将在很大程度上取决于GPU的交付速度以及使用该技术的客户组合。该交易的一个重要财务组成部分是向OpenAI发行认股权证，涵盖约1.6亿股AMD股票。这些权证的结构设计为分阶段归属，与GPU部署里程碑挂钩。这种安排将AMD的执行情况与OpenAI的潜在财务收益联系起来，为计算基础设施的成功和及时推出创造了共同利益。因此，两家公司都有动力进行密切协调，确保达成部署目标和运营目标。双方的战略动机进一步说明了合作的深度。对OpenAI而言，该协议减少了对单一供应商的依赖，为大规模AI工作负载提供了可预测的定价，并确保了对下一代计算资源的访问。这种方法有助于模型训练和推理不间断地进行，同时支持长期研发。此外，与AMD的紧密合作实现了硬件和软件的协同优化，这对于在多吉瓦级部署中实现最大效率和性能至关重要。反过来，AMD则受益于获得了一个标志性的超大规模客户。此次合作验证了其AI产品战略，并加强了其在竞争激烈的数据中心市场中的地位。除了收入之外，此次合作也向其他云提供商和企业客户传递了可信度信号。与标准的设备销售不同，该协议涉及工程对齐、联合测试和共同解决问题，强调的是一种长期的战略关系，而非纯粹的交易安排。对全球AI军备竞赛的影响AMD与OpenAI的合作表明，硬件和软件在AI竞争中都变得至关重要。虽然高性能GPU必不可少，但软件对于充分发挥硬件潜力同样重要。AMD的ROCm平台现已支持PyTorch、JAX和Triton等主要框架，并与Hugging Face和Azure等平台兼容。该领域的进展帮助获得了OpenAI的承诺，而此次合作为编译器、内存管理和调度方面的紧密协作奠定了基础。这种协调确保了大规模AI模型能够在OpenAI计划的多吉瓦级部署中高效运行。该交易也改变了公司对AI基础设施的考量方式。凭借如此大规模的承诺，AMD将自己定位为超大规模计算资源的主要供应商。随着更多组织寻求可靠、可扩展的解决方案，其他供应商可能需要考虑多供应商战略。这将创造一个更加多样化和竞争激烈的环境，选择将取决于工作负载的具体要求和软件支持，而非单一的占主导地位的供应商。这对更广泛的AI生态系统有明显的益处。超大规模云提供商和研究实验室能更好地获得强大的GPU，这使得AI项目的规划和扩展更具可预测性。随着竞争加剧，企业客户可以期待可用性的改善和更好的性价比。支持多供应商集群的软件和MLOps平台也可能看到更多需求，从而鼓励管理和优化这些系统的创新。另一方面，规模较小的硬件供应商或那些没有强大软件支持的供应商可能难以获得大额合同，这凸显了将硬件与软件有效结合的重要性。扩展AI计算的风险与挑战尽管AMD与OpenAI的合作是全球AI军备竞赛中的重要一步，但它也伴随着重大的风险和不确定性。交付六吉瓦的先进计算能力对两家公司来说都是一项复杂的任务。AMD必须在先进的工艺节点上扩大MI450 GPU的生产规模，保持高良率，并组装大量的机架级系统。与此同时，OpenAI面临着设计、建造和运营多吉瓦级数据中心，并在统一的基础设施内协调多代GPU和多个供应商的挑战。生产、集成或部署方面的任何延迟都可能限制该合作的预期价值。软件是另一个关键因素。尽管ROCm已经成熟，但它必须随着快速变化的AI框架和模型持续演进，同时保持性能和可靠性。能源、监管和地缘政治因素增加了进一步的复杂性。多吉瓦级数据中心消耗大量电力，这可能导致关注环境影响的当地监管机构或社区的审查。在某些地区，审批流程或电网限制可能会减缓新容量的部署。此外，先进芯片的供应依赖于复杂的全球网络，出口管制或贸易政策的变化可能会影响特定硬件的部署地点和方式。竞争也带来了战略挑战。竞争对手可能会以激进的定价、为大型客户定制的解决方案或扩展的软件支持作为回应。虽然这些回应可能通过降低成本或提供更好的功能使买家受益，但也可能给供应商的利润率带来压力。随着时间的推移，这种动态可能会创造一个更加波动的市场，要保持领先地位需要精心的执行、战略规划以及对技术和监管发展的快速适应。核心要点AMD与OpenAI的合作代表了AI基础设施发展中的重要一步。通过对多吉瓦级GPU部署的承诺，OpenAI确保了日益先进的模型所需的计算能力，而AMD则加强了其作为超大规模资源关键提供商的角色。此次合作强调了硬件和软件之间的紧密联系，ROCm和优化工作确保了大规模运行的高效性。同时，该协议也凸显了必须谨慎管理的运营、监管和竞争挑战。随着AI生态系统的扩展，多供应商战略以及芯片制造商与AI组织之间的协调开发可能会变得至关重要。这一合作展示了大规模协作如何在未来几年支持AI技术的增长、可靠性和创新。
مصنوعی ذہانت7 دن پہلے
By ڈاکٹر اسد عباس

可验证之城：ZKML如何解决智慧城市的信任危机

城市生活日益依赖于智能系统，因为它们既管理基础设施，也管理公共服务。例如，交通信号灯实时调整以优化车流，能源电网动态响应需求，自动化系统则决定住房、福利及其他社会项目的资格。这些系统共同处理来自居民、车辆、传感器和城市基础设施的海量数据，使城市能够更高效、更灵敏地运行。然而，这种对人工智能（AI）的依赖带来了重大挑战。市民常常被要求信任他们无法检查或验证的决策。结果，公众信心被削弱，因为人们担心他们的行踪、个人信息和行为数据如何被收集、整合和使用。此外，倡导团体警告，不透明的算法可能会无意中嵌入偏见或不公平待遇。此外，监管机构的要求日益超出简单的保证。他们需要可验证的证据，证明人工智能系统遵守法律、政策和基本权利。因此，传统的透明度措施，如仪表板、报告和审计日志，只能提供表面层面的洞察。它们可以展示发生了什么，但无法证明决策是如何做出的，或者规则是否被正确遵循。因此，零知识机器学习（ZKML）解决了智慧城市的信任危机。它使城市能够证明人工智能系统运行正确、遵守规则并保护敏感数据。这样一来，居民、审计师和监管机构可以在不暴露私人信息的情况下验证决策。这种方法将对话从“相信我们”转变为“验证我们”，构成了可验证之城的基础。在这样的城市中，自动化决策不仅高效，而且可证明是公平、合法和负责任的，确保公民的数据和权利得到保护。智慧城市的挑战与公民期望智慧城市依赖于传感器、物联网设备、摄像头和预测分析网络。这些系统管理交通、能源、公共安全和废物处理，创建了一个影响城市生活几乎方方面面的数字基础设施。然而，一些挑战已经浮现。第一个挑战是隐私。收集移动轨迹、公用事业使用情况、健康记录和行为信息的集中式数据存储库，使其成为网络攻击的有吸引力的目标。一些市政当局已报告了影响交通系统、公用事业和敏感居民信息的违规事件。因此，市民担心无处不在的监控和不明确的数据保留政策。第二个挑战是公平性。人工智能模型分配资源，如能源、公共交通和福利。其中许多模型作为黑箱运行。官员通常只能看到输出，而审计师则依赖文档或供应商的保证。因此，无法实时证明决策遵循了公平规则或避免了偏见。第三个挑战是对个人数据的控制。许多城市服务需要提交个人文件。集中存储减少了居民对其个人信息的控制，并增加了数据暴露的风险。作为回应，公民现在期望的不仅仅是技术效率。他们要求可验证的证据，证明系统运行公平、尊重隐私并遵守法规。因此，城市必须采取技术和程序性措施，以增强对人工智能驱动服务的信任。理解零知识机器学习（ZKML）ZKML建立在一种密码学原理之上，该原理允许在不揭示原因的情况下证明某事为真。零知识证明使一方能够证明一个陈述成立，而无需透露敏感细节。例如，居民可以证明其有资格获得补贴，而无需分享工资、税务记录或个人身份信息。这改变了传统的智慧城市方法，即获取服务通常需要大量数据披露，转而成为一种可以在保持隐私的同时验证资格的方法。ZKML将这一原理直接应用于人工智能驱动的决策。ZKML启用的模型不仅产生预测或分数，还生成密码学证明。该证明表明推理遵循了既定规则。可以确认未使用敏感字段，如种族或确切位置历史。它还验证了模型权重未被篡改，并且输出符合政策约束，包括公平性要求或关于定价和风险评分的法律限制。通过这种方式，ZKML将不透明的人工智能模型转变为可验证的系统，即使底层数据保密，其行为也可以进行数学检查。早期版本的ZKML大多是研究原型。它们受到为复杂模型和实时应用生成证明的高计算成本的限制。然而，密码学协议、专用硬件和边缘计算的最新进展，使得在城市级基础设施上进行证明生成和验证变得可行。这使得将ZKML集成到交通管理、能源电网和社会服务平台中而不产生过度延迟或成本成为现实。因此，ZKML已从一个研究概念转变为可验证之城的实用基础，使城市人工智能既能保持强大，又可证明值得信赖。智慧城市信任危机与技术架构智慧城市依赖于传感器、物联网设备、摄像头和预测分析网络来管理交通、能源、公共安全和废物处理。因此，这些系统影响着城市生活的几乎每个方面。然而，技术的快速扩张带来了重大挑战，削弱了公民信任和服务可靠性。第一个挑战是隐私。集中式数据存储库收集移动轨迹、公用事业使用情况、健康记录和行为信息。因此，它们成为网络攻击的有吸引力的目标。许多市政当局报告了影响交通系统、公用事业和敏感居民数据的违规事件。因此，市民担心无处不在的监控和不明确的数据保留政策。第二个挑战是公平性。人工智能模型被用于分配资源，如能源、公共交通和福利。许多模型作为黑箱运行。官员通常只能看到输出，而审计师必须依赖文档或供应商的保证。因此，无法实时证明决策符合公平规则或避免了偏见。第三个挑战是公民数据控制。许多服务需要提交个人文件。集中存储增加了数据暴露的风险，并降低了公民管理自己信息的能力。因此，居民期望的不仅仅是效率；他们要求可验证的证据，证明服务是公平、安全且符合法规的。为了应对这些挑战，城市需要一个分层的技术架构，将验证、问责和监督集成到人工智能驱动的系统中。在底层，边缘设备（如交通控制器、智能电表、环境传感器、信息亭和车载系统）运行本地机器学习模型。重要的是，这些设备在做出决策的同时生成密码学证明。这种方法将原始数据保留在源头，减少了暴露并最小化了违规风险。每一次推理，如拥堵控制调整或动态定价决策，都伴随着一个证明，表明其符合批准的模型、政策规则和公平性约束。在边缘层之上，城市的数据平台协调证明验证并执行政策。它收集证明和元数据，而不是大量的原始数据。在这一层，中央系统验证传入的证明，管理模型批准和版本控制，并确保只有得到有效证明支持的推理才会被执行。未能通过验证或违反规则的决策会被标记或阻止。一个专门的完整性层为证明和审计记录提供防篡改存储。分布式账本或仅追加存储维护不可变的记录，支持跨机构查询和事后调查。监管机构、法院和监督组织可以在不访问敏感数据的情况下独立验证合规性。最后，面向公民的界面将技术证明转化为可理解的保证。仪表板和服务特定门户网站显示哪些流程有可验证的证明支持、它们提供什么保证以及审计频率。这些界面允许居民、记者和倡导团体评估服务的可信度，而不仅仅是其可用性。通过这种分层架构，智慧城市服务作为可验证的管道运行。数据在本地处理，证明向上流动，政策在中央执行，监督机构和公民可以独立检查保证。因此，城市人工智能不仅变得高效和可扩展，而且安全、负责，值得公众信任。可验证之城的原则可验证之城不仅仅是部署人工智能的模式。它代表了一种架构方法，将密码学问责和政策合规性集成到每个关键工作流程中。这种方法遵循四个核心原则，将法律和道德要求转化为可强制执行的、机器可验证的保证。最小化数据暴露在可验证之城中，只有密码学证明，而非原始数据，在系统之间传输。敏感的居民信息保留在边缘，例如在设备上或在本地机构环境中，模型在那里运行，证明在那里生成。这减少了攻击面并限制了潜在违规的影响。此外，数据流的设计使得上游和下游服务依赖于可验证的陈述，如“此资格检查遵循了政策X”，而不是直接访问个人记录。政策即代码集成法律和监管约束，包括非歧视规则、目的限制和数据保留计划，被表达为机器可读的策略，与人工智能模型一起运行。在推理过程中，这些策略会自动执行，ZKML证明则表明未使用禁止的特征、遵守了保留窗口，并且应用了公平性或定价约束。因此，合规性成为系统运行时的属性，而非事后审计工作。独立的密码学验证外部各方可以验证ZKML生成的证明，而无需访问专有模型或原始数据。这使得监管机构、法院、审计师和民间社会组织能够独立确认决策符合声明的规则。因此，验证接口、标准化API、证明格式和工具是架构的重要组成部分。它们使监督机构能够评估城市的人工智能系统，而不会损害安全性或机密性。面向公民的透明度在密码学层之上，城市提供可验证性的人类可读视图。公共仪表板、报告和界面显示哪些流程有ZKML支持，以及它们提供什么保证，例如“未使用受保护属性”或“定价受政策Y约束”。这些界面不暴露敏感数据或模型内部细节。相反，它们将技术保证转化为可理解的承诺，使居民、记者和倡导团体能够审查操作。随着时间的推移，可验证性状态可以成为服务的一个可见属性，类似于安全认证，帮助公民区分仅仅是“智能”的系统与真正负责任的系统。城市人工智能的连贯框架最小化数据暴露、政策即代码、独立验证和面向公民的透明度共同创建了一个连贯的框架。该框架确保人工智能驱动的城市系统在设计上就是负责任的，而不仅仅是承诺。此外，它将技术架构与法律义务和公众期望相结合，使城市能够在扩展自动化的同时，保持对隐私、公平性和合法运行的可证明保证。ZKML在城市系统中的应用ZKML可以使城市人工智能系统既有效又负责任。在交通管理中，交通传感器和收费系统根据实时情况调整信号时序和拥堵定价。传统上，这些决策可能会无意中通过增加成本或旅行延误给某些群体（如低收入通勤者）带来负担。借助ZKML，系统可以提供密码学证明，证明这些调整遵循了公平规则。这确保没有群体受到不成比例的影响，同时所有个人出行数据保持机密。在公共安全方面，预测模型有助于分配巡逻和检测异常活动。通常，验证公平性和政策合规性需要访问敏感数据，如居民的位置或人口统计信息。ZKML允许这些模型生成证明，表明它们排除了种族、宗教或确切地址等受保护属性。审计师和监督员可以在从未看到私人数据的情况下，检查决策是否符合既定规则。ZKML还加强了社会项目，包括住房和福利。资格检查可以直接在居民的设备上运行，生成证明表明决策符合所有规则。监管机构可以审计数千个此类决策的公平性和合规性，而无需访问原始个人文件。这种方法在保护隐私的同时，确保了城市服务的透明度和问责制。简而言之，ZKML将城市中的人工智能从不透明的黑箱转变为可验证的系统。居民、官员和监管机构可以确信自动化决策是公平、合法且保护隐私的，从而为可验证之城奠定了基础。ZKML的采用与挑战在城市系统中实施ZKML需要仔细规划和分阶段执行。城市应首先绘制所有人工智能驱动系统的地图，并根据其对居民的潜在影响和操作风险进行评估。应首先处理高优先级领域，如警务、福利服务和能源管理。随后，当局需要定义可验证性要求，包括哪些决策需要证明以及所需的详细程度。专注于特定、可管理案例的试点项目可以帮助城市测试可行性并在扩展到其他系统之前完善流程。此外，与公众的沟通至关重要。居民必须理解基于证明的流程如何运作，以及ZKML如何确保公平性、隐私和合规性。清晰的解释有助于建立信任并鼓励对可验证人工智能系统的接受。同时，城市必须应对实际挑战。生成密码学证明需要计算资源，这可能会增加运营成本。较大的模型可能产生较长的证明，造成潜在的延迟，需要谨慎处理。与遗留系统的集成可能很困难，因为许多市政基础设施并非为可验证人工智能而设计。此外，现有的采购和监管框架尚未强制要求可验证性，需要对政策和合同进行更新。公众对密码学证明的理解有限，当局必须解决这一问题以避免误解。尽管如此，通过结构化的路线图以及对技术和社会挑战的积极管理，城市可以有效地实施ZKML。这种方法加强了城市人工智能，确保了问责制，并保持了对法律和道德标准的合规性，同时逐步建立公众对自动化决策的信心。总结城市生活日益依赖于自动化系统，但仅靠技术无法保证公平性、隐私或问责制。因此，城市需要能够证明决策正确且负责任地做出的解决方案。通过使用零知识机器学习，城市当局可以展示人工智能系统遵循规则并保护敏感数据，而公民和审计师可以独立验证结果。此外，这种方法增强了公众信心，并鼓励对城市服务进行负责任的管理。因此，可验证之城代表了城市治理的新标准，其中效率、透明度和信任共同作用，使城市对每个人来说都更安全、更公平、更具包容性。
مصنوعی ذہانت2 ہفتے پہلے
By ایلکس میکفارلینڈ

ChatGPT市场份额降至68%，جیمنی正缩小差距

ChatGPT对生成式AI市场的掌控力，正比其用户基数的增长下滑得更快。新的Similarweb数据显示，在过去一年中，该聊天机器人的网站流量份额从87.2%下降至68%——下降了19个百分点，尽管其绝对用户数已攀升至每周8亿。Google Gemini是主要受益者。该平台的市场份额从一年前的仅5.4%飙升至如今的18.2%，增长了两倍多，而ChatGPT的相对主导地位则下降了近五分之一。这一转变表明，最初的ChatGPT炒作浪潮正在进入一个更具竞争性的阶段，谷歌的基础设施和分发优势正在显现成效。这份于12月25日发布的数据，捕捉到了一个处于转型中的市场。xAI的Grok小幅增长至2.9%。DeepSeek稳定在4%左右。Claude和Perplexity各自徘徊在2%附近，而Microsoft Copilot则保持在1.2%不变。是什么推动了Gemini的激增有两个因素尤为突出。首先，谷歌在2025年全年积极的模型发布，缩小了与ChatChatGPT的能力差距。Gemini 3 Flash的发布使最新模型成为谷歌生态系统中的默认选项，而该公司对OpenAI12月”红色警报”式回应也表明竞争压力是真实存在的。其次，Nano Banana Pro——谷歌基于Gemini 3 Pro构建的图像生成模型——推动了显著的采用率。该模型能够在图像中直接渲染可读文本，解决了AI图像生成器的一个长期弱点，并且它在Gemini、Google搜索、NotebookLM和Workspace工具中的集成，赋予了它ChatGPT无法匹敌的分发渠道。Gemini的用户基数从7月的4.5亿月活跃用户增长到10月的6.5亿——三个月内增长了44%。这一增长率远超过ChatGPT同期约5%的扩张速度。或许更能说明问题的是：Similarweb发现，从Gemini到外部网站的推荐流量同比增长了388%，而ChatGPT的这一数字为52%。Android优势谷歌对Android操作系统的控制提供了一个OpenAI无法复制的分发渠道。Similarweb数据显示，直接通过操作系统使用Gemini的美国Android用户数量是使用独立应用程序的用户的两倍。这种内置的访问权限意味着Gemini无需说服用户下载任何东西——它已经在那里了。苹果决定与OpenAI合作进行Siri集成，本应抵消这一优势，但实施过程缓慢。与此同时，谷歌已将Gemini设为Android设备上的默认助手，确保数亿用户无需主动寻找就能接触到它。集成的故事延伸至谷歌更广泛的生态系统。Gemini在Gmail、Docs、Slides和Search中运行。使用Google Workspace的企业客户无需额外订阅即可获得AI助手功能。ChatGPT要求用户离开他们现有的工作流程；而Gemini正越来越多地出现在这些流程之中。ChatGPT的货币化难题市场份额的下降加剧了OpenAI现有的一个挑战：将免费用户转化为付费订阅者。尽管拥有每周8亿用户，但只有大约5%的用户为ChatGPT Plus或更高层级付费——大约4000万订阅者。并且自5月以来，付费订阅在主要欧洲市场已趋于平稳，未见复苏迹象。这两者结合令人担忧。市场份额的萎缩表明ChatGPT正在输掉注意力争夺战。订阅增长的停滞则表明它也在输掉货币化之战。如果这两种趋势持续下去，OpenAI的收入增长可能会停滞，而其基础设施成本却在上升。OpenAI并非停滞不前。该公司对Gemini 3的”红色警报”式回应在一个月内催生了GPT-5.2——这是公司历史上最快的主要模型迭代。这次发布重新夺回了Gemini曾短暂占据的基准测试领先地位，据报道，首席执行官Sam Altman已推迟了计划中的广告功能，以将资源集中在产品质量上。但模型质量可能不如分发渠道重要。ChatGPT在许多基准测试的头对头比较中胜出，然而Gemini增长更快，因为它嵌入了人们已经在使用的平台。浏览器大战和社交媒体竞争的教训在这里同样适用：当竞争对手更方便时，做得更好并不总是足够的。碎片化阶段一些分析师将当前时刻视为AI助手碎片化阶段的开始。最初的ChatGPT垄断正在让位于一个由多个参与者占据重要份额的市场——类似于社交媒体如何从Facebook主导演变为包括Instagram、TikTok和Twitter在内的格局。Claude和Perplexity在2025年均实现了三位数增长，Perplexity同比增长370%，Claude增长190%。两者尚未占据显著的市场份额，但它们的增长率表明市场远未定型。Grok的适度增长表明，即使是相对较新的进入者也能占据一席之地。对用户而言，碎片化带来了好处。竞争推动了功能开发并控制了价格。对于那些押注单一AI聊天机器人赢家的投资者来说，数据暗示了一个更为复杂的未来。ChatGPT仍然以较大优势领先，但这个优势正在逐季度缩小。这意味着什么12个月内市场份额下降19个百分点，这是迄今为止最清晰的信号，表明ChatGPT的先发优势正在被侵蚀。OpenAI打造了一款定义了整个品类的非凡产品，但谷歌带来了规模、分发渠道和耐心。Gemini在发布时并不比ChatGPT更好；它之所以能迎头赶上，是因为谷歌不断迭代，并且拥有更多接触用户的渠道。接下来的一年将考验OpenAI能否稳定其地位。该公司拥有最近几轮融资的现金、强大的企业业务，以及匹配或超越竞争对手的产品开发速度。但它没有操作系统、搜索引擎，也没有拥有数十亿现有用户的生产力套件。ChatGPT的绝对数字仍然惊人——没有其他AI产品能达到每周8亿用户的规模。问题是，这些用户是代表一个稳定的基础，还是随着替代品激增和新奇感消退而达到的一个高点。Similarweb指出，最近几周，所有AI工具的每日访问量实际上略有下降。生成式AI市场可能正在进入一个增长来自夺取份额而非扩大整体规模的阶段。在这场竞争中，分发渠道与能力同等重要——而在分发渠道方面，谷歌拥有OpenAI难以匹敌的优势。
مصنوعی جنرل انٹیلی جنس2 ہفتے پہلے
By ڈاکٹر تحسین ضیاء

AI的下一个扩展法则：不是更多数据,而是更好的世界模型

多年来，人工智能行业遵循着一个简单而残酷的规则越大越好。我们在海量数据集上训练模型،增加参数数量，并投入巨大的计算能力来解决问题。这个公式在大多数时候都行之有有效-TGP-3. 4، 从粗糙的聊天机器人到推理引擎،"扩展法则"表明، 只要我们持续向机器输入更多文本，它最终会变得智能。但我们如今正碰壁。互联网是有限的。高质量的公共数据正被耗尽，仅仅让模型变得更大所带来回报正在递减。顶尖的AI研究人员认为,人工智能的下一次重大飞跃不会仅仅来跃不会将来自理解文本背后的现实。这一信念标志着AI关注点的根本性转变，预示着世界模型时代的到来。下一个词元预测的局限要理解为什么我们需要新方法,我们必须首先，当前AI系统实际在做什么。尽管像ChatGPT或Claude这样的模型能力令人印象深刻，但它们本质上是统计引擎。它们根据之前容的概率来预测序列中的下一个词。它们并不理解掉落的玻璃杯会碎裂；它们只是知道在数百万个故事中"碎裂"这个词常常跟在"掉落的玻璃杯"这个短语后面。这种方法被称为自回归建模，存在一个关键缺陷.它完全依赖于相关性，而非因果关系。如果你在一个LLM上训练一千个车祸描述，它学会的是事故的语言。但它从未学会动量、摩擦力或易碎性的物理原理.它是一个旁观者,而非参与者。这种局限性正成为"数据墙"。我们几乎已经爬取了整个公共互联网要使用当前方法进一步扩展,我们将需要比现有数据多得多的数据，且呈指数级增长。合成数据（即A I生成的文本）提供了一个临时的解决方案，但它常常导致"模型崩溃"، 即系统放大自身的偏见和错误.我们无法仅凭文本来扩展实现通用人工智能（AGI因为文本是对世界的低带宽压缩。它描述现实但它本身并非现实。为何世界模型至关重要像Yann LeCun这样的AI领导者长期以来一直认为，当前的AI系统缺乏人类认知的一个基本方面，而这个方面即使是幼儿也天生具备。这就是我们维持一个关于世界如何运作的内部模型的能力，他们通常称之为世界模型.一个世界模型不仅仅预测下一个词；它构建了一个关于物理环境如何运作的内部心智地图。当我们在到一个球滚到沙发后面时，我们知道它仍然在那里。我们知道除非被阻挡,否则它会在另一侧出现。我们不需要阅读教科书来理解这一点；我们基于我们内部关于物理和物体恒存性的“世界模型”来运行一个心智模拟。为了让AI取得进步，它必须从统计模仿转向这种内部模拟。它需要理解事件的根本原因,而不仅仅是它们的文本描述。联合嵌入预测架构（JEPA）是这种范式转变的一个典型例子。与试图预测每个像素或单词（这个过程计算成本高昂且充满噪声）的LLM不同，JEPA预测的是抽象的表征。它忽略不可预测的细节，比如树上单个叶子的运动，而专注于高层次的概念，如树、风和季节。通过学习预测这些高层次状态如何随时间变化,AI学习的是世界的结构，而非表面细节。从预测到模拟我们已经在视频生成模型中到了这种转变的初步迹象。当OpenAI发布Sora时，他们将其描述不仅仅是一个视频工具，更是一个"世界模拟器"，这种区分至关重要。一个标准的视频生成器可能通过预测哪些彩色像素通常彼此相邻来创建一个人行走的视频。然而，一个世界模拟器则试图随时间推移保持3D一致性、光照和物体恒存性。它“理解”如果这个人走到墙后面,他们不应该从存在中消失。虽然当前的视频模型还远非完美，但它们代表了新的训练场，物理世界包含的信息量远大于文本世界。一秒钟的视频包含数百万个关于物理、光线和交互的视觉数据点。通过在这种视觉现实上训练模型,我们可以教会AI当前LLM所缺乏的"常识"。这创造了一个新的扩展法则。成功将不再通过一个模型阅读了多少万亿个词元来衡量。它将通过其模拟的保真度以及其预测环境未来状态的能力来衡量。一个能够准确模拟某个行动后果而无需实际采取该行动的AI،是一个能够规划、推理并安全行动的AI.效率与通往AGI之路这种转变也解决了当前AI不可持续的能源成本问题.LLM效率低下,因为它们必须预测每一个细节以生成连贯的输出。世界模型则更高效,因为它具有选择性。正如人类驾驶员专注于道路而忽略天空中云的图案一样，世界模型专注于任务相关的因果因素.LeCun认为，这种方法允许模型学习得更快。像V-JEPA（视频联合嵌入预测架构）这样的系统已经表明，它可以用比传统方法少得多的训练迭代次数来收敛到一个解决方案。通过学习数据的“形状”而非记忆数据本身，世界模型构建了一种更稳健的智能形式，能够更好地泛化到新的、未见过的情境。这是实现A GI所缺失的一环，真正的智能需要导航。它需要一个智能体审视一个目标，使用其内部世界模型模拟实现该目标的不同路径，然后选择成功概率最高的路径。文本生成器无法做到这一点；它们只能写一个计划، 无法理解执行计划的约束条件。核心要点人工智能行业正处在一个转折点."只需添加更多数据"的策略正达到其逻辑终点。我们正从聊天机器人时代迈向模拟器时代。下一代AI扩展将不再是关于阅读整个互联网。它将关乎观察世界，理解其规则，并构建一个反映现实的内部架构。这不仅仅是一次技术升级；它是我们对“学习”认知的根本性改变。对于企业和研究人员而言，关注点必须转变。我们需要停止痴迷于参数数量，开始评估我们的系统对因果关系的理解程度.未来的AI不仅会告诉你发生了什么；它会向你展示可能发生什么، 以及为什么.这就是世界模型的承诺،也是唯一的前进道路.
مصنوعی ذہانت2 ہفتے پہلے
By ڈاکٹر اسد عباس

强化学习差距：为何AI在某些任务中表现出色،却在其他任务中停滞不前

人工智能（AI）近年来取得了显著成就。它能在围棋等游戏中击败人类冠军，高精度预测蛋白质结构，并在电子游戏中执行复杂任务。这些成就展示了AI高效识别模式和做出决策的能力。尽管取得了这些进步，AI在日常推理、灵活解决问题以及需要人类判断的任务上常常举步维艰。这种反差被称为强化学习差距。强化学习差距指的是强化学习（RL）表现出色的任务与其面临局限的任务之间的差异。理解这一差距对于开发者、AI研究人员、技术领导者以及采用AI解决方案的组织至关重要。缺乏这种理解，可能会导致高估AI能力或在现实世界部署中遇到挑战。诸如AlphaGo在2016年的胜利、AlphaFold在2020-21年的蛋白质预测以及GPT-4的结构化推理等例子，说明了AI表现出色的领域。与此同时，在机器人技术、对话式AI和非结构化环境方面，挑战依然存在。这些例子突显了强化学习差距最为明显的地方，以及为何研究它至关重要。理解强化学习（RL）基础RL是机器学习的一个分支，其中智能体通过与环境交互来学习决策。智能体选择动作，观察结果，并接收指示这些动作合适程度的奖励。随着时间的推移，这些奖励会影响智能体的策略，即它用于选择未来动作的规则集。RL在本质上与其他学习方法不同。监督学习依赖于带标签的数据集，模型从预先提供的正确示例中学习。无监督学习专注于在没有反馈或目标的情况下发现数据中的模式。然而，RL依赖于持续的交互和延迟的奖励。其目标不是识别静态数据中的模式，而是确定哪些动作序列将带来最高的长期结果。AlphaGo清晰地展示了RL的运作方式。该系统通过自我对弈学习围棋，探索了数百万种可能的游戏状态，并根据胜负结果调整其决策。这个过程使其能够制定出既有效又出人意料的策略。这也说明了为何RL在规则固定且反馈一致的结构化环境中表现出色。这些基础知识有助于解释强化学习差距。RL在受控环境中表现强劲，但在开放和不可预测的环境中其性能会下降。这种差异是理解AI为何在某些任务中成功而在其他任务中挣扎的核心。为何RL在结构化环境中表现出色强化学习在规则固定且结果可衡量的环境中表现出色。这些环境为智能体提供了明确的目标和一致的奖励信号。因此，智能体可以测试动作、观察结果并有信心地调整其策略。这种一致性支持稳定的学习，因为环境不会以意外的方式改变。此外，结构化任务提供受控且可靠的反馈。例如，围棋、国际象棋和将棋等棋盘游戏遵循固定规则并产生明确的胜负结果。像《星际争霸II》这样的电子游戏也提供稳定的条件，智能体可以探索多种策略而无需承担物理伤害或成本。此外，科学应用也利用类似的稳定性。AlphaFold以确认其性能的准确度指标来预测蛋白质结构。实验室机器人仿真提供了受控空间，机械臂可以在其中安全且重复地尝试任务。因此，这些环境允许RL智能体练习大量场景。智能体获得经验，改进其决策，并且通常能达到超越人类能力的性能。这种模式解释了为何RL在边界清晰、可预测且易于衡量的任务中能产生强劲结果。RL市场增长与行业应用结合前几节内容，可以更清晰地理解对RL日益增长的兴趣。RL在结构化环境中表现出色，并在受控任务中产生强劲结果。因此，许多行业正在研究如何在实用系统中应用RL。最近的行业报告估计全球RL市场在80亿至130亿美元之间，并预测到2032-34年将达到570亿至910亿美元。这种模式表明RL在研究和商业环境中正获得更广泛的认可。它也反映了支持RL实验的数据、计算能力和仿真工具的日益普及。此外，多个领域已开始在真实部署中测试RL。这些努力展示了组织如何在受控或半结构化环境中应用RL的优势。例如，机器人团队使用RL来改进运动控制和工厂自动化。机器人重复动作，检查结果，并通过稳定调整提高准确性。同样，自动驾驶汽车开发者依赖RL来研究复杂的道路情况。模型在大量模拟案例上进行训练，这有助于它们为罕见或高风险事件做好准备。供应链运营也受益于RL。许多公司使用RL来规划需求、设定库存水平，并在条件变化时调整物流路线。这使它们的系统更加稳定和响应迅速。大型语言模型应用基于人类反馈的强化学习（RLHF）来改进其对用户的响应方式。该方法以一种提高清晰度并支持更安全交互的方式来指导训练。因此，组织投资于RL是因为它通过交互学习，而非依赖固定数据集。这一特性在结果随时间变化的环境中很有价值。从事机器人技术、物流和数字服务的企业常常面临此类情况。RL为这些企业提供了一种测试动作、研究反馈和优化性能的方法。然而，当前的应用模式也与强化学习差距直接相关。大多数RL部署仍发生在规则和奖励稳定的结构化或半结构化环境中。RL在这些环境中表现出色，但在开放和不可预测的环境中却面临困难。这种反差表明，对RL兴趣的增加并不意味着所有任务都适合它。理解这一差距有助于组织设定现实的期望，避免不合适的应用，并规划负责任的投资。它也支持更清晰地理解RL可以在何处提供真正价值，以及在何处仍需进一步研究。为何RL在现实世界任务中举步维艰尽管在游戏和仿真中取得了成功，RL在现实世界应用中常常面临困难。受控任务与实际环境之间的这种差异说明了强化学习差距。有几个因素解释了为何RL在任务结构性较差或不可预测时表现不佳。一个主要挑战是缺乏明确的奖励。在游戏中，分数或胜利提供了指导智能体的即时反馈。相比之下，许多现实世界任务不提供可衡量或一致的信号。例如，教机器人清理杂乱的房间很困难，因为它无法轻易识别哪些动作能带来成功。稀疏或延迟的奖励会减慢学习速度，智能体可能需要数百万次尝试才能显示出显著改进。因此，RL在结构化游戏中表现出色，但在混乱或不确定的环境中却举步维艰。此外，现实世界环境复杂且动态多变。交通、天气和医疗条件等因素不断变化。数据可能不完整、稀疏或有噪声。例如，在仿真中训练的自动驾驶汽车在遇到意外障碍或极端天气时可能会失败。这些不确定性造成了实验室性能与实际部署之间的差距。迁移学习的局限性进一步扩大了这一差距。RL智能体常常对其训练环境过拟合。在一个情境中有效的策略很少能推广到其他情境。例如，一个训练来玩棋盘游戏的AI可能在现实世界战略任务中失败。受控仿真无法完全捕捉开放环境的复杂性。因此，RL的更广泛适用性受到限制。另一个关键因素是以人为中心的推理。AI在常识思维、创造力和社交理解方面存在困难。波兰尼悖论解释说，人类所知多于其所能明确描述的，这使得隐性知识难以被机器习得。语言模型可以生成流畅的文本，但在实际决策或上下文理解方面常常失败。因此，这些技能仍然是RL在现实世界任务中的重大障碍。最后，技术挑战加剧了这一差距。智能体必须平衡探索与利用，决定是尝试新动作还是依赖已知策略。RL样本效率低下，需要数百万次试验来学习复杂任务。仿真到现实的迁移在条件稍有变化时就可能导致性能下降。模型是脆弱的，微小的输入变化就可能破坏策略。此外，训练先进的RL智能体需要大量的计算资源和庞大的数据集，这限制了其在受控环境之外的部署。强化学习的适用领域与短板审视现实世界的例子可以澄清强化学习差距，并展示RL在何处表现出色，在何处挣扎。这些案例展示了RL在实践中的潜力和局限性。在受控或半结构化环境中，RL表现出强劲的性能。例如，工业机器人受益于可预测环境中的重复性任务，使机器人能够通过反复试验提高准确性和效率。自主交易系统在规则清晰且结果可衡量的结构化金融市场中优化投资策略。同样，供应链运营使用RL在可预测的边界内动态规划物流并在条件变化时调整库存。研究实验室中的仿真机器人任务也允许智能体安全且重复地进行实验，有助于在完全可观察和受控的环境中完善策略。这些例子表明，当目标明确、反馈一致且环境可预测时，RL可以可靠地运行。然而，在非结构化或复杂的环境中，挑战就会出现，这些环境中的条件是动态的、有噪声的或不可预测的。例如，家用机器人在杂乱或多变的空间中挣扎，因为仿真无法捕捉现实世界的复杂性。对话式AI系统即使在大数据集上训练，也常常无法进行深度推理或理解常识性上下文。在医疗应用中，当患者数据不完整、不一致或不确定时，RL智能体可能会犯错。涉及复杂规划或人际交互的任务突显了进一步的局限性。AI难以灵活适应、解读微妙的社交线索或做出基于判断的决策。因此，比较成功领域和停滞领域，突显了强化学习差距的实际影响。RL在结构化和半结构化领域表现出色，但在开放、不可预测的环境中常常表现不佳。理解这些差异对于开发者、研究人员和决策者至关重要。它有助于确定RL可以有效地应用在何处，以及在何处需要人类监督或进一步的创新。应对强化学习差距及其影响强化学习差距影响着AI在现实世界任务中的表现。因此，高估AI能力可能导致错误和风险。例如，在医疗、金融或自主系统中，此类错误可能带来严重后果。因此，开发者和决策者需要理解RL在何处有效，在何处挣扎。缩小差距的一种方法是使用混合方法。通过将RL与监督学习、符号AI或语言模型相结合，可以提高AI在复杂任务中的性能。此外，人类反馈可以引导智能体行为更安全、更正确。这些方法减少了不可预测环境中的错误，使AI更可靠。另一种方法侧重于奖励设计和引导。清晰且结构化的奖励有助于智能体学习正确的行为。同样，人在回路系统提供反馈，防止智能体采用非预期的策略。仿真和合成环境让智能体在现实世界部署前进行练习。此外，基准测试工具和元学习技术帮助智能体更快地适应不同任务，从而提高效率和可靠性。治理和安全实践也至关重要。符合伦理的奖励设计和清晰的评估方法确保AI行为可预测。此外，在医疗或金融等高风险应用中，需要仔细监控。这些实践降低了风险，并支持负责任的AI部署。展望未来，强化学习差距可能会缩小。预计RL和混合模型将在更具类人化的适应性和推理方面有所改进。因此，机器人技术和医疗领域可能在先前复杂的任务中看到更好的表现。然而，开发者和领导者必须继续谨慎规划。总的来说，理解强化学习差距对于安全有效地使用AI仍然至关重要。核心要点强化学习差距展示了AI在现实世界任务中的局限性。虽然RL在结构化环境中取得了显著成果，但在条件不可预测或复杂时却举步维艰。因此，理解这一差距对于开发者、研究人员和决策者至关重要。通过审视成功的案例研究以及停滞的领域，组织可以就AI的采用和部署做出明智的选择。此外，混合方法、清晰的奖励设计和仿真有助于减少错误并提高智能体性能。另外，符合伦理的实践和持续监控支持在高风险应用中的安全使用。展望未来，RL和混合AI模型的进步可能会缩小这一差距，从而实现更好的适应性和推理能力。因此，认识到AI的优势和局限性对于负责任和有效的实施至关重要。
اینڈرسن کا زاویہ2 ہفتے پہلے
By مارٹن اینڈرسن۔

2026年، AI抵制将走向何方؟

从罢工的编剧到被投毒的数据集，再到反AI时尚，2026年可能成为对AI的抵制不再温和请求的一年观点尽管美国政府决心扫清一切障碍以赢得与中国的AI竞赛，包括试图压制州一级的AI监管；尽管预期的知识产权相关诉讼浪潮正受到司法漠视的威胁，但日益增长的“机器之怒”仍在蔓延。让我们来看看一些新的和日趋成熟的反AI情绪与行动的引擎，以及在2026年，日益增长的异议情绪可能会在何处显现或加深其影响。劳工抵制作为精英劳工阶层的代表，演员和编剧凭借历史上活跃且深谙公关之道的工会，以及强大的名人支持，在反对AI剥削方面赢得了早期的让步。在不够光鲜的行业，工会往往面临更大的政治和内部压力；在这些领域发起同等规模的罢工和劳工行动的前景，或许因当前美国政府明显愿意通过实体、甚至军事手段干预社会关切而受到削弱。然而，由于AI日益被视为对工人的生存威胁，并且当前的投资狂热被许多人认为纯粹是受削减或消除员工数量的前景所驱动，2026年可能会让不同的劳工团体和个人得出结论：他们已无退路。此类行动可能会通过更多政治手段被压制或削弱——依赖于媒体大亨鲁珀特·默多克在1980年代对一代印刷工人使用的、造成失业的“既成事实”战术。在这场最为公开的革命背景下，一种提供（可以说是虚假）安全感的安慰性观点是，AI无法兑现其对行业的承诺，而且无论如何，它只是被用作解雇那些反正都会被解雇的人的借口。这利用了人们倾向于通过历史视角理解当下的倾向；但鉴于AI革命的前所未有性及其潜在影响范围，这可能并非可靠的方法。对受威胁工人的另一个安慰来源是技术的历史趋势，即最终会创造新的工作岗位来取代因创新而流失的岗位。尽管世界经济论坛2025年1月的报告预测，中期内AI将创造1.7亿个工作岗位，同时导致8500万个岗位流失，但在政治和AI领域，十二个月的间隔期都很漫长，而美国激进新政府第一年的许多事件，以及2025年全年的行业和投资发展，都可能使这一乐观前景降温。至关重要的是，一如既往，我们必须考虑是谁委托制作了这些数据和报告，以及他们在多大程度上可能受到行业或政治压力，从而围绕AI对社会的影响塑造有利的观点。但对全球工人的主要安慰点，仍然是AI系统极易出错的特性，它们倾向于产生幻觉，并且随着被赋予更广的范围和更大的权力，它们有能力引发更多的负面头条新闻。然而，AI已被证明擅长处理“较简单”的任务和工作，目前已在现实中造成岗位流失，并显著威胁到科技相关行业的招聘文化。当范围狭窄时，AI已经能够取代工作岗位；即使它在就业食物链更高端的困难任务上遇到难以逾越的障碍，这次显然也不会退回到另一个AI寒冬。因此，有许多方法可以重新构建当前局势，并在2026年压制围绕AI的抗议，使得任何最终的异议都成为事后追加的附录。更广泛的行业是否能有远见和能力像好莱坞在2023/4年那样（除了VFX部门）预见并免疫AI的影响，仍有待观察。AI数据中心遭遇抨击即使在AI兴起之前，美国各州为新建数据中心达成的交易也常常遇到阻力，尤其是因为这些企业对本地员工的需求极低；它们对本地经济的益处通常不是明显的净收益；而且，吸引它们的业务通常涉及大幅度的税收减免，进一步削弱了任何明显的益处。但是，为建设和装备专注于AI的数据中心而展开的新一轮争夺——这已导致RAM严重短缺，并引发了对阻碍消费者用电（或大幅提高电价）的担忧——将这一问题显著提升到了邻避主义或传统的州内税收优惠战争之上。本月，超过200个环保组织敦促国会在美国实施全国性的新建数据中心暂停令，不仅引用了电力成本飙升的问题，还提到了在当前投资水平下工业化AI所带来的气候相关后果。在地方层面，即传统上数据中心抵制声音最响亮的地方，密歇根州的 activists 已集会呼吁在全州范围内暂停数据中心建设：为满足AI需求而预计建设的海量数据中心的潜在碳影响，从根本上重新定义了数据中心反对派和基层运动的性质与利害关系。在2026年，美国地方性和有组织的全国性反对似乎可能会加深，而2025年美国政府所采取的“不可抗力”策略可能会因中期选举的谨慎而有所缓和。因此，明年在州一级似乎很可能会提出某种更具外交手腕的安抚性举措。至于气候团体更广泛的游说，最近的趋势表明，现任政府能够安然度过此类担忧，并反驳其背后的主张。一如既往，在一个已经确立的话题上“开启对话”仍然是化解它的实用方法。数字反抗并非所有异议都需要抗议集会或纠察线，反AI情绪也在大学实验室、软件公司和GitHub等AI通常可能期待更热烈欢迎的地方显现出来。芝加哥大学的Glaze和Nightshade项目都执行数据投毒，目的分别是让视觉艺术家使其作品实际上“无法被训练”，以及通过投毒方法主动“攻击”机器学习系统：除了相对较新的基于扩散模型的对抗方式，反对AI面部识别的更早运动继续通过日益流行的对抗性服装进行创新：荷兰设计师Jip van Leeuwenstein设计了一款反乌托邦式的反AI面具，旨在从各个角度挫败识别系统，这个较早的项目最近在社交媒体渠道上获得了显著关注：最近，流行的Firefox分支Waterfox的创始人，针对Mozilla基金会对Firefox中集成AI的新热情，表示Mozilla正在“犯一个根本性错误”，并且Waterfox将抵制AI。这一声明紧随Vivaldi浏览器夏季发布的类似意向声明（“保持浏览人性化”）之后。AI驱动的浏览器在2025年以各种形式出现，最著名的是OpenAI的ChatGPT Atlas，尽管该公司承认AI浏览器可能永远无法确保安全——这一立场在最近的事件中得到了充分说明：谷歌的代理AI Antigravity，一款可以（可选）访问你文件系统的浏览器，因误解用户指令而删除了一个开发者的整个硬盘。作为一个社区，对新的AI功能不那么热衷的Firefox用户对此事相当直言不讳，其中一些人开发了各种反AI的Firefox附加组件，包括Block AI、Disable AI、AI Blocker和AI Content Shield等。至于2026年基层抵抗AI的前景，似乎有理由预期，AI在软件系统、监控文化和大众文化中被感知到的“越界”行为，很可能会引发相应规模的反击——并且越来越多的公司会认为，反AI人群的潜在利润可能高于因FOMO而随大流地利用AI。一些早期投身反AI事业的老牌组织仍在运作，包括反对与AI崛起相关的“非人化”的Stop Killer Robots联盟，以及由寻求减缓AI扩散的非政府组织协调的全球性政治运动PauseAI。该社区将自己定义为“热爱科技”但“悲哀地意识到”AI代表生存风险的“科技爱好者”。类似的运动包括StopAI和ControlAI，后者在其公开声明中宣称获得了19万个公开签名，并且——有趣的是——还有相当数量的英国政界人士支持。洪堡基金会今年5月的一份详尽报告首次详细研究了反AI团体的兴起，并得出结论：“我们的研究表明，AI——毫不意外地——代表了一次重大的技术经济范式转变，并引发了深刻的、多方面的抵制，这种抵制根植于根深蒂固的社会经济、伦理、环境、法律和政治思想与[关切]中。这种抵制并非对‘进步’的彻底拒绝，而是代表了塑造这项技术未来的努力，使其与包括人类尊严在内的既定人类价值观保持一致。”结论：AI如同石棉任何即使偶尔接触社交媒体的人，都可能遇到过禁止AI内容的Facebook群组、subReddits或其他社区。在AI当前演化的早期，此类群体通常是直接受AI应用影响的群体，例如自由撰稿人和艺术家；然而现在，此类警告更频繁地出现在更普通的群组中——通常是受到“AI垃圾内容”不受欢迎入侵影响的社区。在这方面，一种两极分化正在显现，表现为对AI参与任何程度的不容忍，这在各在线论坛更新的规则中可见一斑——仿佛生成式内容是镭、石棉，或是利用纳粹研究的医学创新。理论上，对AI最大的抵制将是不购买AI产品，并抵制已知“含有AI”的产品。然而，正如我们部分所见，AI正越来越多地在未经协商的情况下被捆绑进产品和服务中，就像加氟一样，使得在许多领域实际上无法避免AI输出。基层反抗的范围可能有限，因为这场特定的AI革命首先是一场B2B事务。AI产品市场的兴衰并非旨在基于直接的消费者需求，而是让机器学习系统渗透并饱和基础设施，从而使最终用户默认参与其中。因此，基层进步和全球反AI运动能够在多大程度上影响AI看似不可阻挡的崛起，可能取决于它们能在多大程度上影响选举，以及足够多的商业实体和政治人物在多大程度上感知到公众舆论可能已不可逆转地转向反对这股新的文化力量。首次发布时间：2025年12月24日，星期三
مصنوعی ذہانت2 ہفتے پہلے
By زیک آموس

什么是对抗性诗歌？一种新的AI越狱方法

人工智能（AI）安全已经变成了一场不断的猫鼠游戏。当开发者添加防护措施以阻止有害请求时，攻击者继续尝试新的方法来规避它们。其中最奇怪的转折之一是对抗性诗歌。这种策略涉及将提示伪装成诗歌，并使用押韵、隐喻和不寻常的措辞，使得危险的指令看起来不那么像安全系统被训练来捕捉的东西。实际上，内容本身并没有太大变化。变化的是包装，这足以使基于模式的过滤器感到困惑。这提醒我们，在当今的模型中，如何提问几乎和提问的内容一样重要。当研究人员用诗歌破解AI时发生了什么？在2025年初，研究人员展示了大型语言模型（LLMs）可以通过将限制性提示包装成诗歌形式来响应这些提示。研究人员没有发出直接的、触发政策的指令，而是将相同的请求嵌入到押韵、隐喻和叙述诗中。表面上看，这些提示似乎是创意写作练习，但在其下，它们携带着通常会被阻止的相同意图。在25个前沿专有和开放加权模型中，团队报告说诗意的框架在手工诗歌中实现了62%的越狱成功率，而使用标准化元提示的批量“诗歌转换”约为43%。响应本身并不是新类型的失败，而是通过一个意想不到的门出现的熟悉失败。模型被引导生成它们通常避免的内容——例如涉及非法或有害活动的解释——因为底层请求被诗歌结构分割和掩盖。研究的核心结论是，仅仅是风格变化就足以规避为更字面化措辞调整的安全系统。这揭示了一个在模型家族和对齐方法中显而易见的漏洞。对抗性诗歌如何运作对抗性攻击利用了一个简单的现实——机器学习系统不像人类那样“理解”语言。它们检测模式，预测可能的延续，并根据其训练和安全层解释为意图的内容执行指令。当提示以直接、字面化的方式措辞时，防护措施更容易识别和阻止。然而，当相同的目的被伪装——分割、软化或重新框架时，保护层可能会错过实际被问的问题。为什么诗歌可以成为有效的载体诗歌天生具有模糊性。它依赖于隐喻、抽象、不寻常的结构和间接的措辞。这些正是可以模糊“无害创意写作”和“应被拒绝的请求”之间界线的特征。在同一2025年的研究中，研究人员报告说，诗意提示在广泛的模型集中以90%的成功率引发了不安全的响应，这表明仅仅是风格就可以实质性地改变结果。诗歌如何隐藏真实请求将请求视为信息，而将诗歌视为包装。安全过滤器通常寻找明显的标志，例如明确的关键词、直接的步骤措辞或可识别的恶意意图。诗歌可以通过比喻语言隐藏这种意图，或将其分散在各行中，使其更难以单独识别。同时，底层模型仍然能够足够好地重建意义以响应，因为它被优化为即使在语言间接时也能推断意图。检测和缓解越狱随着越狱方法变得更加富有创意，讨论必须从它们如何工作转向如何被发现和遏制。特别是在现在AI已成为许多人日常生活的一部分时， 27%的人报告每天多次使用它。随着越来越多的人使用大型语言模型（LLMs），应测试和探索额外的防护措施。这项任务涉及构建能够适应新提示风格和规避技巧的分层防御。开发者的困境对于AI安全团队来说，越狱最难的部分在于它们不是已知的威胁。它们随着时间的推移不断变化。这种不断变化是因为用户可以重新措辞提示，将其分割成片段，包装成角色扮演或伪装成创意写作。然后，每种新的包装都可以改变系统对提示意图的解释。当AI已经融入日常生活时，这一挑战迅速扩大，因此实际使用创造了无尽的边缘案例出现的机会。这就是为什么今天的AI安全更像是随着时间的推移管理风险。NIST AI风险管理框架（AI RMF）明确将风险管理视为一系列持续的活动——围绕治理、映射、测量和管理组织——而不是静态的检查清单。目标是创建使识别新出现的失败模式、优先修复和加强防护措施更容易的流程。模型如何自我保护AI安全由多个层次组成。大多数系统有不止一个防护措施协同工作，每个防护措施捕捉不同类型的风险行为。在外层，输入和输出过滤器充当看门人。传入的提示在到达核心模型之前被扫描以检测政策违规，而传出的响应则被检查以确保在返回用户的过程中没有任何东西溜走。这些系统擅长识别直接请求或熟悉的红旗，但它们也是最容易被绕过的，这就是为什么更具欺骗性的越狱通常能够绕过它们。下一层保护发生在模型内部。当发现越狱技术时，它们通常会被转化为训练示例。这就是对抗性训练和来自人类反馈的强化学习（RLHF）发挥作用的地方。通过在失败或风险互动的示例上微调模型，开发者有效地教导系统识别它应该拒绝的模式，即使它们被包装成创意或间接语言。随着时间的推移，这一过程有助于使模型对整个攻击类别产生免疫。AI“红队”的角色与其等待越狱发生，公司使用AI红队。这些团队是负责在受控环境中尝试破解模型的团队。他们以攻击者可能的方式接近系统，尝试不寻常的措辞、创意格式和边缘案例，以发现防护措施的不足之处。目标是在它们出现在现实世界使用中之前暴露弱点。红队现在正在成为当今网络安全策略开发生命周期的核心部分。当团队发现新的越狱技术时，产生的数据直接反馈到训练和评估管道中。该信息用于定义过滤器、调整政策并加强对抗性训练，以便类似的尝试在未来更不容易成功。随着时间的推移，这创造了一个持续的循环——探测失败，从中学习并改进系统，然后重复。当诗歌成为AI安全的压力测试对抗性诗歌提醒我们，AI的防护措施依赖于用户如何措辞问题，而不仅仅是问题的内容。随着模型变得更易于访问和广泛使用，研究人员将继续探测创意语言与旨在捕捉更直接意图的安全系统之间的差距。结论是，更安全的AI将来自于随着越狱一样快速发展的多重防御。
مصنوعی ذہانت2 ہفتے پہلے
By ڈاکٹر تحسین ضیاء

多智能体悖论：为何更多AI智能体会导致更差的结果

在过去两年的大部分时间里,多智能体系统被视为人工智能自然发展的下一步。如果一个大型语言模型能够推理、规划和行动,那么多个模型协同工作应该会做得更好。这种信念推动了编码、研究、金融和工作流自动化等领域智能体团队的兴起.但新的研究揭示了一个反直觉的悖论。向系统中添加更多智能体似乎并不总能带来更好的性能。相反它会使系统变得更慢、更昂贵且准确性更低。我们称之为“多智能体悖论”的这种现象表明带来更好的智能。相反,添加更多智能体会引入新的故障模式，其代价超过了收益。理解这个悖论很重要، 因为智能体系统正迅速从演示走向部署。构建AI产品的团队需要明确的指导，以了解协作何时有益、何时有害。在本文中，我们将探讨为何更多智能体会导致更差的结果，以及这对基于智能体AI系统的未来意味着什么。为何多智能体系统变得如此流行多智能体系统的理念意味统的理念类在团队中的协作方式。面对复杂问题时，工作被划分为多个部分，由专家处理各自的任务，然后将他们的输出结果整合起来。早期实验支持这种方法，在数学问题或代码生成等集行辩论或投票的智能体通常比单个模型表现更好.然而،许多这些早期的成功来自于未能反映现实世界部署条件的任务。它们通常涉及较短的推理链、与外部系统的有限交互，以及没有演化状态的静态环境。当智能体在需要持续交互、适应和长期规划的环境中运行时，情况会发生巨大变化。此外,随着工具的进步，智能体获得了浏览网页、调用A PI、编写和执行代码以及随时间更新计划的能力这使得向系统中添加更多智能体变得越来越诱人智能体任务与静态任务不同重要的是要认识到،智能体任务与静态推理任务有着根本的不同。静态任务可以一次性解决：模型接收到一个问题，产生一个答案，然后停止。在这种设置下,多个智能体的功能很像一个集成模型,多数投票等简单策略通常能产生更好的结果。相比之下,智能体系统运行在一个非常不同的环境中。它们需要与环境进行反复交互，智能体必须探索、观察结果、更新计划并再次行动。例子包括网络导航、金融分析、软件调试以及模拟世界中的战略规划。在这些任务中,每一步都依赖于前一步，这于前一步，这些任务中，这些任务中，每一步都依赖于前一步,这于前是顺序性的，并且对早期错误高度敏感.在这种环境下, 多个智能体所犯的错误不会像在集成模型中那样相互抵消。相反，它们会累积。过程中早期的一个错误假设就可能使后续一切偏离正轨،而当涉及多个智能体时,这些错误会迅速在系统中扩散.协调是有代价的每个多智能体系统都需要支付协调成本. 智能体必须分享他们的发现、协调目标并整合部分结果。这个过程从来都不是没有代价的.它消耗令牌、时间和认知带宽，并且随着智能体数量的增加，可能迅速成为瓶颈。在固定的计算预算下，这种协调成本变得尤为关键。如果四个智能体共享与一个智能体相同的总预算,那么每个智能体进行深度推理的能力就更少。系统可能还需要将复杂的想法压缩成简短的摘要以便沟通，而在这个过程中，可能会丢失重要细节،从而进一步削弱系统的整体性能。这就造成了多样性与连贯性之间的权衡。单智能体系统将所有推理集中在一个地方它们在任务全程保持一致的内部状态。多智能体系统提供了多样化的视角，但代价是割裂了上下文随着任务变得更加顺序化和状态依赖性强،这种割裂成为一个关键的弱点，其代价常常超过多个智能体带来的好处。当更多智能体主动损害性能时近期的对照研究表明，在顺序规划任务上，多智能体系统的表现往往不如基于单智能如基于单智能们个行动都会改变状态并影响未来选项的环境中,智能体之间的协调会打断它们的推理、减缓进度，并增加错误累积的风险。当智能体在没有通信的情况下并行操作时，这种情况尤其。下，智能体的错误得不到检的，当结果合并时，错误会累积而不是被纠正。即使是具有结构化协调的系统也无法完全避免失败。拥有专用协调器的集中式系统有助于控制错误，但它们也引入了延迟和瓶颈。协调器成为一个压缩点，扩展的推理被简化为摘要。这通常会导致在长的、交互式任务上做出比单一、专注的推理循环更错误的决策。这就是多智能体悖论的核心：协作引入了单智能体系统中不存在的新故障模式。为何某些任务仍受益于多个智能体这个悖论并不意味着多智能体系统毫无用处.相反，它强调了它们的益处是有条件的。当任务能够清晰地划分为并行、独立的子任务时，这些系统最有效。金融分析就是此类任务的一个例子。这个任务中，可以使用一个智能体来分析收入趋势另一个来检成本，第三个来比较竞争对手。以在无需仔细协调的情况下进行组合.在这种情况下, 集中式协调通常能提供更好的结果。动态网页浏览是另一个例子,让多个智能体独立工作可能是有用的。当一项任务需要同时探索多条信息路径时，并行探索会有所帮助。一个关键的启示是，当任务能够被划分为不需要紧密协调的独立部分时،多智能体系统效果最好。对于涉及逐步推理或需要仔细跟踪变化条件的任务，一个专注的单智能体通常表现更好。能力天花板效应另一个重要发现是،更强的基础模型减少了对协调的需求。随着单智能体能力变得更强，添加更多智能体所带来的潜在收益会缩小。超过某个性能水平后,添加智能体通常会导致收益递减，甚至产生更差的结果。这是因为协调成本大致保持不变，而收益却在减少。当一个单智能体已经能够处理大部分任务时，额外的智能体往往会增加噪音而非价值.在实践中,这意味着多智能体系统对较弱模型更有用،而对前沿模型效果较差。这挑战了模型智能会随着更多智能体而自然扩展的假设.在许多情况下,改进核心模型比围绕它增加额外智能体能帋常误放大是隐藏的风险近期研究最重要的见解之一是多智能体系统中错误如何被放大.在多步骤任务中. ，一个早期的错误可能会在整个过程中传播。当多个智能体依赖于共同的假设时，该错误会传播得更快，并且更难控制。独立的智能体尤其容易受到这个问题的影响。如果没有内置的验证机制，错误的结论可能会反复出现并相互强化，产生一种虚假的信心。集中式系统通过增加验证步骤有助于降低这种风险，但无法完全消除它。相比之下，单智能体通常具有内在优势。因为所有推理都在单一上下文中进行，矛盾更容易被发现和纠正。这种微妙的自我纠正能力很强大，但在评估多智能体系统时常常被忽视。核心要点多智能体悖论的关键教训不是要避免协作，而是要更有选择性。问题不应该是使用多少个智能体,而是对于该任务而言،协调是否合理。具有强顺序依赖性的任务往往更适合单智能体،而具有并行结构的任务可以受益于小型、协调良好的团队。工具繁重的任务需要仔细规划，因为协调本身会消耗本可用于行动的资源。最重要的是，智能体架构的选择应由可衡量的任务属性来指导،而非直觉。在实现有效结果方面,诸如可分解性、容错性和交互深度等因素比团队规模更重要.
اینڈرسن کا زاویہ2 ہفتے پہلے
By مارٹن اینڈرسن۔

对2025年计算机视觉文献趋势的个人见解

伦理声明和高斯泼溅技术式微，而提交论文的庞大体量本身成为AI在2026年需要应对的新问题。观点我关注arXiv及相关平台的计算机视觉与图像合成研究大约已有七年，跨越多个渠道——时间足够长，足以辨别反复出现的模式和趋势转变。但这些观察是轶事性质的。老实说，我希望能有时间，仅利用Arxiv出版物这一不断增长的海量数据语料库，通过机器学习分析来挖掘其中蕴含的深刻洞见。就目前而言，我只能更随意地汇报一下自我上次考虑此事以来引起我注意的情况。体量爆表我在2024年观察到的许多AI研究论文提交趋势，在2025年已固化为常态；其中最重要的莫过于AI相关论文数量的持续无情增长，而这增长本身也由AI驱动，以至于达到了一种公认的危机程度：这种增长速度在几年前就被描述为AI论文提交量的指数级翻倍，而随着近期AI投资狂热的到来抬高了赌注以及可用于AI相关研究的资金量，这一趋势只是变得更加根深蒂固。2025年的完整统计数据尚未公布，上面显示的汇总统计数据代表了所有类别普遍增长的数字。下面我们可以看到，计算机科学继续主导着这一趋势，显著高于其他稳定类别：去芜存菁在十月，秋季会议季的开始通常带来大量新研究，但今年却带来了拒绝服务攻击级别的提交量，这为迄今为止关注度不足的研究方向——研究趋势分析——增添了额外的动力和紧迫性；换句话说，旨在应对研究领域日益恶化的信噪比的论文和代码库正越来越多地出现。最新的一例就在上周出现，即NoveltyRank，它是一篇论文和一个GitHub代码库，对诸如Qwen3-4B-Instruct-2507和SciBERT等大语言模型进行微调，使其能够对提交的论文进行二元分类（根据先前提交预测“新颖性”），或进行成对新颖性比较（比较当前提交的“新颖性”）：此类“筛选”方法的问题在于定义有意义的变量的挑战。NoveltyRank方法使用论文被会议接受作为新颖性的指标，并且——或许相当轻蔑地——使用Arxiv发表作为负面新颖性的背景指标。这预设了两个错误的前提：首先，所有被会议接受的提交都具有新颖性或重要性，这显然并非事实；其次，新颖性本身具有无条件的价值。任何曾浪费半小时阅读某些或许仅为维持“不发表就出局”配额而提交的似是而非、甚至荒谬论文的人都会知道，新颖性常常是微不足道的，而渐进性的工作往往意义重大。理解一篇新论文的价值涉及AI目前非常薄弱的一个领域——长期上下文。由于论文写作常常不够坦诚，那些看似突破性的论文往往最终被揭示为对现有工作的微小改进；然而，自动化系统必须对此类情况发展出一种“直觉”，既不能标记过多的误报，也不能依赖提交作者的诚实。伦理声明骤减正如我之前观察到的，像Arxiv这样的门户网站对自由放任的抓取相当抵制，它们提供的数据转储通常缺乏细节粒度。因此，即使我有资源和时间从具有足够代表性的计算机科学论文样本中下载并提取特征，许多更微妙的趋势可能也未被瞄准或分析。其中之一是伦理声明附录的存在与否；这曾是涉及动物实验的生物科学必须包含的内容，而在2024年，在计算机科学类别提交论文的末尾对拟议工作进行伦理描述的趋势达到了顶峰。根据轶事观察，我认为这一做法在2025年全年已急剧减少。我猜测，当前美国政府针对AI发展的狂热放松管制努力，给了美国国内外的研究界某种更大的自由度，以及免受法律追究的隐性保护感。尽管现任美国政府支持反深度伪造监管，但它实际上已恢复了2021-23年时代特征的许多“狂野西部”立场——即使定义那个时代的纯粹科学研究背景，如今也已演变为狂热甚至历史级别的投资水平。生成式视频论文沦为“AI糟粕”随着去年冬天Hunyuan Video和WAN生成式视频系列的推出，AI视频在2025年已彻底改变。诸如制作完整身体化身的困难，或获得令人信服的人物侧面视图等旧障碍，似乎在一夜之间被扫除。中国此类包含权重的慷慨发布，可以说为今年的生成式视频发布定下了节奏，并且至少对西方AI视频架构倾向于受到更严格审查、预先商业化和规定化的趋势形成了一种制衡压力。在这个由CCCP引领的、颇具讽刺意味的民主化场景中，护城河的缺失导致成百上千家公司试图通过提供用户友好的门户网站来开拓新兴的推理市场，参与者多种多样，从civit.ai到RunPod，都在从那些在许多情况下可以在家用计算机上运行的程序和技术中获利。总的来说，这些举措是短期的现金掠夺，预期最终会被市场整合所取代（不过，毫无疑问，如果发生这种情况，它们的创始人也不会反对意外获得主导市场份额）。同样的平庸和复制现象也冲击了2025年Arxiv提交中的生成式视频领域。正如我上周观察到的，该类别的信噪比已达到令人麻木的峰值，因为研究人员公开争夺今年突破无疑释放出的海量潜在资金。话虽如此，此类提交的绝大多数充其量只是渐进式的改进。生成式AI中剩余的核心问题今年并未大量浮现：需要在整个角色描绘过程中保持身份，LoRA风格；需要更长的输出视频运行时间，并保持整体一致性（即环境和主题等，不仅仅是身份）；以及需要在生成式视频和视频编辑架构中改进音频生成和操作；等等。网格热消退我去年观察到，该领域推广利用传统CGI（即可以追溯到1970年代的基于网格的表示）或将其融入神经框架的系统的论文显著增加。我观察到，在2025年，特别是下半年，基于网格解决方案的动力已显著减弱。早期那波论文中许多融合CGI的解决方案，尤其是那些处理参数化人类“控制”模型（如3D可变形模型）的，可能已被基于扩散的生成框架（如Veo、Kling、Hunyuan和WAN等）的新能力所取代。与此同时，涉及高斯泼溅方法的论文显然也受到了发展停滞的影响，或者被2025年基于扩散的生成式AI系统所掩盖；或两者兼而有之。一年前我注意到，GSplat在2023年末引起显著关注的初期兴奋，已消退为更狭窄的研究路线。今年，我看到一系列论文旨在解决该方法显著的资源需求等问题。尽管我会将高斯泼溅描述为“目前停滞”，但我们应该记住，这项技术可以追溯到1990年代初，并且本质上是周期性复兴的。从基于网格方法普遍退潮中的一个例外是，将AI融入面向3D打印的框架的兴趣明显增加。AI安全类提交减少我对2025年的最后观察是，Arxiv计算机科学部分的“安全”提交类别在2025年表现出频率和质量的显著下降，其原因不易猜测。密码学与安全档案库可以说一直是发布论文的二流场所，因为这一研究方向不出所料地由私营部门的专有知识产权主导——其中很少出现在学术期刊上，几乎不会出现在Arxiv这样的免费平台上。此外，Arxiv上此类别的提交具有高于平均水平的“陷阱”——即轻描淡写的承认，常常埋在意想不到的地方，从而否定或削弱了论文的明显价值和新颖性。一个例子是，一种看似耸人听闻的安全入侵方法，实际上依赖于某些“白盒”方面——即对数据或程序的某种特权访问，这是攻击者不太可能获得的。2026年展望尽管媒体不断渲染生成式AI热潮是21世纪初互联网泡沫破灭的重演（也有一些不同意见），但这实际上似乎代表了一种虚假的安全感。在基础设施、投资、文化和研究方面，人类历史上可以说从未有过这样的时期。因此，很难看出2026年研究领域将走向何方，除了——像往常一样——一些长期努力将在现在到四月之间达到高潮，并带有2025年某些痴迷和趋势的特定“印记”。可能有助于缓解Arxiv和其他门户网站提交量危机的一个进展是，对AI生成/辅助论文的禁令或检查，正如Arxiv最近对综述论文实施的那样——然而，量化AI在任何一篇论文中的参与程度可能很困难，因为AI已经渗透到研究文化（以及同行评审）中，就像它侵入其他领域一样——如同一滴“墨水”影响了整杯（现有的）水，而非从根本上改变了介质。首次发布于2025年12月22日，星期一
اینڈرسن کا زاویہ3 ہفتے پہلے
By مارٹن اینڈرسن۔

AI视频完美演绎猫咪自拍

AI视频生成器通常能给出接近用户文本提示要求的结果，但总是差那么一点火候。然而，一项新的高级修复方法带来了天壤之别。生成式视频系统通常难以制作出真正具有创意或天马行空的视频，并且常常无法满足用户文本提示的期望。造成这种情况的部分原因是纠缠问题——视觉/语言模型必须在源数据的训练时长上做出妥协。训练太少，概念灵活但未完全成型；训练太多，概念准确但灵活性不足，难以融入新颖的组合。您可以从下面嵌入的视频中理解这个观点。左侧是许多AI系统在响应一个要求苛刻的提示（所有四个示例的提示都在视频顶部）时给出的那种折中方案，该提示要求一些过于奇幻、不可能成为真实训练样本的元素并置。右侧则是更贴合提示的AI输出：点击播放（无音频）。右侧我们看到“因子化”的WAN 2.2真正实现了提示要求，相比之下，左侧是“原始”Wan 2.2的模糊解读。请参考源视频文件以获得更好的分辨率和更多示例，尽管此处展示的精选版本在项目网站上不存在，是为本文组装的。来源好吧，尽管我们得原谅那只鼓掌鸭子的手（！），但很明显，右侧的示例比左侧的示例更贴合原始文本提示。有趣的是，所展示的两种架构本质上是相同的架构——流行且能力强大的Wan 2.2，这是一个今年在开源和爱好者社区中取得显著进展的中国发布版本。区别在于第二个生成流程是因子化的，这在此处意味着使用了一个大型语言模型来重新解释视频的第一帧（种子帧），从而使系统更容易交付用户所要求的内容。这种“视觉锚定”涉及将根据这个LLM增强的提示制作的图像作为“起始帧”注入到生成流程中，并使用一个LoRA解释模型来帮助将“闯入”的帧整合到视频创建过程中。就提示保真度而言，结果相当显著，特别是对于一个看起来相当优雅的解决方案：点击播放（无音频）。进一步展示“因子化”视频生成如何真正遵循脚本的示例。请参考源视频文件以获得更好的分辨率和更多示例，尽管此处展示的精选版本在项目网站上不存在，是为本文组装的。这个解决方案以新论文《因子化视频生成：在文本到视频扩散模型中解耦场景构建与时间合成》及其附带大量视频的项目网站的形式呈现。虽然当前许多系统试图通过使用语言模型重写模糊或未充分指定的文本来提高提示准确性，但这项新研究认为，当模型的内部场景表征存在缺陷时，这种策略仍然会导致失败。即使有详细的重写提示，文本到视频模型也常常错误组合关键元素或生成不兼容的初始状态，从而破坏动画的逻辑。只要第一帧未能反映提示所描述的内容，无论运动模型有多好，生成的视频都无法挽回。论文指出*：“（文本到视频）模型经常产生分布偏移的帧，但（评估分数）仍与I2V模型相当，这表明即使场景保真度相对较差，它们的运动建模仍然相当自然。“（图像到视频）模型表现出互补的行为，即从准确的初始场景中获得较强的（评估分数）和较弱的时间连贯性，而I2V+文本则平衡了这两个方面。”“这种对比揭示了当前T2V模型中的结构不匹配：场景基础和时间合成受益于不同的归纳偏置，而现有架构试图在单个模型中同时学习两者。”对不同生成模式的诊断比较发现，没有显式场景锚定的模型在运动方面得分高，但常常在场景布局上妥协；而图像条件化方法则表现出相反的模式：这些发现指向一个结构缺陷：当前模型试图一次性学习场景布局和动画，尽管这两项任务需要不同种类的归纳偏置，并且分开处理效果更好。也许最令人感兴趣的是，这个“技巧”有可能应用于本地安装的模型，如Wan 2.1和2.2，以及类似的视频扩散模型，如Hunyuan Video。据观察，将爱好者输出质量与Kling和Runway等商业生成门户进行比较，大多数主要API提供商都在通过LoRAs以及——似乎——新论文中展示的这类技巧来改进WAN等开源产品。因此，这种特定方法可能代表了FOSS阵营的追赶。为该方法的测试表明，这种简单且模块化的方法在T2V-CompBench基准测试上提供了新的最先进水平，显著改进了所有测试模型。作者在结论中指出，虽然他们的系统极大地提高了保真度，但并未解决（也并非旨在解决）身份漂移问题，这目前是生成式AI研究的痛点。这篇新论文来自瑞士洛桑联邦理工学院的四位研究人员。方法与数据这项新技术的核心主张是，文本到视频扩散模型需要“锚定”到真正符合所需文本提示的起始帧。为确保模型尊重起始帧，新方法通过在第零个时间步注入来自锚点图像的干净潜在表示来干扰标准扩散过程，替换掉通常的噪声输入之一。这种陌生的输入起初会让模型感到困惑，但通过最少的LoRA微调，它会学会将注入的帧视为固定的视觉锚点，而不是噪声轨迹的一部分：在推理时，该方法重写提示以仅描述第一帧，使用LLM提取一个专注于布局和外观的合理初始场景状态。这个重写的提示被传递给图像生成器以产生候选锚点帧（用户可以选择性地优化）。选定的帧被编码成潜在表示，并通过替换第一个时间步注入扩散过程，使模型能够生成视频的其余部分，同时保持锚定在初始场景上——这个过程无需改变底层架构即可工作。该过程通过为Wan2.2-14B、Wan2.1-1B和CogVideo1.5-5B创建LoRA进行了测试。LoRA训练在秩为256的情况下进行，使用了来自UltraVideo集合的5000个随机采样片段。训练持续了6000步，Wan-1B和CogVideo-5B需要48 GPU小时†，Wan-14B需要96 GPU小时。作者指出，Wan-5B原生支持纯文本和文本-图像条件化（在这种情况下被强加到旧框架上），因此不需要任何微调。测试在该过程的实验中，每个文本提示最初都使用Qwen2.5-7B-Instruct进行精炼，该模型使用结果生成包含整个场景描述的详细“种子图像”描述。然后将其传递给QwenImage，其任务是生成要插入扩散过程的“魔法帧”。用于评估系统的基准测试包括前面提到的T2V-CompBench，用于通过评分模型在连贯场景中保留对象、属性和动作的程度来测试组合理解能力；以及VBench 2.0，用于在18个指标上评估更广泛的推理和一致性，这些指标分为创意性、常识推理、可控性、人类保真度和物理性：关于这轮初步测试，作者指出*：“（在所有模型中），添加锚点图像始终能提高组合性能。所有较小的因子化模型（CogVideo 5B、Wan 5B和Wan 1B）都优于较大的Wan 14B T2V模型。“我们的因子化Wan 5B也优于商业的PixVerse-V3基线，后者是该基准测试中报告的最佳模型。这表明，即使在容量较小的模型中，视觉基础化也能显著增强场景和动作理解。“在每个模型系列中，因子化版本都优于原始模型。值得注意的是，我们在WAN 14B上轻量级的锚点基础化LoRA达到了与其预训练的I2V 14B变体相当的性能（0.661 vs. 0.666），尽管不需要完全重新训练。”接下来是VBench2.0轮次：在所有架构中，因子化方法提升了除人类保真度外的每个VBench类别的分数，即使进行了提示上采样，人类保真度也略有下降。WAN 5B的表现优于更大的WAN 14B，这强化了早先T2V-CompBench的结果，即视觉基础化的贡献大于规模。虽然VBench上的提升是持续的，但小于T2V-CompBench上的提升，作者将此归因于VBench更严格的二元评分机制。对于定性测试，论文提供了静态图像，但我们建议读者参考本文中嵌入的合成视频以获得更清晰的概念，但需注意源视频数量更多、种类更丰富，并且具有更高的分辨率和细节。请在此处查找。关于定性结果，论文指出：“锚定视频始终展现出更准确的场景组合、更强的对象-属性绑定以及更清晰的时间进展。”即使将扩散步数从50步减少到15步，因子化方法仍然保持稳定，在T2V-CompBench上几乎没有性能损失。相比之下，纯文本和上采样基线在相同条件下都急剧退化。尽管减少步数理论上可以将速度提高三倍，但由于锚点图像生成的固定成本，完整的生成流程在实际中只变得快了2.1倍。尽管如此，结果表明锚定不仅提高了样本质量，还有助于稳定扩散过程，支持更快、更高效的生成，且不损失准确性。项目网站提供了上采样方法与新方法生成的示例，我们在此提供一些（较低分辨率的）编辑示例：点击播放（无音频）。上采样的起始源与作者的因子化方法对比。作者总结道：“我们的结果表明，改进基础化可能与增加容量同等重要。T2V扩散的最新进展严重依赖于增加模型大小和训练数据，但即使是大型模型也常常难以仅从文本推断出连贯的初始场景。“这与图像扩散形成对比，在图像扩散中，扩展相对直接；在视频模型中，每个架构改进都必须在一个额外的时间维度上运行，使得扩展在资源上更加密集。“我们的发现表明，改进的基础化可以通过解决一个不同的瓶颈来补充规模：在运动合成开始之前建立正确的场景。“通过将视频生成分解为场景组合和时间建模，我们减轻了几种常见的失败模式，而不需要显著更大的模型。我们将其视为一种互补的设计原则，可以指导未来的架构走向更可靠和结构化的视频合成。”结论尽管纠缠问题确实存在，并且可能需要专门的解决方案（例如改进训练前的数据筛选和分布评估），但观察因子化如何仅通过适度的LoRA条件化层和一个显著改进的起始/种子图像的干预，就将几个顽固且“卡住”的概念提示编排“解粘”成更准确的渲染，确实令人大开眼界。考虑到几乎所有提供商都在寻求将其可观的GPU资源支出合理化给消费者，本地爱好者推理与商业解决方案之间的资源鸿沟可能并不像想象的那么巨大。据观察，当前一大批生成式视频提供商似乎都在使用品牌化且普遍“增强”过的中国FOSS模型版本。这些“中间商”系统似乎拥有的主要“护城河”是，它们不厌其烦地训练了LoRAs，或者——以更高的成本和略高的回报——实际对模型权重进行了完整的微调††。这类见解可能有助于进一步缩小差距，尤其是在中国似乎决心（不一定是出于利他或理想主义的原因）民主化生成式AI的发布背景下，而西方的商业利益或许更倾向于通过增加模型规模和法规，最终将任何真正优秀的模型隔离在API和多层内容过滤器之后。 * 作者的强调，非本人所加。† 论文未指定选择了哪种GPU或使用了多少GPU。†† 尽管LoRA路线更有可能，无论是出于经济易用性，还是因为完整权重（而非量化权重）并非总是可用。首次发布于2025年12月19日，星期五
مصنوعی ذہانت3 ہفتے پہلے
By ایلکس میکفارلینڈ

OpenAI推出面向新闻编辑室的人工智能培训学院

OpenAI推出了面向新闻机构的OpenAI学院，这是一个全球性的学习中心，旨在帮助记者、编辑和出版商将人工智能整合到新闻编辑室的工作流程中。该平台提供按需培训、操作指南和案例研究，涵盖调性研究、翻译、数据分析和生产效率。这是该公司最直接的尝试،旨在将自己定位为新闻行业的合作伙伴而非威胁。学院包含什么此次发布包括两个主要的培训方向.”记者人工智能基础”为记者和编辑介绍核心概念以及与新闻编辑室相关的用例。一个更技术性的方向则针对构建人工智能集成的工程和产品团队。实践模块涵盖具体工作流程：使用人工智能进行调研究、管理多语言报道和翻译、分析数据集以及简化生产流程。每个部分都包含来自已经在试验这些工具的新闻编辑室的真实案例.OpenA I表示，计划通过新课程、合作组织的案例研究以及现场节目来扩展学院。初始发布侧重于可在全球范围内访问的自定进度内容。合作伙伴背景该学院建立在OpenAI过去两年与媒体机构建立的关系之上。该公司曾与美国新闻项目和لین فیسٹ انسٹی ٹیوٹ 合作支持地方新闻机构，并与WAN-IFR A合作开展了新闻编辑室人工智能催化剂项目。该催化剂计划将协助欧洲、亚太、拉丁美洲和南亚的128家新闻编辑室，结合专家指导和实践性的人工智能实施支持.OpenAI正在为该计划提供资金和技术援助。该公告是在由OpenAI与布朗媒体创新研究所和赫斯特共同主办的”人工智能与新闻峰会”上发布的。这一时机表明OpenAI希望被视为新闻业中具有建设性的存在，而非生存威胁。这对新闻机构为何重要新闻编辑室面临一个熟悉的矛盾人工智能工具可以显著提高生产力并降低成本，但采用这些工具会引发关于准确性、编辑判断力和劳动力影响的疑问。许多机构在没有明确指导或培训的情况下进行非正式试验.OpenAI的学院试图将这种试验正规化。通过提供结构化培训和记录在案的最佳实践，该公司正将自己定位为塑造新闻编辑室如何在待人工智能采用的角色，而不是让其停留在临时性的探索中。对实际用例的关注——翻译、数据分析、研究加速——针对的是人工智能增强相对无争议的领域。这些是消耗记者时间但不需要定义新闻价值的编辑判断的任务。信任问题该学院的推出正值OpenAI面临包括《纽约时报》在内的媒体机构持续的法律挑战之际，《纽约时报》因人工智能训练数据涉嫌侵犯版权而起诉了该公司.OpenAI已与美联社、阿克塞尔·斯普林格和新闻集团等出版商分别谈判达成了许可协议。对于持怀疑态度的新闻编辑室来说,接受OpenAI的培训可能感觉像是在接受一个同时挑战其商业模式的公司提供的帮助.该学院并没有解决这一矛盾——它与矛盾并存.OpenAI的方法似乎是接触而非对抗：与愿意合作的伙伴建立关系，通过培训和工具展示价值，并让采用在行业内形成支持群体。这一策略是否能解决关于人工智能对新闻业影响的基本担忧，仍是一个悬而未决的问题.下一步计划该学院现已面向全球新闻机构免费提供.Op enAI表示，将推出更多项目，包括与媒体行业团体合作开发的内容. 对于正在权衡是否采用人工智能的新闻编辑室来说,该学院提供了一个结构化的起点——尽管各机构需要围绕适当使用、信息披露和编辑监督制定自己的政策.OpenAI可以教授工具；关于何时以及是否使用这些工具的更难问题，仍需每个机构自己回答.
اینڈرسن کا زاویہ3 ہفتے پہلے
By مارٹن اینڈرسن۔

使用AI为真实视频添加对话

一种新的AI框架可以在不重新拍摄的情况下，通过单一的端到端系统，重写、删除或添加人物在视频中的话语。三年前，每周在学术门户网站上发布的20-30个AI视频修改框架中的任何一个都会让互联网震惊；然而，如今这一热门研究方向已变得如此多产，几乎构成了另一个“AI垃圾”分支，因此我报道此类发布的频率远低于两三年前。不过，当前这一领域的一个新发布引起了我的注意：一个集成系统，可以干预真实的视频片段，并在现有视频中插入新的语音（而不是更常见的从人脸或帧生成整个生成式片段）。在下面的示例中（我根据发布者项目网站上的众多样本视频剪辑而成），我们首先看到真实的源片段，然后在其下方看到在片段中间插入的AI语音，包括语音合成和唇形同步：点击播放。局部编辑与拼接——FacEDiT提供的几种模式之一。请参考源网站以获得更高分辨率。来源 – https://facedit.github.io/这种方法是新方法开发的三种模式之一，名为“局部编辑与拼接”，也是作者（以及我自己）最感兴趣的一种。本质上，该片段通过使用中间帧之一作为新AI解释的起点，并将其后续的（真实）帧作为生成插入片段应努力匹配的目标来扩展。在上面看到的片段中，这些“种子”帧和“目标”帧表现为最上方的视频暂停，而下方修改后的视频提供生成式填充。作者将这种面部和语音合成方法定位为第一种完全集成的端到端方法，用于此类AI视频编辑，并指出了像这样完全开发的框架在电视和电影制作中的潜力：“电影制作人和媒体制作人经常需要修改录制视频的特定部分——可能是一个词说错了，或者剧本在拍摄后发生了变化。例如，在《泰坦尼克号》（1997）的标志性场景中，罗斯说‘我永远不会放手，杰克。’导演后来可能决定应该是‘我永远不会忘记你，杰克。’”“传统上，此类更改需要重新拍摄整个场景，这既昂贵又耗时。说话人脸合成通过自动修改面部运动以匹配修改后的语音，提供了一种实用的替代方案，消除了重新拍摄的需要。”尽管此类AI介入可能面临文化或行业阻力，但它们也可能构成人类主导的VFX系统和工具套件中的一种新型功能。无论如何，就目前而言，挑战纯粹是技术性的。除了通过额外的AI生成对话来扩展片段外，新系统还可以改变现有的语音：点击播放。一个改变现有对话而非插入额外对话的示例。请参考源网站以获得更高分辨率。技术现状目前没有端到端系统提供这种合成能力；尽管越来越多的生成式AI平台，如Google的Veo系列，可以生成音频，其他各种框架也可以创建深度伪造音频，但目前必须创建一个相当复杂的、由不同架构和技巧组成的流程，才能以新系统——名为FacEDiT——所能实现的方式干扰真实素材。该系统使用扩散变换器（DiT）结合流匹配，根据周围（上下文）运动和语音音频内容创建面部运动。该系统利用了处理面部重建的现有流行软件包，包括LivePortrait（最近被Kling收购）。除此之外，鉴于他们的方法是第一个将这些挑战集成到单一解决方案中的，作者创建了一个名为FacEDiTBench的新颖基准，以及几个专门针对这一非常具体任务的全新评估指标。这项新工作名为FacEDiT: Unified Talking Face Editing and Generation via Facial Motion Infilling，来自韩国浦项科技大学（POSTECH）、韩国科学技术院（KAIST）和美国德克萨斯大学奥斯汀分校的四位研究人员。方法FacEDiT通过学习如何根据周围运动和语音音频来填充演员原始表演的缺失部分，从而训练用于重建面部运动。如下面的示意图所示，这个过程使模型在训练期间充当间隙填充器，预测与语音匹配同时与原始视频保持一致的面部运动：在推理时，相同的架构支持两种不同的输出，具体取决于视频被掩码的程度：部分编辑，即仅改变一个短语，其余部分保持不变；或全句生成，即从头开始完全合成新的运动。该模型通过流匹配进行训练，将视频编辑视为面部运动两个版本之间的一种路径。流匹配不是学习从头开始猜测编辑后的脸应该是什么样子，而是学习在嘈杂的占位符和正确运动之间逐渐平滑地移动。为了促进这一点，系统使用上述LivePortrait系统的一个版本（见上图示意图）从每帧中提取一组紧凑的数字来表示面部运动。这些运动向量旨在描述表情和头部姿势，而不纠缠身份，以便语音更改可以本地化，而不影响人物的整体外观。FacEDiT训练为了训练FacEDiT，每个视频片段被分解为一系列面部运动快照，每帧与相应的音频块配对。然后随机隐藏运动数据的某些部分，并要求模型根据语音和周围未掩码的运动上下文，猜测那些缺失的运动应该是什么样子。由于掩码跨度和它们的位置在训练样本之间各不相同，模型逐渐学会如何处理小的内部编辑和较长的间隙，以进行全序列生成，具体取决于它获得的信息量。该系统前述的扩散变换器通过学习随时间细化噪声输入来恢复掩码运动。语音和运动不是一次性全部输入模型，而是通过交叉注意力将音频线程化到每个处理块中，帮助系统更精确地将唇部运动与音频语音匹配。为了在编辑过程中保持真实感，注意力偏向于相邻帧而非整个时间线，迫使模型专注于局部连续性，并防止在修改区域边缘出现闪烁或运动跳跃。位置嵌入（告诉模型每帧在序列中出现的位置）进一步帮助模型保持自然的时间流和上下文。在训练期间，系统学习基于语音和附近未掩码的运动来重建掩码跨度，从而预测缺失的面部运动。在推理时，重用相同的设置，但掩码现在由语音中的编辑引导。当插入、删除或更改一个词或短语时，系统定位受影响的区域，将其掩码，并生成与新音频匹配的运动。全序列生成被视为一种特殊情况，即整个区域被掩码并从头合成。数据与测试该系统的骨干由22层扩散变换器组成，每层有16个注意力头，前馈维度为1024和2024像素。运动和外观特征使用冻结的LivePortrait组件提取，语音通过WavLM编码，并使用VoiceCraft修改。一个专用的投影层将786维的语音特征映射到DiT的潜在空间，只有DiT和投影模块是从头开始训练的。训练在AdamW优化器下进行，目标学习率为1e-4，进行了一百万步，使用两块A6000 GPU（每块48GB VRAM），总批次大小为8。FacEDiTBenchFacEDiTBench数据集包含250个示例，每个示例包含原始和编辑后语音的视频片段，以及两者的转录文本。视频来自三个来源，其中100个片段来自HDTF，100个来自Hallo3，50个来自CelebV-Dub。每个都经过手动检查，以确认音频和视频都足够清晰以供评估。使用GPT‑4o修改每个转录文本以创建语法有效的编辑。这些修改后的转录文本与原始语音一起传递给VoiceCraft以生成新音频；在每个阶段，转录文本和生成的语音都经过人工质量审查。每个样本都标有编辑类型、更改时间点和修改跨度长度，编辑分类为插入、删除或替换。更改的单词数范围从1到3个单词的短编辑，4到6个单词的中等编辑，到7到10个单词的长编辑。定义了三个自定义指标来评估编辑质量。光度连续性，通过比较边界处的像素级差异，衡量编辑片段的光照和颜色与周围视频的融合程度；运动连续性，通过测量编辑和未编辑帧之间的光流变化，评估面部运动的一致性；以及身份保持，通过使用ArcFace人脸识别模型比较原始序列和生成序列的面部嵌入，估计编辑后主体的外观是否保持一致。测试测试模型使用上述三个数据集的材料进行训练，总计约200小时的视频内容，包括视频博客、电影以及高分辨率的YouTube视频。为了评估说话人脸编辑，使用了FacEDiTBench，以及HDTF测试分割，后者已成为此类任务基准测试的标准。由于没有直接可比的系统能够封装这种端到端功能，作者选择了各种至少能重现部分目标功能、并可作为基线的框架；即KeyFace；EchoMimic；EchoMimicV2；Hallo；Hallo2；Hallo3；V-Express；AniPortrait；和SadTalker。还使用了几种既定指标来评估生成和编辑质量，唇形同步准确性通过SyncNet评估，报告唇部运动与音频之间的绝对误差（LSE-D）和置信度分数（LSE-C）；Fréchet视频距离（FVD）量化视频整体看起来有多真实；以及学习感知相似性度量（LPIPS），测量生成帧与原始帧之间的感知相似性。对于编辑，除LPIPS外的所有指标仅应用于修改后的片段；对于生成，评估整个视频，边界连续性被排除。每个模型都被要求合成一个匹配的视频片段，然后将其拼接到原始剪辑中（研究人员指出，这种方法经常在编辑部分与周围素材相接处引入可见的不连续性）。还测试了第二种方法，即从修改后的音频重新生成整个视频——但这不可避免地覆盖了未编辑的区域，并且未能保留原始表演：关于这些结果，作者评论道：“（我们的）模型在编辑任务上显著优于现有方法。它实现了强大的边界连续性和高身份保持，展示了其在编辑过程中保持时间和视觉一致性的能力。此外，其卓越的唇形同步准确性和低FVD反映了合成视频的真实感。”点击播放。结果，由本作者根据支持项目网站上发布的视频汇编而成。请参考源网站以获得更高分辨率。此外，还进行了一项人类研究，以评估编辑和生成两方面的感知质量。对于每次比较，参与者观看六个视频，并根据整体质量对它们进行排名，考虑唇形同步准确性、自然度和头部运动的真实感。在编辑试验中，参与者还评估了编辑和未编辑片段之间过渡的平滑度：在研究中，FacEDiT在编辑质量和过渡无缝性方面均以明显优势持续排名最高，在生成设置中也获得了高分，这表明其测量优势转化为了感知上更受偏爱的输出。由于篇幅有限，我们请读者参考源论文以获取消融研究的进一步细节，以及在新工作中运行和报告的其他测试。事实上，此类原型研究产品很难生成有意义的测试结果部分，因为核心产品本身不可避免地会成为后续工作的潜在基线。结论即使是推理，像这样的系统也可能在推理时需要大量的计算资源，这使得下游用户——这里大概是VFX工作室——难以在本地进行工作。因此，能够适应现实本地资源的方法将始终受到供应商的青睐，这些供应商有法律义务保护客户的素材和一般知识产权。这并不是批评这项新成果，它很可能在量化权重或其他优化下完美运行，并且是同类产品中第一个在相当长一段时间内吸引我回到这一研究方向的。首次发布于202年12月17日星期三。同一天EET时间20:10编辑，为正文第一段增加额外空间。
مصنوعی ذہانت3 ہفتے پہلے
By ایلکس میکفارلینڈ

谷歌推出CC，一款利用Gmail、日历和Drive规划您一天的AI代理

Google Labs发布了CC，这是一款实验性的AI生产力代理，通过直接连接用户的Gmail、Google日历和Google ڈرائیو的最新尝试，能够自主采取行动，而不仅仅是响应提示。CC目前在美国和加拿夑Google اے آئی الٹرا 和付费Gemini订阅者开放。CC的工作原理CC的标志性功能是“您的一天”，这是一个早晨简报，综合了谷歌生产力套件中的信息。该代理扫描即将到来的日历事件、相关电子邮件和连接的文档，以创建用户在开始一天之前需要了解的综合概述.根据谷歌的官方公告,该代理不仅仅是简单的总结. CC可以识别不同项目之间的联系，例如标记何时电子邮件线程与即将召开的会议有关，或何时需要在预定截止日期前关注某个文档。系统还会在网上搜索相关背景信息。如果用户与新联系人有会议，CC可能会提取关于该人或其公司的背景信息。对于涉及旅行的日历事件，它可以提供相关的物流信息.Google لیبز | سی سی لانچ سیزل اپ لوڈ اس ویڈیو کو دیکھیں YouTube迈向自主AI代理的一步CC符合行业趋势，即AI代理可以在最少的人为干预下执行多步骤任务。与传统的等待指令的聊天机器人不同，像CC这样的代理会根据用户上下文主动收集和综合信息。谷歌几个月来一直在户上下文主动收集和综合信息。能力努力。公司的Gemini模型现在为Gmail、Docs和其他Work space应用程序提供功能支持，但CC代表了一种更为集成的方法——一个在各个服务中工作的代理，而不是每个应用程序中的单独AI功能。此次发布使谷歌与其他科技巨头并驾齐驱，竞相打造AI日程安排助手和工作流程自动化工入能够处理复杂的多步骤流程。可用性和限制CC作为实验性发布通过Google لیبس s与早期用户测试功能，然后再进行更广泛的推出。目前的访问权限仅限于付费，然后再进行更广泛的访问权限仅限于付费اے آئی Ultra订阅者和付费Gemini用户。免费级别的Gemini用户在发布时无法访问CC.地理可用性目前也仅限于美国和加拿大。该代理要求用户授权访问他们的Gmail,日历和谷谍Drive.示，CC处理这些信息以生成简报，但尚未详细说明数据保留的时间或是否用于模型训练。AI生产力领域的竞争CC的到来正值AI生产力领域竞争加剧之际。微软已将其Copilot助手深度集成到Office 365中，而初创公司和成熟的公司都在构建旨在管理电子邮件、日程安排和任务管理的AI工具。苹果也在通过其Apple انٹیلی جنس 功能扩展Siri的能力，尽管该公司在访问个人数据的AI代理方面采取了更为谨慎的态度。谷歌的优势在于其现有的生态系统。数亿用户已经依赖Gmail和Google日历，使CC无需用户设置新集成或迁移到不同平台即可立即访问丰富的个人数据。未来展望谷歌尚未将CC从当前的实验状态扩展的计划。公司可能会利用早期用户的反馈来完善代理，然后再考虑更广泛的可用性。目前，CC为AI助手的发展方向提供了一个预览：从回答问题的被动聊天机器人到预测需求并采取行动的主动代理用用户是否愿意授予这种程度的个人数据访问权限仍然是谷歌需要回答的关键闢
مصنوعی ذہانت3 ہفتے پہلے
By ڈاکٹر اسد عباس

为什么AgentKit可能是AI智能体部署中缺失的关键环节

AI智能体已不再局限于研究项目。它们现在运行于现实世界的系统中，管理自动化、客户支持和数据分析。然而，尽管取得了这些进展，部署这些智能体仍然是一项艰巨的任务。开发人员常常面临工具脱节、工作流程分散和测试周期漫长的问题。这些挑战减缓了创新速度，并使大规模应用更难实现。因此，市场越来越需要一个统一的系统来简化AI智能体的构建和管理方式。为响应这一需求，OpenAI于2025年10月推出了AgentKit。这个工具包将AI智能体开发的各个阶段，包括设计、测试、部署和评估，整合到一个互联的框架中。它帮助开发人员更高效地从构思走向部署，并减少技术障碍。此外，AgentKit通过提供共享工具和标准化工作流程来改善协作。它还能轻松与现有系统连接，帮助组织扩展其AI项目而无需进行重大调整。因此，AgentKit提供了一种实用的方法，使AI智能体部署更快、更简单、更可靠。对许多专家而言，它可能是最终将AI创新与现实世界应用连接起来的缺失环节。碎片化的生态系统正在拖慢AI智能体部署AI智能体开发长期以来一直受困于工具脱节、工作流程复杂的碎片化系统。开发人员通常依赖独立的框架，如LangChain和LlamaIndex，这些框架只处理整体流程中的部分环节。集成这些工具需要额外的编码、手动设置以及同时管理多个仪表板。这种分散的方法使得即使是小型多智能体项目也变成了漫长而困难的任务。结果，团队花费更多时间修复流水线，而不是改进其智能体的实际性能。常见的生产瓶颈AI智能体部署的挑战在开发完成后依然存在。在许多情况下，测试、评估和监控发生在不同的平台上，这在本地测试和实时环境之间造成了隔阂。因此，智能体一旦部署，其行为常常发生变化，导致性能不一致。开发人员因此必须花费额外的时间调试提示词、检查准确性并优化工作流程以维持稳定的结果。此外，缺乏标准化的程序拖慢了团队间的进展。在受控条件下表现良好的系统，在扩展到更广泛的环境时可能无法正常运行。因此，团队需要重复测试并修改配置，这增加了时间和精力。这种不一致性使得大规模部署变得缓慢且不可靠。最终，无论是小型团队还是大型企业都会遇到类似的挑战，限制了AI智能体顺畅高效的采用。企业级采用的挑战对于企业而言，这个过程变得更加困难。他们必须应对合规性、隐私和内部治理方面的严格规定。将AI智能体集成到安全系统中通常需要数月时间并增加高昂成本。重建基础设施和运行多个测试周期进一步拖慢了进展。这些挑战表明，迫切需要一种单一、有组织的框架，为AI智能体部署带来秩序、速度和可靠性。AgentKit直接回应了这些问题。它将开发、测试、部署和治理整合到一个统一的工具包中。通过消除对多种工具和分散工作流程的需求，它使组织能够更快、更高效、更有信心地部署AI智能体。什么是AgentKit以及它如何简化AI智能体开发AgentKit为构建和部署AI智能体提供了一个完整的环境，避免了分散工具带来的混乱。开发人员无需为每项任务依赖独立的框架，而是可以在一个结构化的平台内管理整个流程。这种统一的设置节省了时间，降低了复杂性，并提高了整体一致性。其核心组件之一是Agent Builder，这是一个简单的可视化界面，允许开发人员通过拖放系统创建智能体工作流程。这种方法减少了编码工作量，并使不同技能水平的团队更容易上手。Connector Registry通过管理与外部平台（如Slack、Jira和SQL数据库）的连接来进一步支持这一点。通过它，智能体可以直接连接到公司现有的工具和数据，减少集成时间。此外，ChatKit使开发人员能够在其应用程序中集成定制的对话式智能体。它支持记忆处理、角色设计和用户界面调整等功能，实现跨行业的灵活实施。Evaluation Module通过测试和持续改进工具完成了这个循环。它包括内置数据集、追踪分析和自动化基准测试，以确保部署前的准确性和稳定性。为什么AgentKit可能是AI智能体部署中缺失的关键环节AgentKit通过将开发、测试和管理的所有阶段整合到一个单一、有组织的系统中，解决了AI智能体部署的主要困难。它取代了早期使用独立工具、脚本和仪表板的方法，那种方法常常导致混乱和时间浪费。通过其结构化的方法，它帮助开发人员更高效地构建、协调和扩展智能体。简化协调以前，连接模型、数据库和工具需要手动编写脚本和频繁的故障排除。每个工作流程看起来都不同，这使得团队协作和维护变得困难。AgentKit通过引入统一的编排层简化了这一过程。它使智能体能够相互通信并在共享环境中运行。这种有组织的协调减少了技术错误，提高了工作流程的可靠性。此外，开发人员可以专注于改进智能体逻辑，而不是管理平台集成。更快的开发和测试AgentKit通过将可视化设计工具与可重用组件相结合，缩短了开发周期。开发人员可以通过清晰的界面创建工作流程，无需复杂编码。内置的测试和评估工具进一步支持快速调试和准确性检查。因此，团队可以在部署前发现并纠正问题。对于初创公司，这种方法减少了开发时间，允许更快地推出产品。对于企业，它最大限度地减少了资源使用，降低了成本，并确保了更顺畅的内部集成。更轻松的扩展和管理当项目增长时，保持稳定性和合规性成为一项挑战。AgentKit通过提供版本控制、访问管理和详细的活动日志来解决这个问题。团队可以在一个系统内监控性能、跟踪更改并维护安全标准。这种结构确保更新或扩展不会影响可靠性。此外，其监控工具有助于及早发现性能下降，从而及时进行改进。AgentKit的实际应用和潜在用例AgentKit提供了一个统一且灵活的平台，支持小型团队和大型组织的AI智能体开发。尽管其采用仍处于早期阶段，但该系统的设计使其能够应用于需要自动化、数据处理和智能交互的各个领域。对于开发人员和初创公司，AgentKit提供了一种高效的方式来创建和测试多智能体应用程序，如虚拟助手、研究机器人和自动化内容工具。其可视化工作流程系统和可重用组件有助于减少基础设施设置时间。此外，社区构建的插件简化了技术工作，帮助较小的团队专注于创新，而不是管理多种工具。在企业层面，AgentKit可以支持一系列运营和管理任务。在客户支持方面，基于内部数据训练的智能体可以快速准确地响应用户查询，减少支持工单数量。在运营和IT领域，自动化监控和报告智能体可以处理日常任务，提高效率和一致性。同样，在知识管理方面，内部助手可以帮助高管和员工更轻松地访问公司信息和洞察。AgentKit在特定行业也显示出潜力。在金融领域，它可以协助合规跟踪、审计文档和监管报告。在医疗保健领域，AI驱动的分诊系统可以在满足监管要求的前提下，安全管理患者咨询并提高响应时间。在营销领域，智能营销活动智能体可以实时分析绩效指标，并提出基于数据的调整建议以改善结果。总的来说，AgentKit的结构化环境和适应性架构使其适用于广泛的实际应用。它帮助组织超越AI智能体的实验性使用，迈向稳定且可扩展的现实世界部署。总结AgentKit提供了一种实用的方法，使AI智能体开发更加有序和高效。它将设计、测试和部署整合到一个地方，帮助团队避免独立工具带来的混乱。其灵活的设计既支持小型项目，也支持大型企业系统，使得为现实世界应用创建可靠的智能体变得更加容易。由于它能与现有工具和数据源顺畅连接，团队可以专注于改进其智能体，而不是修复工作流程。随着越来越多的组织将AI用于日常运营，像AgentKit这样的工具包可以使整个过程更快、更简单、更一致。它为AI开发带来了结构和清晰度，帮助开发人员将想法转化为跨不同行业的稳定且有用的应用程序。

مزید پوسٹس

1 صفحہ 312 3