

新研究发现,AI可以伪装成人类,直到它“过于完美”地记住事情,简单的记忆测试可以通过缺乏正常的人为错误来揭露聊天机器人。 普林斯顿大学的研究人员开发了一种方法,通过要求AI实体执行人类不擅长的任务来识别假装成人的AI实体,主要与短期记忆保持有关。在这种方式下测试的AI无法充分复制人类错误水平,除非它们被特别指示这样做,或者是在系统提示中,或者是在微调了心理数据后。该论文指出:‘我们探索了使用机器也能解决得很好的任务来检测人类的想法。具体来说,我们探测了一个已建立的人类认知约束的存在:有限的工作记忆容量。 ‘我们展示了标准序列回忆任务上的认知建模可以用来区分在线参与者和LLM,即使后者被特别指示模仿人类的工作记忆约束。 ‘我们的结果表明,使用已建立的认知现象来区分LLM和人类是可行的。’研究人员观察到的趋势意味着,现成的语言模型很可能在使用这种方法的任何逆图灵测试中揭露自己。虽然“目标特定”的AI模型将表现更好,但在这个任务上进行微调将可能将它们限制在这个任务上,以牺牲一般用途;而系统提示可以长达《战争与和平》,因此可以包括如何模仿人类缺陷的指示,但是这种方法的有效性会因被包含在非常广泛的指示中(这将强调许多其他优先事项)或非常短的指示中(这将牺牲一般能力以换取任务特异性,类似于微调)而受到损害。…(以下内容与原文保持一致)


大型人工智能的成本和限制,以及其对硬件成本的影响,迫使用户构建自己的系统——就在日益严格的监管威胁要关闭这种“暗影人工智能经济”的时候。 观点 在科学研究论文中出现的许多“陷阱”中,有一个最常见的就是该论文所解决的问题在其他地方已经解决了,而新研究的贡献只是偶然的或增量的。这可能是由于多种原因:研究人员希望取得量子飞跃,但只取得了拟似跳跃;早期解决方案比新方案更耗资源;或者项目的目标完全失败了,但学术研究的“发表或死亡”文化迫使团队发布了它(通常埋藏在一个门户最繁忙的发布日中)。然而,在机器学习文献中,一个相对较新的、不道歉的原因变得更加频繁:所提供的功能或功能仅可通过闭源、API绑定的门户获得。我今天早上正在考虑这样一篇论文——一项合作,由中国大学和亚马逊共同完成,解决了扩散基图像编辑系统中目标对象删除失败的反复出现的问题,这些系统经常只是用相似的对象“重新填充”目标空间:在上面的例子中,中心图像显示了新方法成功删除公交车并插入了一个合理的背景,而前两种方法(左边的两张图像)删除了公交车,但然后又将不同的公交车放回图像中!陷阱!放弃这个挑战的原因和方式,我们暂时不讨论(而且这是一个有趣的话题 主题),我然后遇到了一个经典的“陷阱”,阅读这篇新论文:作者的让步是,昂贵的专有系统已经可以可靠地执行此任务——这是我从使用Adobe Firefly 在Photoshop中以及其他闭源系统中几年的经验:‘[扩散基]方法通常会出现幻觉,插入意外对象,删除目标对象后,导致上下文不一致的[结果]。‘另一方面,最近的闭源多模态模型,如ChatGPT和Nano Banana,虽然在对象删除方面更强大,但涉及大量参数和高计算开销,阻碍了它们在边缘设备上的实际部署。 ‘‘因此,开发一个专用的对象删除模型不仅可以实现更好的删除性能,还可以享受低推理延迟和显著较少的参数。’这种解释,专注于技术障碍,省略了闭源架构(如ChatGPT和Nano Banana)根本不适用于本地安装的明显事实。虽然此类系统的产生有争议的材料的能力已经在过去一年中为其网关增加了额外的公共理由,但此类门户主要是由于商业迫切需要而成为专有的。本质上,这篇新论文意味着,尽管目标问题在商业系统中已经解决,但这可能与我们其他人无关,我们需要学习如何在“现实世界”中解决它——即,在开源系统中,无论它们是否可以在本地安装。平行发展然而,为什么要解决一个问题,它仍然依赖于付费系统,不是由于专有约束,而是因为所需的GPU计算超过了任何本地设置可以承受的范围?大多数新“开源”论文和代码仓库都具有训练/推理设置,具有极端的资源需求,例如A100集群。这取决于您认为所有这些即将到来的、令经济崩溃的AI数据中心将来在线时要实现什么。平民的恐惧和精英的希望都设想了护城河、专有的ChatGPT级别的系统取代工作岗位,同时不断提高订阅成本,降低服务水平,以满足早期VC资本,它必须等待3-5年才能运营。但文学中日益增长的趋势似乎支持着一种替代的未来,而“独自前行”的精神和在线社区(如r/stablediffusion subreddit,目前有920,000名用户)的边缘精神,它已经禁止了与闭源图像/视频生成系统相关的帖子。在这种替代的未来,新的全球AI数据中心供应将促进用户配置的、用户定义的系统的原始计算,而不是满足ChatGPT和Adobe Firefly等巨大的“黑盒”框架的需求。表面摩擦查看r/stablediffusion上复杂的、Patreon挖掘的远程GPU教程,一切似乎在目前都是不可能的:模型不断改变目标,每次更新都会改变目标;它们很难在本地部署,即使在最容易和最用户友好的框架中;一般来说,涉及的摩擦表明这是一项专门为极客爱好者和不直接参与AI但希望开发和维护自己的本地系统的公司(而不是租用此类功能)而设计的追求。然而,在过去的三十年中,每项有巨大需求的开源和民主化简化和商品化的技术往往会得到它,最广泛的解决方案通常出现在商业系统和开源替代方案及倡议之间的紧张关系中。曾经是专门的“极客”圈子的追求,例如互联网连接、内容管理系统和博客框架,以及互联网安全、摄影和媒体管理,已经从令人困惑的复杂性演变为简单和实用。因此,AI的后期景观可能比当前的AI市场领军者更喜欢的那样更加多样化,充满了更多的小型和真正竞争的玩家。自我实现,出于必要讽刺的是,“大型AI”正通过吸收所有将本来会流向“普通”消费者的计算组件(尤其是DRAM)为末端用户的独立精神做出贡献。因此,很多人都在想象一个未来,闭源的“全球AI”资源将通过低功耗的薄客户端访问,并且正在对维护现有设备产生日益增长的兴趣。AI对技术供应链的攻击还导致技术服务提供商在过去3-6个月内提高了他们的价格,要么是因为小公司真正被硬件荒所困,要么只是因为AI。这导致了对自托管和本地托管(包括自托管机器学习网络)的兴趣日益增长。我自己最近也陷入了这种情况,转向本地LAN存储用于照片和视频,以及文件备份。对于前者,我使用了免费和开源的Immich多平台媒体服务器,帮助我远离iCloud和其他云存储提供商的价格上涨(以及其他令人担忧的问题):如果我的经验有任何代表性,氛围编码——目前在许多曾经“纯粹”的在线社区中被诅咒——正在推动这种独立的浪潮(即使它可能威胁它所依赖的开源存储库)。例如,网络一直是我的弱点,所以AI的帮助对于我来说是必不可少的,以便运行一个安全的VPS来支持一系列新的自托管服务。在这种方式下,“大型AI”可以说是赋予了“小型AI”权力;因此,也许我们可以认为当前超大规模、超高估值的AI公司的崛起只是一个必要的但仅仅是过渡状态,在此之后将会出现一个更加民主和用户赋权的AI社会,抛弃寻求护城河、寻求租金的公司,就像抛弃已经使用过的助推器一样——就像2000年的互联网泡沫留下了可利用的基础设施,这将在公司支付了基础设施建设费用但已经崩溃后,极大地加速网络的发展。合规时代好吧,也许这不会再次发生。即使我们倾向于形成某种非护城河边缘社会,人工智能的监管,加上当前全球趋势向年龄验证,也很可能预测和阻塞这些发展途径。防止“暗影人工智能经济”的锚点是监管。已经,像GitHub和Hugging Face这样的中心仓库通常需要在线登录才能允许用户在本地克隆存储库,取决于存储库的设置。因此,强制监测AI框架的机制已经存在;而增加此类监督的意愿现在正在从个别政府倡议转变为全球势头。所以,如果市场力量和FOSS运动的聪明才智能够消除随意AI部署的摩擦,障碍似乎将以治理要求的形式返回:合规要求,对于公司来说可能是繁琐的,但对于个人来说可能是合理的——类似于添加到消费者级在线支付系统中的摩擦自PayPal的黄金时代以来。无论Meta 花费20亿美元进行OS级年龄控制的游说是因为他们在AI方面的重大投资,还是因为他们的数据收集利益,科技巨头支持年龄控制的结果是“本地”AI可能会像第一类物质一样受到监管;而且,就像DMCA是设计用来刑事化意图而不是任何特定的版权规避机制一样,国际AI法规可能会在这种情景下使所有非合规的机器学习使用成为违法行为,在几乎没有主动监督的情况下。结论所以,虽然法律和立法背景正在准备,也许是为了将AI纳入一个高度监管的空间,这样普通用户就不能“自己酿造”了,就像他们不能在没有许可的情况下种植或发酵受监管的物质一样,但研究部门仍然保持着更乐观的态度——AI将成为一个比当前更民主化和有益的力量,服务于更广泛的社会,而不仅仅是当天最流行的闭源提供商的追随者。这取决于AI泡沫破裂后废墟的处置——至少在提供者要么整合,要么市场稳定下来进入长期的巴尔干化——这可能需要更温和的监管。 首次发表于星期三,2026年4月1日


OpenAI 于 3 月 30 日发布了一个 Codex 插件,该插件可以直接安装在 Anthropic 的 Claude Code 中,允许开发人员在不离开现有工作流的情况下运行代码审查和委托任务给 Codex。该开源插件在 Apache 2.0 许可下发布,是第一个官方 OpenAI 集成,旨在在竞争对手的编码环境中运行。该插件提供了六个斜杠命令。 /codex:review 运行标准的只读 Codex 代码审查。 /codex:adversarial-review 添加了一个可控的挑战模式,质疑实现决策、权衡和故障模式。 /codex:rescue...


Anthropic 本周确认,Claude 付费订阅量在 2026 年增加了一倍以上,这得益于超级碗广告活动、两个新代理工具以及在与美国政府发生高调争议后用户支持的激增。Anthropic 的一位发言人告诉 TechCrunch,自一月以来,付费订阅者增长一直在加速,新订阅者数量在一月和二月之间创下了记录。这些新订阅者中的大多数是 Pro 级别的,每月 20 美元,尽管 Max 计划的注册量(每月 100 美元或 200 美元)也在增长。对大约 2800 万美国消费者匿名信用卡交易数据的单独分析证实了这一趋势,显示 Claude 以公司以前从未见过的速度获得付费用户。产品发布推动早期势头Anthropic 在一月份发布了两个生产力工具,公司认为这些工具直接推动了订阅增长。 Claude Cowork 于一月 12...


即使是最好的 AI 视频生成器,也存在慢性健忘的挑战——中国的新研究现在正在解决这个问题。 即使是最好的和最先进的 AI 视频生成系统,也都存在慢性健忘的挑战:如果摄像机从焦点上移开,然后再移回去,它将永远找不到最初的内容——角色会消失、改变外貌和/或运动类型,背景也可能会改变。这是因为基于扩散的生成系统具有有限的滚动窗口,并且它总是处理当前时刻的内容;在真正的唯我主义中,视野之外的内容对于生成式 AI 来说是不存在的——它从记忆中被字面地删除。这在传统的CGI中从来不是一个问题,因为它可以始终引用和准确地重现一个主题,包括外貌和运动,在渲染视频的任何位置都可能需要:这是因为 CGI 的组件元素,例如网格和纹理(见上图),以及运动文件和其他动态行为,可以独立地存储在磁盘上,并可以在任何时候被绘制到一个组合中。在生成式视频 AI 中,没有这样的“平面存储库”;它能接近这种功能的是LoRAs——专门训练的辅助文件,可以在消费设备上训练,允许新角色和特定的服装被“强制”进入视频:点击播放。 AI 视频的唯我主义问题可以通过使用 LoRAs 来一定程度地缓解——但结果可能会让人感到不知所措。这不是一个理想的解决方案。首先,LoRAs 与特定的基础模型版本(如 Wan2+ 或Hunyuan Video)绑定,每当基础模型更改时都需要重新创建。其次,LoRAs 倾向于扭曲基础模型的权重,以便 LoRA 的训练身份被强加于场景中的所有角色。此外,微调方法对数据集的质量非常敏感。准确的重现现在,中国的一个学术/工业合作正在提供我在过去三年报告这个问题以来看到的第一个重要补救措施。该方法使用所谓的 混合记忆 来保持脱离屏幕的角色及其直接环境在模型的潜在空间中保持活跃和准确,以便当我们的视点返回到它们时,效果是一致的:点击播放。 来自项目网站的两个新论文示例,展示了 AI...


OpenAI 已为其 AI 编码代理 Codex 推出了一个插件系统,添加了一个经过策划的集成目录,连接工具与工作场所应用程序,包括 Slack、Notion、Figma、Gmail 和 Google Drive。该更新随 Codex 版本 0.117.0 发布,将产品定位为一个超越纯代码生成的工作流平台。插件系统的功能Codex 中的插件是可以安装的包,它们可以包含三个组件:技能(预定义的提示工作流,指导代理行为)、应用程序集成(连接到外部服务)和 MCP 服务器配置(远程工具或共享上下文)。根据 官方插件文档,该系统旨在“使共享相同的设置跨项目或团队变得更容易。”这些插件可在所有 Codex 表面上工作 —— 桌面应用程序、命令行界面和 IDE 扩展。开发人员可以从 Codex 应用程序中的策划目录中浏览和安装插件。还支持本地每个存储库的市场和每个用户的个人市场,使用...


最新研究表明,大多数视频AI不需要颜色,只需在关键时刻打开颜色即可,将数据使用量减少90%以上,同时损失很小的准确率。 远程流媒体摄像头和其他无线、电池驱动的视频设备需要紧密优化的监控设置,因为它们可能依赖于不稳定的电源(例如太阳能)或需要周期性的重新充电,或在其他情况下需要人工干预。与此研究方向一致,人们对带有摄像头的可穿戴设备的兴趣也日益增长(尽管此类设备已经受到严格的功率和计算限制),因为边缘AI现在承诺使它们更加有用。除了这些考虑因素之外,降低边缘AI和监控成本(特别是在不需要将节省的成本传递给客户的情况下)的长期动力为边缘用例的节能方法提供了有力的理由。发表意见在流媒体视频感知领域,资源受限的边缘监控设备必须使用尽可能少的能量,同时仍需要花费足够的功率来监测“有趣”的事件——届时,将值得花费更多的资源。实际上,这与运动驱动的灯具类似,后者仅在低能耗传感器确定有人在场时才提供照明。由于音频监控和压缩比视频显著更节能,近年来,人们尝试使用基于声音的提示来“开启”受限系统中的注意力;例如Listen to Look和Egotrigger等框架:显然,音频并不是寻找视觉事件的理想介质,因为许多基本事件可能没有相关的音频提示,或者可能发生在边缘麦克风的范围之外。轻度睡眠者新的论文表明,更好的方法可能是可以与AI合作的视频流,当监控事件发生时增加资源。下面的模拟给出了该概念的一般想法——低分辨率监控保持在最低信号级别上,以便对象检测框架能够正常运行,并告诉系统由于触发事件而增加分辨率:模拟所需的行为——流媒体和分析以其最低的资源消耗水平运行;只是足够触发更高的资源消耗,当“有趣”或寻找的事件在灰度流中被检测到。黑白监控风格可能有些“复古”,但它可能是未来的一个迹象。这段视频由作者纯粹为说明新论文的核心思想而创建。 来源: 新的工作,是英国各机构和华为之间的学术合作,提出了一种无需训练的、AI辅助的、灰度始终、颜色按需模式,用于边缘监控——旨在当没有“关键事件”发生时以低令牌使用量运行,并且仅在事件期间增加消耗。在流媒体视频理解基准中,新系统(称为ColorTrigger)能够实现91.6%的全彩色基线性能,同时仅使用8.1%的RGB帧:该论文的标题为Color When It Counts: Grayscale-Guided Online Triggering for Always-On Streaming Video Sensing,来自八位研究人员,来自伦敦玛丽皇后大学、达勒姆大学、伦敦帝国学院和华为诺亚方舟实验室。该论文还具有配套项目页面。方法为了在新系统中保留时间结构,ColorTrigger保持恒定的低带宽灰度监控。一个因果在线触发器分析灰度流的滑动窗口(即,特定时间周围的灵活正负范围帧,例如事件触发的检测):当系统处于“被动”模式(即,它尚未识别触发事件)时,其动态令牌路由器分配有限容量给一个不对称解码器,始终寻找冗余和新颖事件的迹象,此时令牌流重新优先分配容量而不是压缩:在每一帧的基础上,系统需要决定当前时刻是否包含值得捕获颜色的新信息。最近的灰度帧的简短历史记录允许ColorTrigger将当前帧与其立即的过去进行比较。每一帧都被转换为一个紧凑的特征表示,并且这些特征被比较以衡量其主机帧的相似性或差异性。此比较过程组织成一个总结每个帧与其他帧重叠多少的结构,有效地捕获场景是否重复或更改。一个轻量级优化步骤为窗口中的每一帧分配一个重要性评分,偏爱新颖性。颜色平衡为了防止过度使用颜色,一个简单的“信用系统”限制了颜色可以被触发的频率。信用逐渐积累,并在请求颜色时被使用,确保突发活动被允许,但总体使用情况仍然受到控制。仅当帧既具有信息量又有足够的信用时,才会将其“升级”为颜色。动态令牌路由器控制每一帧接收的详细程度,而不是以全质量处理每一帧。当没有检测到重要内容时,灰度帧保持低分辨率并转换为一个小的、压缩的令牌集。当检测到重要时刻时,系统切换到颜色并以更高的分辨率处理该帧,提供更丰富、更详细的表示。两种类型的帧都经过相同的模型,但灰度帧以更轻的方式处理,而选定的颜色帧则给予更多的关注。输出然后以原始顺序组合并发送到模型作为连续流。由于大多数帧保持轻量级,只有少数被升级,因此系统在捕捉关键细节时节省了大量计算:数据和测试为了测试系统,研究人员在StreamingBench和OVO-Bench视频基准上进行了评估,避免了处理未来内容(这是离线测试的潜在危险)。使用的多模态大型语言模型(MLLM)是InternVL3.5-8B,其为InternVL3.5-8B-Instruct,因果触发器通过CLIP ViT-B/16实现。灰度流被限制在CIELAB颜色空间的亮度通道内,按照先前工作,并在patchification之前将生成的灰度帧调整为224x224px(将图像分割为小的固定大小块,以便模型可以将每个块作为单独的单位进行处理)。相比之下,RGB帧享有更高的比特率,并以448x448px处理,产生256个令牌,与灰度帧产生的64个令牌相比。常见的优化工具用于使系统做出决定:CVXPY(一个Python库,用于设置优化问题)和OSQP Solver(一个快速算法,用于计算何时触发颜色)。视频以1fps处理,单个剪辑最多128帧,以保持计算低。测试的专有系统是Gemini 1.5 Pro;GPT-4o;和Claude 3.5 Sonnet。测试的开源视频MLLM是LLaVA-OneVision-7B;Video-LLaMA2-7B;和Qwen2.5-VL-7B。测试的流媒体MLLM是Flash-VStream-7B;VideoLLM-online-8B;Dispider-7B;和TimeChat-Online-7B。InternVL-3.5-8B 和Qwen3-VL-8B 在各种配置中进行了测试,如下表所示,关于StreamingBench:作者在这里评论:‘ColorTrigger在StreamingBench的实时视觉理解子任务上实现了具有竞争力的性能。 ‘‘我们的模型在34.3%的RGB帧上得分为75.24,优于最近的在线模型Dispider-7B,并且与TimeChat-Online-7B相似,同时也优于专有模型,如Gemini 1.5...


新的研究提供了一种简单的方法来确定所有当前领先的AI语言模型(包括ChatGPT和Claude)的精心编制的逐步解释只是“装饰性的”,通常是在AI决定了答案之后编造的。 去年,一系列来自AI相关公司(包括Anthropic和Apple)的高调研究表明,所谓的“推理AI”通常会产生逐步的解释,但这些解释并不能反映它们的答案是如何得出的。由于各种原因,辩论很快陷入了激烈的反驳和多样化的解释(包括在这个网站),留下了一个未解的问题,即链式思维(CoT)推理是否只是一个为了安慰最终用户而设计的装饰性东西,还是真正的推理过程的证据。展示和讲解现在,来自印度的一篇有趣的新论文提供了一种廉价且易于复制的方法来判断ChatGPT和其他主要大型语言模型(LLM)接口中的那些令人印象深刻的“推理动画”是否真正表明AI正在通过步骤得出结论。该研究来自印度信息技术学院(IIITA)和德里国家电子和信息技术研究所(NIELIT)的两位研究人员。作者发现,在几乎所有情况下,跨越大量专有和开源LLM,呈现给用户的链式思维推理是“装饰性的”,是在AI得出答案之后编造的。测试了ChatGPT5.4、Claude Opus 4.6-R和DeepSeek-V3.2等模型,作者发现,删除任何单个步骤(10-15个CoT指示)实际上改变了答案的次数不到17%,任何单个步骤都足以恢复正确答案。作者声明:‘AI在医疗、金融和法律领域的监管框架越来越要求“可解释的”[系统]。我们的结果表明,标准方法——要求模型展示其工作——提供了一个透明度的幻觉。 ‘‘解释是流畅的、领域相关的,并且以微妙的方式错误:它们描述了模型没有执行的推理。 ‘‘一个写了“嗜酸性粒细胞增多表明有栓塞过程”的医疗AI可能根本没有考虑过嗜酸性粒细胞。它可能只是从问题中模式匹配到答案,并在之后编造了推理。 ‘‘根据EU AI法案(第13条),高风险AI系统必须提供“关于所涉及逻辑的有意义的信息”。我们的发现表明,大多数前沿模型的链式思维解释不符合这一标准——得出答案的“所涉及逻辑”与解释中描述的逻辑不同。 ‘作者观察到,两种较小的测试模型在特定情况下偏离了常见的欺骗模式:MiniMax-M25在情感分析中表现出真正的步骤依赖性,而Kimi-K25在主题分类中表现出39%的CoT处理需求。在所有其他情况下,较大和更知名的模型与其他模型一样,所示的推理步骤似乎是完全表演性的,模型使用捷径。小模型努力更多除了测试的十个API模型外,作者还测试了一些较小的开源模型,参数范围从0.8到8亿(这些天来,这是一个相当谦逊的数字)。作者发现这些更小的AI真正推理,而且它们所显示的CoT通常(尽管不是总是)是为了得出有用和准确的结论所必需的。较小的模型表现出55%的步骤推理需求,与较大模型的平均11%需求相比,作者断言,‘较大模型已经学会完全绕过多步骤推理,通过内部捷径得出正确答案,这些捷径并没有在其书面推理中反映出来’。作者提出,模型在任务上表现得越好,它就越不需要推理步骤(尽管这是对“放弃理性分析而选择训练数据分布中最强的答案”的概念的更外交化表达):‘小模型因为必须——它们缺乏参数知识来捷径——所以在数学上忠实地推理。 ‘‘前沿模型已经内化了足够的数学模式,使得显式链式推理变得多余。CoT仍然可以提高准确性(通过结构化生成),但个别步骤不再携带唯一的信息。 ‘方法用于测试模型的方法基于三个标准:必要性删除每个CoT步骤,然后检查答案是否更改。任何删除后答案发生变化的步骤都被视为“必要”;充分性隔离每个步骤,然后测试它是否可以恢复答案,任何可以恢复答案的步骤都被视为“充分”;顺序敏感性重新排列步骤,然后观察答案是否更改(因为真正的推理应该依赖于序列而不是关键字)。综合考虑,高必要性和低充分性表明真正的步骤推理,而低必要性和高充分性表明解释可以被删除、重新排列或减少而不会影响结果。作者指出,该方法消除了任何需要白盒模型访问的必要性,因为它可以在封闭源、仅API的模型(如ChatGPT和Claude)上以几美元的价格完成,并且可以在开源模型上同样成功地完成,这些模型可以在本地安装。他们还指出,之前的研究要么使用开源模型以便于内部分析,要么使用更简单的二元是/否答案,这些答案揭示了API模型的内部推理过程的内容要少得多。最小成本作者通过必要性和充分性定义真正的推理,高必要性和低充分性表明每个步骤都有独特的权重。相反,装饰性的推理显示出低必要性和高充分性,这意味着步骤可以被删除或单独使用而不会改变答案。必要性本身,作者指出,可以掩盖这一点,因为可能存在多个有效路径。因此,充分性用于测试任何单个步骤是否已经编码了结果,而顺序敏感性检查模型是否依赖于序列而不是表面线索。该方法建立在干预一致解释(ICE)框架之上,仅需要文本输入、文本输出API访问,并且对于六步链,涉及15次评估,成本约为每个模型1-2美元。ICE框架根据必要性和充分性将模型行为分类为三种模式:装饰性显示出低必要性和高充分性,意味着步骤是多余的,答案无论如何都会被得出;真正忠实显示出高必要性和高充分性,意味着每个步骤都携带着真正的信号(如前所述,这出现在MiniMax-M2.5上的情感分析中);上下文依赖显示出高必要性和低充分性,意味着步骤只在序列中一起起作用(这出现在Kimi-K2.5和MiniMax上的主题分类中,以及小模型在处理数学时)。测试使用修订的ICE方法测试的十个主要API模型是ChatGPT-5.4;Claude Opus 4.6-R;DeepSeek-V3.2;GPT-OSS-120B;Kimi-K2.5;Qwen3.5-397B;Qwen3.5-122B;MiniMax-M2.5;GLM-5;以及Nemotron-Ultra(253B参数)。每个模型在四个任务上进行了测试:情感分类(使用SST-2);数学文字问题(使用GSM8K);主题分类(使用AG News);以及医疗问答(使用MedQA)。作者指出:‘大多数模型表现出我们所说的“装饰性推理”(在ICE分类法中称为幸运步骤)——一种模式,其中步骤必要性低于17%,步骤充分性在情感和数学中超过60%。 ‘‘用简单的话来说:你可以删除任何推理步骤,答案几乎不会改变,但任何单个步骤都足以恢复答案。 ‘在SST-2情感测试中,GPT-5.4几乎从不依赖其书面推理,因为删除一个步骤改变了答案的次数不到0.1%(500次),这表明解释是在决定之后添加的。Claude Opus 4.6-R稍微依赖其步骤,依赖程度为14.8%,但其91%的步骤可以单独产生答案;因此,其更长的解释更详细,但仍然大多是“装饰性的”。随后,研究人员添加了其他领域并再次进行了测试:作者观察到:‘四个领域的结果加强了中心发现:装饰性推理在领域中对于捷径模型来说是普遍的。Claude Opus在MedQA上表现出1.7%的必要性(486个示例,93.4%的准确率)——该模型写了详细的医疗推理链,平均5.8步骤,但删除任何步骤几乎不会改变诊断。 ‘AG News显示了模型之间最大的差异,Kimi-K2.5和MiniMax真正依赖于其步骤推理,而大多数其他系统产生的解释对最终答案影响不大。DeepSeek-V3.2在所有四个任务中进行了测试,始终保持着装饰性的特点;尽管它写了最长的解释,但其答案很少依赖于步骤。输出刚性测试表明,作者将其称为输出刚性的第四种现象:一些模型只是不愿意输出推理过程,这取决于主题,也可能取决于其他情况。作者指出,输出刚性是任务依赖的:他们观察到:‘最有可能在内部绕过推理的模型也是最有可能在外部省略推理的模型。GPT-OSS-120B为99%的情感问题和100%的主题分类问题生成多步骤推理——但只有38%的医疗问题。对于62%的医疗查询,它输出一个单独的答案字母。 ‘这种模式似乎不是随机的:GPT-OSS-120B几乎为所有情感和主题分类问题生成多步骤推理,但在大多数医疗问题上切换到一个单独的答案字母。在这些问题上,它通常不提供任何可见的推理。作者假设,因为步骤级测试需要书面链来分析,一个只输出单个标记的模型无法通过这些方法进行评估;外部推理的缺席阻止了直接测量。该论文得出结论,用于高风险应用的模型需要测试其忠实度以及准确率,并建议一个真正推理但准确率低2%的模型可能更可取——至少因为它满足了EU和其他新兴的AI可解释性法规。根据研究中发现的证据,几乎所有具有CoT能力的LLM都在“作弊”,几乎所有时间都这样做。结论这是一个有趣的论文,提供了比我们在这里有空间涵盖的更广泛的测试和讨论。中心信息是,最高风险的AI平台可能会大幅偏离和不诚实,特别是在模拟其模型尚未满足的标准方面。此外,开源和封闭API模型(如ChatGPT)之间的规模和能力差距如此之大,以至于通常无法合理地推断封闭权重模型的效果从开源安装中推断出来,这加深了这些过程和标准的不透明度。然而,真正的白盒测试方法的出现是罕见的,可以涵盖开源和封闭源模型;但真正的解决“廉价技巧”方法的方法可能只会在强大的机构(如EU)威胁主要AI门户的利润时发生。 *我将作者的内联引用转换为超链接。† 该论文没有披露这些较小模型的完整列表,并包括一个模型的其他变体,使得列出一个明确的列表成为一个推断的问题。†† 作者的强调。首次发布于2026年3月25日星期三


人类中心智能公司已经扩展了 Claude 的功能,包括在 macOS 上直接控制桌面,让人工智能可以在标准集成(如 Slack 和日历应用程序)不可用时点击、输入和导航用户的计算机应用程序。该功能现已作为研究预览版在 Claude Cowork 和 Claude Code 中的 Claude Pro 订阅者(20 美元/月)和 Claude Max 订阅者(100 美元/月)中提供。目前,该功能仅限于 macOS。桌面控制的工作原理Claude 默认不使用桌面控制。系统首先尝试通过现有的应用程序集成(连接的日历、Slack 或其他支持的工具)完成任务。只有当没有集成可用时,Claude 才会接管鼠标和键盘直接完成任务。用户必须明确批准 Claude...


AI视频工具承诺提供完全的控制,但隐藏的“概念纠缠”将身份、表情和行为粘合在一起,迫使用户采用黑客和模板技巧,这些技巧打破了GenAI魔力的神话。 观点 自从我五年前最后一次深入讨论这个话题以来,训练的AI系统中的概念纠缠问题已经扩展到更广泛的用户中,但并没有被更好地理解。当时,autoencoder深度伪造系统(即现在已经不再使用的DeepFaceLab和较少色情内容的FaceSwap,两者都源自2017年Reddit上发布的代码)是创建相对逼真的深度伪造人脸的唯一游戏规则。这些系统依赖于大量的面部训练数据集,这些数据集旨在为AI模型提供有关以下信息:A)该人在静止状态下(规范参考嵌入)和B)该人在各种情况下的外貌,从睡眠到笑、恐惧、无聊、愤世嫉俗、悲伤等。问题在于,规范身份通常必须从非中性的面部捕获中推断出来,因此,在网上抓取的训练数据中,微笑和笑容的高容量会将分布偏向“微笑默认值”。这是因为这些模型通常使用的网上抓取的训练数据中包含大量的红毯拍照,以及其他任何可能使数据集偏向某种图像的原因。换句话说,autoencoder系统必须尝试从成千上万张面部表情被正常面部表情扭曲的图像中提取“中性”身份概念。它还必须尝试解开语义面部概念的不同情绪从面部被拍摄的角度。这意味着,如果只有从侧面拍摄的“恐惧”面部表情可用,训练系统将只能从该角度优化地复制这种情绪。面向未来随着扩散方法从2022年开始接管Gen AI图像(和后来的视频)场景,生成系统变得更好地能够在提供有限面部数据的情况下外推准确的面部表情。甚至创建令人信服的侧面视图的极其棘手的挑战也基本上已经被克服,而在当前的最先进状态下,表情数据已经相当有效地从身份中分离出来——以至于由autoencoder驱动的DeepFaceLive流媒体系统开创的实时深度伪造木偶表演已经有了许多有效的离线扩散应用,实时演出可能是未来的发展:点击播放。来自“FlashPortrait”项目,展示了通过源视频驱动头像的各种示例。在这种情况下,现实领域的位置无关紧要,如果有的话。 来源 然而,随着GenAI的画布扩大,输出变得更加复杂,纠缠问题只是扩散到多个其他领域——并且目前正在通过一些廉价的老把戏来“解决”。如果您不知道这些把戏是什么,您可能会对视频和图像AI的发展速度以及克服其旧缺陷的能力有更积极的看法。喋喋不休的猫希望很明显,为什么身份和情绪对于那些旧的2017年时代的autoencoder系统来说很难分离。它是因为a)有一种数据太多,或者一种重要数据的特定版本太多,这两种情况都会导致分布偏差;和/或B)模型架构不适合分离这些质量,并且在推理时倾向于“将它们粘合在一起”,除非用户采取了非常规的方法来确保数据集的平衡。出于同样的原因,类似的问题已经出现在过去几年中的一些开源和专有的视频模型中,尽管它们被对幻觉、缺乏审查和其他各种主题的批评所掩盖。例如,在Wan2.+系统中,许多用户发现很难阻止他们生成的角色不断说话,并且通常也很难阻止他们盯着摄像头。后一个问题(看着摄像头,或打破第四面墙)在扩散图像系统出现之前就已经存在,因为它出现在各种仅图像的扩散系统中,这是由于网上抓取的数据集(如LAION)中“看着摄像头”的照片的普遍性所致。“喋喋不休”的角色问题来自于YouTube上“影响者”视频的丰富,这些视频自然提供了成千上万小时的直接对着镜头的演讲,通常被整理成数据集,在那里研究科学家可以清洗网上抓取的数据,通过提供学术背景。但是,除非原始或后续的策展人小心地限制这种类型的视频数量,并将其与其他类型的镜头平衡,否则就会在视频模型中发展出严重的偏差,这需要通过基于提示的补救措施和第三方辅助系统来解决。面对Wan的“喋喋不休”问题,Reddit用户u/Several-Estimate-681想出了一个变通方法,利用Wan 2.1 Infinite Talk V2V系统中的一个设置,该框架旨在鼓励影响者风格的喋喋不休——该设置允许用户使渲染角色沉默:点击播放:只是听——Wan2.+中实现角色专注的变通方法。 来源 很明显,这种捷径并不能代表低级别的架构解决方案,并且,在没有真正的解决方案被创造者找到和实施的情况下(因为普通的爱好者通常没有数百万美元来重建或微调此类工作),这意味着“概念纠缠”游戏将在下一个版本发布时被重置为零。廉价和脆弱扩散架构本身并没有使这些问题不可避免;事实上,如果有办法将真正有效的策展、分类和高质量的字幕和注释应用于数百万个数据点的超大规模数据集,那么几乎所有这些问题都可能消失。然而,这种关注细节的程度将类似于曼哈顿计划,在后勤、范围、所需资源和长期努力方面。因此,这些网站提供“模板”,在实践中,它们的行为与自定义训练的LoRAs完全相同,自定义训练的LoRAs已经被AI爱好者使用了四年多,用于训练任何所需的身份、风格、对象以及(在视频LoRAs的情况下)运动或操作到一个专用的LoRA辅助工具中。通过在用户和基础模型之间插入LoRA,所获得的结果将非常具体于LoRA所训练的内容,通常,模型的整体性能将因LoRA的权重弯曲影响而受到损害,LoRA将非常好地复制其自身的主题,但也将将该材料插入到任何请求中(如果飞-by-night GenAI视频网站允许这种控制——它们不允许;它们只是提供一个[您选择的操作]模板,并以最有可能成功应用模板的方式解释您的输入文本/图像/视频)。出于明显的原因,我无法在本文中嵌入网站示例;但是,研究文献最近提供了一些类似的示例。例如,EffectMaker项目展示了该原理的实际应用,即特定的操作被应用于用户提供的图像:点击播放。在EffectMaker中,可以对自定义输入应用精细的特定效果。 来源 然而,即使在这些高度策划和针对性的情况下,用户经常抱怨需要进行多次尝试(烧掉令牌)才能获得良好的结果,我们不应将这种现象归因于提供商的贪婪或不诚实的做法,而应归因于DiT GenAI框架的固有“碰运气”的性质。结论文献继续研究概念纠缠的问题,该问题首先在2020年左右在Max Planck/Google的合作中被严肃地提出来,题为对无监督学习的解纠缠表示及其评估的清醒看法。此外,通过对比进行解纠缠(DisCo)的后续版本也在不断涌现,人们对这一问题的认识远远超过了公众对AI无法做什么的认识。2024年的一项中国研究表明,解决概念纠缠问题可能根本不必要,以解决它带来的问题。历史上,这是正确的,因为计算机视觉中的许多棘手问题并不是通过解决它们而被克服的,而是通过完全新的技术和方法被超越。在等待一个离散的竞争者出现之前,似乎我们将继续需要应用热补丁和创可贴来解决GenAI的缺陷和局限性,并忍受公众对基础模型的灵活性和延展性的过高估计。 首次发布于2026年3月23日星期一


不,孩子不会留在图片中,如果 AI 有任何作用的话。 从图像和视频中删除人和物体是 VFX 中心的 AI 文献中的一种流行子研究领域,拥有越来越多的专用数据集和框架来解决这一挑战。中国复旦大学大数据研究院最新的研究成果是 EffectErase,一种“效果感知”的视频物体删除系统,作者声称它在测试中显著改进了当前的最佳水平:从项目网站汇编的 EffectErase 方法示例(请注意,虽然我们提供了链接,但源网站包含许多高分辨率和非优化的自动播放视频,这可能会影响您的网页浏览器的稳定性。附件中的 YouTube 视频是一个更容易和更全面的参考,并嵌入在本文的末尾)。 源这项新工作涉及创建/策划一个半新颖的数据集,包括几乎 350 个原始的真实世界和合成场景(使用公共存储库*),要么使用专用设备捕获,要么源自并重新用于围绕开源 3D 框架 Blender 建立的工作流程。混合视频对象删除(VOR)数据集构成了 EffectErase 应用程序本身的基础,该应用程序建立在 Wan2.1 视频生成系统之上。该系统还定义了两个新的相关基准:VOR Eval 和 VOR...


OpenAI 正在整合其 ChatGPT 应用、Codex 编码平台和 Atlas 浏览器,公司的应用 CEO Fidji Simo 在 2026 年 3 月 16 日的内部全体会议上宣布 —— 这是对 Anthropic 在企业和开发者市场上日益增长的影响力的直接回应。Simo 将此举描述为被迫的优先排序: “我们不能因为被次要任务分散注意力而错过这个时机,”她告诉员工,并补充说产品碎片化“已经减慢了我们的速度,并使我们更难达到我们想要的质量标准”。总裁 Greg Brockman 暂时领导整合工作,CEO...


尽管有关于重量级科技投资的消息,AI正在遇到重大的障碍。从像Dell在CES 2026上降低AI语言的公司开始,到报告发现两-thirds的消费者不想要AI在他们的设备上。内部,员工的情况也不是很好。最近的一项哈佛研究发现,AI工具并没有减少工作量,反而使其更加紧张。这些事件和趋势都是更广泛的浪潮的一部分,影响着市场、企业和消费者。AI疲劳是真实的,忽视它是一个冒险的举动。AI加速工作速度但导致疲劳,影响质量,削弱决策2月9日,哈佛商业评论报道了一项关于AI如何改变工作习惯的八个月研究的结果。研究发现,虽然AI加速了工作的速度,但也导致了认知疲劳、倦怠和决策能力的下降。这反过来又导致了工作质量的下降、人员流失和其他问题。“无论我们今天转向哪里,我们都被AI讨论和问题所包围,”Jenny Sagström,B2B创意代理公司Sköna的创始人和CEO,对我们说。Sagström表示,虽然AI为工作场所带来了无数的改进,但它也正在驱动AI疲劳。“我们不断被问及如何最好地使用AI,以及如何不使用AI。所以,是的,我相信AI疲劳是真实的,”Sagström说。“AI可能比我写得更好,但除非我自己坐下来写,否则我不会经历思考过程来确定我的立场,”她补充说无休止的数字转型的代价“虽然AI疲劳是非常真实的,但它是影响工作人员更广泛问题的指标:转型疲劳,”Fredrik Hagstroem,科技咨询公司Emergn的CTO,对我们说。Hagstroem表示,转型疲劳是一种工人由于太多的变化计划发生得太快、太长时间而经历的倦怠。“从云计算和物联网到大数据、机器学习和现在的AI,过去10到15年里,工作人员经历了无数的转型——往往结果不明显,”他补充说。Emergn自己的研究发现,50%的员工经历了由频繁的变化和转型驱动的转型疲劳。超过一半(61%)的美国CEO承认,转型疲劳是AI兴起的日益增长的担忧。一篇被Business Insider选中的文章,由AI软件工程师和开发人员Siddhant Khare撰写,给了我们一个关于AI转型在个人层面的看法。Khare在文章中写道,AI疲劳是“一种无论工具或工作流程优化如何都无法解决的疲劳”。“我在上个季度发布了比我职业生涯中任何一个季度都多的代码,我也比我职业生涯中任何一个季度都感到更加疲惫。这些事实并非无关,”Khare说。两-thirds的消费者说他们不想要、不需要或不会为AI付费从消费者的角度来看,AI也失去了其光泽,研究表明大多数用户不想要AI。2026年1月27日,Circana报告发现,大约7成消费者不想要AI在他们的设备上。研究显示,许多消费者认为他们根本不需要这种技术。另外,59%的不想要AI的消费者有隐私问题,43%的人说他们不想为AI额外付费。“工人和消费者仍然沉浸在新的基础模型发布的炒作中,”Mike Hulbert,AI工程公司Solvd的CEO,对我们说。研究表明,越来越多的消费者使用聊天机器人以不同程度研究和回答日常生活中的问题。从这些用例的角度来看,能力似乎已经达到瓶颈,Hulbert说。“作为一个经常做出架构决策并参与AI实施的人,我把它看作是人们期望和实际得到的东西之间的差距,”Philip Tikhanovich,软件开发公司Innowise的大数据工程部门负责人,对我们说。“市场上有很多产品只是为了添加AI而添加AI,人们不得不弄清楚如何使用新的按钮或场景(很多都不真正让事情变得更容易),”Tikhanovich说。因此,消费者失去了信任,并对任何AI功能都变得麻木,即使是有用的功能。“在公司内部,这往往导致团队的疲惫和恼怒,”Tikhanovich说。“与其承诺加速,他们不得不双重检查结果,在工具之间切换,并学习如何使用半成品的功能”商业领袖和投资者如何看待AI疲劳及其缓解方法2月5日,华尔街以低位收盘,AI担忧占据了投资者的信心。纳斯达克下跌至11月份以来最低点,推动下跌的因素包括微软(MSFT.O)、亚马逊(AMZN.O)和其他大型科技公司的损失,这是因为Alphabet(GOOGL.O)表示可能会将AI资本支出增加一倍。让投资者担忧的是,大型科技公司的更多支出预计将显著影响自由现金流。高管们也在加倍下注于AI支出。最近的一项年度调查发现,Teneo发现,超过三分之二(68%)的CEO在2026年加倍下注于AI投资,即使他们的大多数AI项目都不盈利。“我认为AI疲劳对于工人和消费者来说是真实的,但对于商业领袖来说就不是那么回事了,”Hulbert说。根据Hulbert的说法,疲劳的很大一部分是由人们在工作外听到的事情与在工作中听到的事情之间的差异驱动的。因此,领袖需要对他们的AI计划中什么有效、什么无效进行真实的沟通,提供员工参与工作演变的切实机会,并开始关注减少外部支出的机会(而不仅仅是提高生产力),他建议。“陈词滥调是真正的反生产力——信息需要以公司面临的具体挑战和AI如何帮助解决这些挑战来框定,”他补充说。Tikhanovich说,公司可以从一个“容易”的开始来减少AI疲劳。“与其先考虑AI,不如先考虑实用性(即,只在真正节省时间或减少摩擦的地方使用技术),”他说。训练团队并以不需要额外步骤的方式构建AI,并始终为人们提供选择,包括可以关闭或恢复到旧工作流的选项,这是正确的方法,Tikhanovich说。“价值审计也至关重要……我建议定期审查AI功能——只保留真正节省时间的功能。”随着市场分析师仍在计算数字、对AI泡沫犹豫不决、大型科技公司和企业宣布大笔AI投资——尽管大多数AI项目不盈利、报告显示消费者和工人都遇到了AI疲劳的墙——专家们同意,需要采取措施。从透明度到建立信任、赋予工人权力并部署真正有效的功能,商业领袖需要站出来避免AI疲劳的陷阱。


一种新的 AI 驱动的美丽评估系统评估面部的吸引力,同时比典型的深度学习模型训练速度更快,可能使大规模自动美丽评分更加实用。 面部美丽预测(FBP)是一个大行业,并且是研究文献中一个相当强大的研究方向。尽管它违反了几乎所有关于在 AI 和机器学习实践中反对偏见的原则,而且在很多方面它支持算法对女性的物化和还原主义,但它仍然吸引了几个多亿美元的行业的兴趣,其中大多数都是直接针对女性的,例如化妆品、美容手术、直播和时尚等:除了这些明显的女性中心的商业领域外,广告和其他行业,包括娱乐和出版业,在了解男性和女性认为什么是“吸引人的”方面有着重要的利益,当然,这是基于每种文化的基础。事实上,美的总体认知在各个地区有所不同,这意味着无法获得一个适用于全球的数据集,而且新的研究必须要么局限于特定的地区,要么专注于可以应用于不同文化数据的“高级”方法。经常,地理位置并不是唯一的限制,因为注重吸引力的数据集可能难以在性别或特定应用方面提供平等的有效性,或者可能是出于特定的目的而策划的——这可能会限制集合在其他领域的使用。例如,在 2025 年,我 报道了一项开发大规模(10 万 + 身份)的数据集,以评估直播中的吸引力,其紧凑的标准可能需要在更广泛的项目中进行显著的适应,尽管该项目背后的努力是巨大的。面部呈现如上面的链接和图像所示,亚洲的研究机构通常不受西方同行相同的文化限制,他们敢于发表一项科学研究,评估五位西方女性从最不吸引人到最吸引人的排名,如上所示的 研究。可以认为,在亚洲起源的这种系统被证明在公开场合有效,没有当地的批评,西方的利益可以使用或将此类研究适应于专有的、私有的实现。在这种情况下,“评估女性”的任务被委托给一个可以在没有批评的情况下追求的地点。无论这是否常见,还是不太公开的西方等效系统往往在远离开源协作和公众监督的情况下开发,都可以合理地假设目标是全球性的,考虑到可以或可能从准确的吸引力评估中受益的专业领域的数量很大。适者生存它可能看起来像巨大的网络可爬取的语料库,如 Tik Tok、Instagram 和 YouTube 将证明是优秀的美丽仲裁者,通过关联关注者、点赞和流量来评估吸引力,因为这是一个常见且合理的关联(尽管有一些例外)。同样,现有的集合——如 ImageNet 和 LAION——包含已经“登上巅峰”的演员和模特——通常会包含吸引人的个体(尽管通常有太多的数据点和太少的人),允许更广泛的文化机制作为吸引力的代理。然而,这并不能解释人们在时间上(更不用说地理位置)对什么是吸引人的看法的变化。因此,再次需要高级和数据无关的系统,而不是个别和特殊的集合或策划,这些集合或策划将无法反映不断变化的口味。组合皮肤最新的学术贡献来自中国,使用 迁移学习 和 广泛学习系统(BLS)来解决这些挑战。传统的神经网络倾向于只有在大量训练后才能获得强大的结果,而像 BLS 这样的轻量级系统可以快速训练,但难以捕捉到足够的细节。新的工作通过使用预训练的视觉模型来提取面部特征,然后将这些特征传递给快速的 BLS...


苹果悄悄地阻止了流行的vibe编码应用,包括Replit和Vibecode,从App Store发布更新,援引长期以来禁止应用下载或执行代码以改变其功能的规则。这种执行发生在AI驱动的编码工具变得流行——并开始生成绕过苹果生态系统的应用的同时。Vibe编码工具允许用户用简单的语言描述一个应用,并获得可用的代码,从而将非程序员变成软件构建者。该类别已经迅速增长,像Replit这样的平台现在声称拥有超过5000万的总用户和90亿美元的估值。但是苹果的应用审查团队已经确定,这些应用在其iOS客户端中预览和运行生成的软件的方式违反了指南2.5.2,该指南规定应用“不得下载、安装或执行代码以引入或更改应用的功能或特性”。该公司将其视为对现有规则的常规执行,而不是新的打压。苹果想要改变什么核心问题是vibe编码应用显示生成的软件的方式。目前,像Replit这样的应用在应用内网页视图中渲染生成的应用程序——有效地将宿主应用转变为运行任意代码的平台。苹果的立场是,这违反了应用在通过审查后更改其自身功能的规则。苹果已经为受影响的开发者制定了一个前进的道路。Replit需要在外部浏览器中打开生成的应用,而不是在应用内视图中。对于Vibecode,苹果的审查团队指出,应用程序一旦删除为苹果设备生成软件的功能,很可能会被批准,根据熟悉讨论的人士的说法。对Replit的影响是可衡量的。自从其上次在一月份的App Store更新后,该公司的iOS应用从苹果的免费开发工具排名中从第一名下降到第三名。Replit和Vibecode都没有公开评论这一情况。平台上的代码生成紧张关系执行的时机创造了一个显著的对比。在二月,苹果在Xcode 26.3中引入了agentic编码,在其开发环境中添加了对Anthropic的Claude Agent和OpenAI的Codex的内置支持。该更新允许AI代理直接在苹果的开发环境中创建文件、构建项目、运行测试和检查可视化输出——这些功能与vibe编码应用提供的功能有很大的重叠。苹果所做的区分是技术上的:Xcode是一个在macOS上运行的开发工具,用于生成通过应用审查提交的应用,而iOS上的vibe编码应用可以生成和运行从未经过审查过程的软件。从苹果的角度来看,应用商店指南的存在是为了确保每个在iPhone上运行的应用都经过了审查。在应用内代码生成和执行的捷径绕过了这种关门功能。但是,实际效果是苹果正在限制第三方工具,这些工具使应用创建民主化,而同时在其自己的桌面工具链中采用相同的底层技术。无代码应用构建器和AI代码生成器已经成为一个增长的类别,正是因为它们让没有编程经验的人可以构建功能性软件——而苹果的执行引发了人们对这种趋势在iOS上可以走多远的疑问。对于vibe编码公司来说,一个更广泛的担忧是战略性的。这些工具越来越多地帮助用户构建网页应用和渐进式网页应用,这些应用完全在App Store之外运行,切断了苹果对应用销售和应用内购买的15-30%的佣金。阻止更新迫使开发者要么遵守苹果的要求——这限制了其移动应用的功能——要么将其用户群转移到苹果控制较少的平台。指南2.5.2包括一个针对教育应用的例外,这些应用教授编码,前提是源代码“完全可由用户查看和编辑”。vibe编码工具是否可以重新构造其应用以符合这一例外仍然不清楚。就目前而言,僵局凸显了苹果平台战略中的一个反复出现的紧张关系:该公司为第三方开发者设定了可以构建的规则,同时面临着对其自身Xcode中的AI编码工具没有等效的约束。随着vibe编码从新颖转变为主流开发工作流,苹果在设备代码生成周围所划定的界限将决定下一代软件将如何构建以及在哪里构建。