

牛津大学领导的一项新研究得出结论,女性使用生成式AI的程度远低于男性——并非因为缺乏技能,而是因为她们更担心AI对就业、隐私、心理健康和社会本身的危害。 作为未经授权的主要目标,女性在过去七年中一直与围绕生成式AI这一争议分支的深度伪造内容密切相关,并在近期取得了一些显著胜利。然而,牛津大学领导的一项新研究认为,这种对女性AI关切的描述过于狭隘。研究发现,女性使用各类生成式AI的程度都远低于男性——并非由于获取渠道或技能差距,而是因为她们更可能认为AI对心理健康、就业、隐私和环境有害。该论文指出:‘我们使用[2023–2024年]英国全国代表性调查数据表明,女性采用生成式AI的频率远低于男性,因为她们对其社会风险的感知不同。‘我们编制的综合指数涵盖了关于心理健康、隐私、气候影响和劳动力市场扰动的担忧,该指数解释了9-18%的采用率差异,并且是所有年龄段女性中最强的预测因素之一——对于年轻女性而言,其预测力超过了数字素养和教育水平。’根据研究人员的说法,最大的差距出现在那些数字素养高、对AI社会风险表示强烈担忧的年轻用户中,个人使用方面的性别差异超过45个百分点:通过在连续调查轮次中匹配相似的受访者,构建合成双胞胎面板,该研究发现,当年轻女性对AI的社会影响变得更加乐观时,她们使用生成式AI的比例从13%上升到33%,显著缩小了差距。在那些担忧气候危害的人群中,生成式AI使用的性别差距扩大到9.3个百分点;在那些担忧心理健康危害的人群中,差距则扩大到16.8个百分点,这并非由于男性使用增加,而是由于女性使用率显著下降。因此,作者们发现了一种与性别相关的明显文化效应*:‘平均而言,女性表现出更多的社会同情心、传统的道德关切和对[公平]的追求。同时,研究发现道德和社会关切在技术接受度中扮演着角色。‘关于教育领域生成式AI的新兴研究表明,女性更可能认为在课程作业或作业中使用AI是不道德的,等同于作弊、助长剽窃或传播错误信息。‘对社会福祉的更大关切可能部分解释了女性对生成式AI的较低采用率。’他们认为,研究中观察到的女性的这种看法是合理的:‘[女性]对环境、社会和伦理影响的高度敏感性并非错位:生成式AI系统目前确实具有显著的能源需求、不均衡的劳动实践,以及有据可查的偏见和错误信息风险。‘这表明,缩小性别差距不仅关乎改变观念,也关乎改进底层技术本身。因此,激励低碳模型开发、加强对偏见和健康危害的保障措施、提高供应链和训练数据实践透明度的政策,将能解决这些合理的关切——同时确保女性的风险意识成为技术改进的杠杆,而非采用的障碍。’他们进一步指出,虽然该研究清楚地表明…他指出了采用差距,其研究结果在英国以外地区可能更高(新研究的所在地是英国)。这篇新论文题为《女性担忧,男性采用:性别化认知如何塑造生成式AI的使用》,由牛津互联网研究所、比利时新经济思维研究所和柏林洪堡互联网与社会研究所的研究人员共同完成。数据与方法最近的一项新研究趋势表明,尽管能力和访问权限没有差异,但女性使用各类生成式AI的频率低于男性——这一不足据估计是近期性别工资差距的一个促成因素,这与先前关于女性互联网使用率较低与较低薪资相关的趋势一致:在这项新研究中,作者利用英国政府《公众对数据和AI的态度:追踪调查》倡议中提供的逐年研究信息,分析了AI相关风险的认知如何影响不同性别的采用模式,并将风险敏感性分离出来,作为女性使用率降低的一个关键因素。当风险担忧与其他特质结合时,生成式AI的性别差距会变得更大。如下图所示,最大的差距(5.3个百分点)出现在那些拥有高数字技能、并将AI视为心理健康风险的女性中:心理健康担忧往往会放大大多数群体中的性别差距,这种效应在年轻和数字素养更高的用户中最为强烈,而隐私担忧也会扩大差距,在某些工作环境中甚至将差距推高至22.6个百分点。即使在那些对AI气候影响表示担忧的年长受访者中,差距仍然高达17.9个百分点,这表明对危害的认知对女性影响更重——包括在整体AI使用率相对较低的群体中也是如此。风险认知为了确定风险认知对采用的影响程度,研究人员基于对AI在心理健康、气候、隐私和就业方面影响的担忧,构建了一个综合指数。然后,他们使用按年龄和性别划分的随机森林模型,将该指数与教育、职业和数字素养一起进行测试,发现在所有人生阶段中,AI相关的风险认知始终能预测生成式AI的使用——其排名常常高于技能或教育,尤其对女性而言:随机森林模型(按年龄和性别分层)显示,与男性相比,AI相关风险感知是女性使用生成式AI更强的预测因素,在所有女性年龄组中均位列前两大特征,其影响力超过了数字素养和教育。对于男性,数字素养占主导地位,而风险感知排名较低且作用不那么一致。模型表明,社会关切对女性AI采用的影响远强于传统技能或人口因素。请参阅源PDF以获得更好的可读性和整体分辨率。[/caption]在所有年龄组中,对AI社会风险的关切预测女性使用生成式AI的程度均强于男性。对于35岁以下的女性,风险感知是影响使用行为的第二大因素,而男性中则排名第六;在中老年群体中,风险感知对女性排名第一,对男性排名第二。在所有模型中,风险感知占预测重要性的9%至18%,超过了教育和数字技能指标。根据论文,这些结果表明,女性对生成式AI的采用率较低,较少源于对个人风险的担忧,更多是出于更广泛的伦理和社会关切。在这种情况下,犹豫似乎是由对AI可能对他人或社会(而非自身)造成伤害的更强烈意识所驱动。合成双胞胎为了测试改变对这些主题的态度是否能改变行为,研究人员采用了合成双胞胎设计,将两轮调查中相似的受访者进行配对。将较早一轮的每个人与较晚一轮中年龄、性别、教育和职业相同的受访者进行匹配。然后,团队比较了那些数字技能有所提高或对AI社会影响变得更加乐观的受访者在生成式AI使用上的变化,从而能够分离出更高的数字素养或减少的担忧是否真的能提高采用率,尤其是在年轻人中:提升数字素养提高了两性对生成式AI的使用,但也扩大了性别差距,男性受益更多。在全部样本中,女性的使用率从9%上升到29%,而男性则从11%上升到36%。在年轻人中,数字素养的提升使男性的使用率从19%大幅上升至43%,而女性的使用率从17%上升到29%,增幅不大且无统计学意义。相比之下,对AI社会影响的更大乐观情绪产生了更均衡的变化,女性从13%上升到33%,男性从21%上升到35%。在全部样本中,女性从8%上升到20%,男性从12%上升到25%。因此,论文指出,虽然数字技能提升总体上提高了采用率,但也倾向于扩大性别差距——而重塑对AI更广泛影响的看法,似乎在提高女性使用率方面更为有效,且不会不成比例地提升男性的采用率。结论这些发现的意义似乎在论文展开过程中出现了分歧;如前文所引,作者起初对女性更广泛的全球关切和伦理立场表示赞许。接近尾声时,出现了一种更为勉强和务实的观点——也许是出于当前的时代精神——作者们担心女性是否会因其道德警惕和疑虑而”落后”:‘[我们的]研究结果指向更广泛的制度和劳动力市场动态。如果男性在规范、期望和能力仍在形成的时期以不成比例的高速度采用AI,这些早期优势可能会随着时间的推移而复合,影响生产力、技能发展和职业进展。’ * 我将作者文内引注转换为超链接。首次发布于周四,


从罢工的编剧到被投毒的数据集,再到反AI时尚,2026年可能成为对AI的抵制不再温和请求的一年 观点 尽管美国政府决心扫清一切障碍以赢得与中国的AI竞赛,包括试图压制州一级的AI监管;尽管预期的知识产权相关诉讼浪潮正受到司法漠视的威胁,但日益增长的“机器之怒”仍在蔓延。让我们来看看一些新的和日趋成熟的反AI情绪与行动的引擎,以及在2026年,日益增长的异议情绪可能会在何处显现或加深其影响。劳工抵制作为精英劳工阶层的代表,演员和编剧凭借历史上活跃且深谙公关之道的工会,以及强大的名人支持,在反对AI剥削方面赢得了早期的让步。在不够光鲜的行业,工会往往面临更大的政治和内部压力;在这些领域发起同等规模的罢工和劳工行动的前景,或许因当前美国政府明显愿意通过实体、甚至军事手段干预社会关切而受到削弱。然而,由于AI日益被视为对工人的生存威胁,并且当前的投资狂热被许多人认为纯粹是受削减或消除员工数量的前景所驱动,2026年可能会让不同的劳工团体和个人得出结论:他们已无退路。此类行动可能会通过更多政治手段被压制或削弱——依赖于媒体大亨鲁珀特·默多克在1980年代对一代印刷工人使用的、造成失业的“既成事实”战术。在这场最为公开的革命背景下,一种提供(可以说是虚假)安全感的安慰性观点是,AI无法兑现其对行业的承诺,而且无论如何,它只是被用作解雇那些反正都会被解雇的人的借口。这利用了人们倾向于通过历史视角理解当下的倾向;但鉴于AI革命的前所未有性及其潜在影响范围,这可能并非可靠的方法。对受威胁工人的另一个安慰来源是技术的历史趋势,即最终会创造新的工作岗位来取代因创新而流失的岗位。尽管世界经济论坛2025年1月的报告预测,中期内AI将创造1.7亿个工作岗位,同时导致8500万个岗位流失,但在政治和AI领域,十二个月的间隔期都很漫长,而美国激进新政府第一年的许多事件,以及2025年全年的行业和投资发展,都可能使这一乐观前景降温。至关重要的是,一如既往,我们必须考虑是谁委托制作了这些数据和报告,以及他们在多大程度上可能受到行业或政治压力,从而围绕AI对社会的影响塑造有利的观点。但对全球工人的主要安慰点,仍然是AI系统极易出错的特性,它们倾向于产生幻觉,并且随着被赋予更广的范围和更大的权力,它们有能力引发更多的负面头条新闻。然而,AI已被证明擅长处理“较简单”的任务和工作,目前已在现实中造成岗位流失,并显著威胁到科技相关行业的招聘文化。当范围狭窄时,AI已经能够取代工作岗位;即使它在就业食物链更高端的困难任务上遇到难以逾越的障碍,这次显然也不会退回到另一个AI寒冬。因此,有许多方法可以重新构建当前局势,并在2026年压制围绕AI的抗议,使得任何最终的异议都成为事后追加的附录。更广泛的行业是否能有远见和能力像好莱坞在2023/4年那样(除了VFX部门)预见并免疫AI的影响,仍有待观察。AI数据中心遭遇抨击即使在AI兴起之前,美国各州为新建数据中心达成的交易也常常遇到阻力,尤其是因为这些企业对本地员工的需求极低;它们对本地经济的益处通常不是明显的净收益;而且,吸引它们的业务通常涉及大幅度的税收减免,进一步削弱了任何明显的益处。但是,为建设和装备专注于AI的数据中心而展开的新一轮争夺——这已导致RAM严重短缺,并引发了对阻碍消费者用电(或大幅提高电价)的担忧——将这一问题显著提升到了邻避主义或传统的州内税收优惠战争之上。本月,超过200个环保组织敦促国会在美国实施全国性的新建数据中心暂停令,不仅引用了电力成本飙升的问题,还提到了在当前投资水平下工业化AI所带来的气候相关后果。在地方层面,即传统上数据中心抵制声音最响亮的地方,密歇根州的 activists 已集会呼吁在全州范围内暂停数据中心建设:为满足AI需求而预计建设的海量数据中心的潜在碳影响,从根本上重新定义了数据中心反对派和基层运动的性质与利害关系。在2026年,美国地方性和有组织的全国性反对似乎可能会加深,而2025年美国政府所采取的“不可抗力”策略可能会因中期选举的谨慎而有所缓和。因此,明年在州一级似乎很可能会提出某种更具外交手腕的安抚性举措。至于气候团体更广泛的游说,最近的趋势表明,现任政府能够安然度过此类担忧,并反驳其背后的主张。一如既往,在一个已经确立的话题上“开启对话”仍然是化解它的实用方法。数字反抗并非所有异议都需要抗议集会或纠察线,反AI情绪也在大学实验室、软件公司和GitHub等AI通常可能期待更热烈欢迎的地方显现出来。芝加哥大学的Glaze和Nightshade项目都执行数据投毒,目的分别是让视觉艺术家使其作品实际上“无法被训练”,以及通过投毒方法主动“攻击”机器学习系统:除了相对较新的基于扩散模型的对抗方式,反对AI面部识别的更早运动继续通过日益流行的对抗性服装进行创新:荷兰设计师Jip van Leeuwenstein设计了一款反乌托邦式的反AI面具,旨在从各个角度挫败识别系统,这个较早的项目最近在社交媒体渠道上获得了显著关注:最近,流行的Firefox分支Waterfox的创始人,针对Mozilla基金会对Firefox中集成AI的新热情,表示Mozilla正在“犯一个根本性错误”,并且Waterfox将抵制AI。这一声明紧随Vivaldi浏览器夏季发布的类似意向声明(“保持浏览人性化”)之后。AI驱动的浏览器在2025年以各种形式出现,最著名的是OpenAI的ChatGPT Atlas,尽管该公司承认AI浏览器可能永远无法确保安全——这一立场在最近的事件中得到了充分说明:谷歌的代理AI Antigravity,一款可以(可选)访问你文件系统的浏览器,因误解用户指令而删除了一个开发者的整个硬盘。作为一个社区,对新的AI功能不那么热衷的Firefox用户对此事相当直言不讳,其中一些人开发了各种反AI的Firefox附加组件,包括Block AI、Disable AI、AI Blocker和AI Content Shield等。至于2026年基层抵抗AI的前景,似乎有理由预期,AI在软件系统、监控文化和大众文化中被感知到的“越界”行为,很可能会引发相应规模的反击——并且越来越多的公司会认为,反AI人群的潜在利润可能高于因FOMO而随大流地利用AI。一些早期投身反AI事业的老牌组织仍在运作,包括反对与AI崛起相关的“非人化”的Stop Killer Robots联盟,以及由寻求减缓AI扩散的非政府组织协调的全球性政治运动PauseAI。该社区将自己定义为“热爱科技”但“悲哀地意识到”AI代表生存风险的“科技爱好者”。类似的运动包括StopAI和ControlAI,后者在其公开声明中宣称获得了19万个公开签名,并且——有趣的是——还有相当数量的英国政界人士支持。洪堡基金会今年5月的一份详尽报告首次详细研究了反AI团体的兴起,并得出结论:“我们的研究表明,AI——毫不意外地——代表了一次重大的技术经济范式转变,并引发了深刻的、多方面的抵制,这种抵制根植于根深蒂固的社会经济、伦理、环境、法律和政治思想与[关切]中。这种抵制并非对‘进步’的彻底拒绝,而是代表了塑造这项技术未来的努力,使其与包括人类尊严在内的既定人类价值观保持一致。”结论:AI如同石棉任何即使偶尔接触社交媒体的人,都可能遇到过禁止AI内容的Facebook群组、subReddits或其他社区。在AI当前演化的早期,此类群体通常是直接受AI应用影响的群体,例如自由撰稿人和艺术家;然而现在,此类警告更频繁地出现在更普通的群组中——通常是受到“AI垃圾内容”不受欢迎入侵影响的社区。在这方面,一种两极分化正在显现,表现为对AI参与任何程度的不容忍,这在各在线论坛更新的规则中可见一斑——仿佛生成式内容是镭、石棉,或是利用纳粹研究的医学创新。理论上,对AI最大的抵制将是不购买AI产品,并抵制已知“含有AI”的产品。然而,正如我们部分所见,AI正越来越多地在未经协商的情况下被捆绑进产品和服务中,就像加氟一样,使得在许多领域实际上无法避免AI输出。基层反抗的范围可能有限,因为这场特定的AI革命首先是一场B2B事务。AI产品市场的兴衰并非旨在基于直接的消费者需求,而是让机器学习系统渗透并饱和基础设施,从而使最终用户默认参与其中。因此,基层进步和全球反AI运动能够在多大程度上影响AI看似不可阻挡的崛起,可能取决于它们能在多大程度上影响选举,以及足够多的商业实体和政治人物在多大程度上感知到公众舆论可能已不可逆转地转向反对这股新的文化力量。 首次发布时间:2025年12月24日,星期三


伦理声明和高斯泼溅技术式微,而提交论文的庞大体量本身成为AI在2026年需要应对的新问题。 观点 我关注arXiv及相关平台的计算机视觉与图像合成研究大约已有七年,跨越多个渠道——时间足够长,足以辨别反复出现的模式和趋势转变。但这些观察是轶事性质的。老实说,我希望能有时间,仅利用Arxiv出版物这一不断增长的海量数据语料库,通过机器学习分析来挖掘其中蕴含的深刻洞见。就目前而言,我只能更随意地汇报一下自我上次考虑此事以来引起我注意的情况。体量爆表我在2024年观察到的许多AI研究论文提交趋势,在2025年已固化为常态;其中最重要的莫过于AI相关论文数量的持续无情增长,而这增长本身也由AI驱动,以至于达到了一种公认的危机程度:这种增长速度在几年前就被描述为AI论文提交量的指数级翻倍,而随着近期AI投资狂热的到来抬高了赌注以及可用于AI相关研究的资金量,这一趋势只是变得更加根深蒂固。2025年的完整统计数据尚未公布,上面显示的汇总统计数据代表了所有类别普遍增长的数字。下面我们可以看到,计算机科学继续主导着这一趋势,显著高于其他稳定类别:去芜存菁在十月,秋季会议季的开始通常带来大量新研究,但今年却带来了拒绝服务攻击级别的提交量,这为迄今为止关注度不足的研究方向——研究趋势分析——增添了额外的动力和紧迫性;换句话说,旨在应对研究领域日益恶化的信噪比的论文和代码库正越来越多地出现。最新的一例就在上周出现,即NoveltyRank,它是一篇论文和一个GitHub代码库,对诸如Qwen3-4B-Instruct-2507和SciBERT等大语言模型进行微调,使其能够对提交的论文进行二元分类(根据先前提交预测“新颖性”),或进行成对新颖性比较(比较当前提交的“新颖性”):此类“筛选”方法的问题在于定义有意义的变量的挑战。NoveltyRank方法使用论文被会议接受作为新颖性的指标,并且——或许相当轻蔑地——使用Arxiv发表作为负面新颖性的背景指标。这预设了两个错误的前提:首先,所有被会议接受的提交都具有新颖性或重要性,这显然并非事实;其次,新颖性本身具有无条件的价值。任何曾浪费半小时阅读某些或许仅为维持“不发表就出局”配额而提交的似是而非、甚至荒谬论文的人都会知道,新颖性常常是微不足道的,而渐进性的工作往往意义重大。理解一篇新论文的价值涉及AI目前非常薄弱的一个领域——长期上下文。由于论文写作常常不够坦诚,那些看似突破性的论文往往最终被揭示为对现有工作的微小改进;然而,自动化系统必须对此类情况发展出一种“直觉”,既不能标记过多的误报,也不能依赖提交作者的诚实。伦理声明骤减正如我之前观察到的,像Arxiv这样的门户网站对自由放任的抓取相当抵制,它们提供的数据转储通常缺乏细节粒度。因此,即使我有资源和时间从具有足够代表性的计算机科学论文样本中下载并提取特征,许多更微妙的趋势可能也未被瞄准或分析。其中之一是伦理声明附录的存在与否;这曾是涉及动物实验的生物科学必须包含的内容,而在2024年,在计算机科学类别提交论文的末尾对拟议工作进行伦理描述的趋势达到了顶峰。根据轶事观察,我认为这一做法在2025年全年已急剧减少。我猜测,当前美国政府针对AI发展的狂热放松管制努力,给了美国国内外的研究界某种更大的自由度,以及免受法律追究的隐性保护感。尽管现任美国政府支持反深度伪造监管,但它实际上已恢复了2021-23年时代特征的许多“狂野西部”立场——即使定义那个时代的纯粹科学研究背景,如今也已演变为狂热甚至历史级别的投资水平。生成式视频论文沦为“AI糟粕”随着去年冬天Hunyuan Video和WAN生成式视频系列的推出,AI视频在2025年已彻底改变。诸如制作完整身体化身的困难,或获得令人信服的人物侧面视图等旧障碍,似乎在一夜之间被扫除。中国此类包含权重的慷慨发布,可以说为今年的生成式视频发布定下了节奏,并且至少对西方AI视频架构倾向于受到更严格审查、预先商业化和规定化的趋势形成了一种制衡压力。在这个由CCCP引领的、颇具讽刺意味的民主化场景中,护城河的缺失导致成百上千家公司试图通过提供用户友好的门户网站来开拓新兴的推理市场,参与者多种多样,从civit.ai到RunPod,都在从那些在许多情况下可以在家用计算机上运行的程序和技术中获利。总的来说,这些举措是短期的现金掠夺,预期最终会被市场整合所取代(不过,毫无疑问,如果发生这种情况,它们的创始人也不会反对意外获得主导市场份额)。同样的平庸和复制现象也冲击了2025年Arxiv提交中的生成式视频领域。正如我上周观察到的,该类别的信噪比已达到令人麻木的峰值,因为研究人员公开争夺今年突破无疑释放出的海量潜在资金。话虽如此,此类提交的绝大多数充其量只是渐进式的改进。生成式AI中剩余的核心问题今年并未大量浮现:需要在整个角色描绘过程中保持身份,LoRA风格;需要更长的输出视频运行时间,并保持整体一致性(即环境和主题等,不仅仅是身份);以及需要在生成式视频和视频编辑架构中改进音频生成和操作;等等。网格热消退我去年观察到,该领域推广利用传统CGI(即可以追溯到1970年代的基于网格的表示)或将其融入神经框架的系统的论文显著增加。我观察到,在2025年,特别是下半年,基于网格解决方案的动力已显著减弱。早期那波论文中许多融合CGI的解决方案,尤其是那些处理参数化人类“控制”模型(如3D可变形模型)的,可能已被基于扩散的生成框架(如Veo、Kling、Hunyuan和WAN等)的新能力所取代。与此同时,涉及高斯泼溅方法的论文显然也受到了发展停滞的影响,或者被2025年基于扩散的生成式AI系统所掩盖;或两者兼而有之。一年前我注意到,GSplat在2023年末引起显著关注的初期兴奋,已消退为更狭窄的研究路线。今年,我看到一系列论文旨在解决该方法显著的资源需求等问题。尽管我会将高斯泼溅描述为“目前停滞”,但我们应该记住,这项技术可以追溯到1990年代初,并且本质上是周期性复兴的。从基于网格方法普遍退潮中的一个例外是,将AI融入面向3D打印的框架的兴趣明显增加。AI安全类提交减少我对2025年的最后观察是,Arxiv计算机科学部分的“安全”提交类别在2025年表现出频率和质量的显著下降,其原因不易猜测。密码学与安全档案库可以说一直是发布论文的二流场所,因为这一研究方向不出所料地由私营部门的专有知识产权主导——其中很少出现在学术期刊上,几乎不会出现在Arxiv这样的免费平台上。此外,Arxiv上此类别的提交具有高于平均水平的“陷阱”——即轻描淡写的承认,常常埋在意想不到的地方,从而否定或削弱了论文的明显价值和新颖性。一个例子是,一种看似耸人听闻的安全入侵方法,实际上依赖于某些“白盒”方面——即对数据或程序的某种特权访问,这是攻击者不太可能获得的。2026年展望尽管媒体不断 渲染生成式AI热潮是21世纪初互联网泡沫破灭的重演(也有一些不同意见),但这实际上似乎代表了一种虚假的安全感。在基础设施、投资、文化和研究方面,人类历史上可以说从未有过这样的时期。因此,很难看出2026年研究领域将走向何方,除了——像往常一样——一些长期努力将在现在到四月之间达到高潮,并带有2025年某些痴迷和趋势的特定“印记”。可能有助于缓解Arxiv和其他门户网站提交量危机的一个进展是,对AI生成/辅助论文的禁令或检查,正如Arxiv最近对综述论文实施的那样——然而,量化AI在任何一篇论文中的参与程度可能很困难,因为AI已经渗透到研究文化(以及同行评审)中,就像它侵入其他领域一样——如同一滴“墨水”影响了整杯(现有的)水,而非从根本上改变了介质。 首次发布于2025年12月22日,星期一


AI视频生成器通常能给出接近用户文本提示要求的结果,但总是差那么一点火候。然而,一项新的高级修复方法带来了天壤之别。 生成式视频系统通常难以制作出真正具有创意或天马行空的视频,并且常常无法满足用户文本提示的期望。造成这种情况的部分原因是纠缠问题——视觉/语言模型必须在源数据的训练时长上做出妥协。训练太少,概念灵活但未完全成型;训练太多,概念准确但灵活性不足,难以融入新颖的组合。您可以从下面嵌入的视频中理解这个观点。左侧是许多AI系统在响应一个要求苛刻的提示(所有四个示例的提示都在视频顶部)时给出的那种折中方案,该提示要求一些过于奇幻、不可能成为真实训练样本的元素并置。右侧则是更贴合提示的AI输出:点击播放(无音频)。右侧我们看到“因子化”的WAN 2.2真正实现了提示要求,相比之下,左侧是“原始”Wan 2.2的模糊解读。请参考源视频文件以获得更好的分辨率和更多示例,尽管此处展示的精选版本在项目网站上不存在,是为本文组装的。来源好吧,尽管我们得原谅那只鼓掌鸭子的手(!),但很明显,右侧的示例比左侧的示例更贴合原始文本提示。有趣的是,所展示的两种架构本质上是相同的架构——流行且能力强大的Wan 2.2,这是一个今年在开源和爱好者社区中取得显著进展的中国发布版本。区别在于第二个生成流程是因子化的,这在此处意味着使用了一个大型语言模型来重新解释视频的第一帧(种子帧),从而使系统更容易交付用户所要求的内容。这种“视觉锚定”涉及将根据这个LLM增强的提示制作的图像作为“起始帧”注入到生成流程中,并使用一个LoRA解释模型来帮助将“闯入”的帧整合到视频创建过程中。就提示保真度而言,结果相当显著,特别是对于一个看起来相当优雅的解决方案:点击播放(无音频)。进一步展示“因子化”视频生成如何真正遵循脚本的示例。请参考源视频文件以获得更好的分辨率和更多示例,尽管此处展示的精选版本在项目网站上不存在,是为本文组装的。这个解决方案以新论文《因子化视频生成:在文本到视频扩散模型中解耦场景构建与时间合成》及其附带大量视频的项目网站的形式呈现。虽然当前许多系统试图通过使用语言模型重写模糊或未充分指定的文本来提高提示准确性,但这项新研究认为,当模型的内部场景表征存在缺陷时,这种策略仍然会导致失败。即使有详细的重写提示,文本到视频模型也常常错误组合关键元素或生成不兼容的初始状态,从而破坏动画的逻辑。只要第一帧未能反映提示所描述的内容,无论运动模型有多好,生成的视频都无法挽回。论文指出*:“(文本到视频)模型经常产生分布偏移的帧,但(评估分数)仍与I2V模型相当,这表明即使场景保真度相对较差,它们的运动建模仍然相当自然。“(图像到视频)模型表现出互补的行为,即从准确的初始场景中获得较强的(评估分数)和较弱的时间连贯性,而I2V+文本则平衡了这两个方面。”“这种对比揭示了当前T2V模型中的结构不匹配:场景基础和时间合成受益于不同的归纳偏置,而现有架构试图在单个模型中同时学习两者。”对不同生成模式的诊断比较发现,没有显式场景锚定的模型在运动方面得分高,但常常在场景布局上妥协;而图像条件化方法则表现出相反的模式:这些发现指向一个结构缺陷:当前模型试图一次性学习场景布局和动画,尽管这两项任务需要不同种类的归纳偏置,并且分开处理效果更好。也许最令人感兴趣的是,这个“技巧”有可能应用于本地安装的模型,如Wan 2.1和2.2,以及类似的视频扩散模型,如Hunyuan Video。据观察,将爱好者输出质量与Kling和Runway等商业生成门户进行比较,大多数主要API提供商都在通过LoRAs以及——似乎——新论文中展示的这类技巧来改进WAN等开源产品。因此,这种特定方法可能代表了FOSS阵营的追赶。为该方法的测试表明,这种简单且模块化的方法在T2V-CompBench基准测试上提供了新的最先进水平,显著改进了所有测试模型。作者在结论中指出,虽然他们的系统极大地提高了保真度,但并未解决(也并非旨在解决)身份漂移问题,这目前是生成式AI研究的痛点。这篇新论文来自瑞士洛桑联邦理工学院的四位研究人员。方法与数据这项新技术的核心主张是,文本到视频扩散模型需要“锚定”到真正符合所需文本提示的起始帧。为确保模型尊重起始帧,新方法通过在第零个时间步注入来自锚点图像的干净潜在表示来干扰标准扩散过程,替换掉通常的噪声输入之一。这种陌生的输入起初会让模型感到困惑,但通过最少的LoRA微调,它会学会将注入的帧视为固定的视觉锚点,而不是噪声轨迹的一部分:在推理时,该方法重写提示以仅描述第一帧,使用LLM提取一个专注于布局和外观的合理初始场景状态。这个重写的提示被传递给图像生成器以产生候选锚点帧(用户可以选择性地优化)。选定的帧被编码成潜在表示,并通过替换第一个时间步注入扩散过程,使模型能够生成视频的其余部分,同时保持锚定在初始场景上——这个过程无需改变底层架构即可工作。该过程通过为Wan2.2-14B、Wan2.1-1B和CogVideo1.5-5B创建LoRA进行了测试。LoRA训练在秩为256的情况下进行,使用了来自UltraVideo集合的5000个随机采样片段。训练持续了6000步,Wan-1B和CogVideo-5B需要48 GPU小时†,Wan-14B需要96 GPU小时。作者指出,Wan-5B原生支持纯文本和文本-图像条件化(在这种情况下被强加到旧框架上),因此不需要任何微调。测试在该过程的实验中,每个文本提示最初都使用Qwen2.5-7B-Instruct进行精炼,该模型使用结果生成包含整个场景描述的详细“种子图像”描述。然后将其传递给QwenImage,其任务是生成要插入扩散过程的“魔法帧”。用于评估系统的基准测试包括前面提到的T2V-CompBench,用于通过评分模型在连贯场景中保留对象、属性和动作的程度来测试组合理解能力;以及VBench 2.0,用于在18个指标上评估更广泛的推理和一致性,这些指标分为创意性、常识推理、可控性、人类保真度和物理性:关于这轮初步测试,作者指出*:“(在所有模型中),添加锚点图像始终能提高组合性能。所有较小的因子化模型(CogVideo 5B、Wan 5B和Wan 1B)都优于较大的Wan 14B T2V模型。“我们的因子化Wan 5B也优于商业的PixVerse-V3基线,后者是该基准测试中报告的最佳模型。这表明,即使在容量较小的模型中,视觉基础化也能显著增强场景和动作理解。“在每个模型系列中,因子化版本都优于原始模型。值得注意的是,我们在WAN 14B上轻量级的锚点基础化LoRA达到了与其预训练的I2V 14B变体相当的性能(0.661 vs. 0.666),尽管不需要完全重新训练。”接下来是VBench2.0轮次:在所有架构中,因子化方法提升了除人类保真度外的每个VBench类别的分数,即使进行了提示上采样,人类保真度也略有下降。WAN 5B的表现优于更大的WAN 14B,这强化了早先T2V-CompBench的结果,即视觉基础化的贡献大于规模。虽然VBench上的提升是持续的,但小于T2V-CompBench上的提升,作者将此归因于VBench更严格的二元评分机制。对于定性测试,论文提供了静态图像,但我们建议读者参考本文中嵌入的合成视频以获得更清晰的概念,但需注意源视频数量更多、种类更丰富,并且具有更高的分辨率和细节。请在此处查找。关于定性结果,论文指出:“锚定视频始终展现出更准确的场景组合、更强的对象-属性绑定以及更清晰的时间进展。”即使将扩散步数从50步减少到15步,因子化方法仍然保持稳定,在T2V-CompBench上几乎没有性能损失。相比之下,纯文本和上采样基线在相同条件下都急剧退化。尽管减少步数理论上可以将速度提高三倍,但由于锚点图像生成的固定成本,完整的生成流程在实际中只变得快了2.1倍。尽管如此,结果表明锚定不仅提高了样本质量,还有助于稳定扩散过程,支持更快、更高效的生成,且不损失准确性。项目网站提供了上采样方法与新方法生成的示例,我们在此提供一些(较低分辨率的)编辑示例:点击播放(无音频)。上采样的起始源与作者的因子化方法对比。作者总结道:“我们的结果表明,改进基础化可能与增加容量同等重要。T2V扩散的最新进展严重依赖于增加模型大小和训练数据,但即使是大型模型也常常难以仅从文本推断出连贯的初始场景。“这与图像扩散形成对比,在图像扩散中,扩展相对直接;在视频模型中,每个架构改进都必须在一个额外的时间维度上运行,使得扩展在资源上更加密集。“我们的发现表明,改进的基础化可以通过解决一个不同的瓶颈来补充规模:在运动合成开始之前建立正确的场景。“通过将视频生成分解为场景组合和时间建模,我们减轻了几种常见的失败模式,而不需要显著更大的模型。我们将其视为一种互补的设计原则,可以指导未来的架构走向更可靠和结构化的视频合成。”结论尽管纠缠问题确实存在,并且可能需要专门的解决方案(例如改进训练前的数据筛选和分布评估),但观察因子化如何仅通过适度的LoRA条件化层和一个显著改进的起始/种子图像的干预,就将几个顽固且“卡住”的概念提示编排“解粘”成更准确的渲染,确实令人大开眼界。考虑到几乎所有提供商都在寻求将其可观的GPU资源支出合理化给消费者,本地爱好者推理与商业解决方案之间的资源鸿沟可能并不像想象的那么巨大。据观察,当前一大批生成式视频提供商似乎都在使用品牌化且普遍“增强”过的中国FOSS模型版本。这些“中间商”系统似乎拥有的主要“护城河”是,它们不厌其烦地训练了LoRAs,或者——以更高的成本和略高的回报——实际对模型权重进行了完整的微调††。这类见解可能有助于进一步缩小差距,尤其是在中国似乎决心(不一定是出于利他或理想主义的原因)民主化生成式AI的发布背景下,而西方的商业利益或许更倾向于通过增加模型规模和法规,最终将任何真正优秀的模型隔离在API和多层内容过滤器之后。 * 作者的强调,非本人所加。† 论文未指定选择了哪种GPU或使用了多少GPU。†† 尽管LoRA路线更有可能,无论是出于经济易用性,还是因为完整权重(而非量化权重)并非总是可用。首次发布于2025年12月19日,星期五


一种新的AI框架可以在不重新拍摄的情况下,通过单一的端到端系统,重写、删除或添加人物在视频中的话语。 三年前,每周在学术门户网站上发布的20-30个AI视频修改框架中的任何一个都会让互联网震惊;然而,如今这一热门研究方向已变得如此多产,几乎构成了另一个“AI垃圾”分支,因此我报道此类发布的频率远低于两三年前。不过,当前这一领域的一个新发布引起了我的注意:一个集成系统,可以干预真实的视频片段,并在现有视频中插入新的语音(而不是更常见的从人脸或帧生成整个生成式片段)。在下面的示例中(我根据发布者项目网站上的众多样本视频剪辑而成),我们首先看到真实的源片段,然后在其下方看到在片段中间插入的AI语音,包括语音合成和唇形同步:点击播放。 局部编辑与拼接——FacEDiT提供的几种模式之一。请参考源网站以获得更高分辨率。 来源 – https://facedit.github.io/这种方法是新方法开发的三种模式之一,名为“局部编辑与拼接”,也是作者(以及我自己)最感兴趣的一种。本质上,该片段通过使用中间帧之一作为新AI解释的起点,并将其后续的(真实)帧作为生成插入片段应努力匹配的目标来扩展。在上面看到的片段中,这些“种子”帧和“目标”帧表现为最上方的视频暂停,而下方修改后的视频提供生成式填充。作者将这种面部和语音合成方法定位为第一种完全集成的端到端方法,用于此类AI视频编辑,并指出了像这样完全开发的框架在电视和电影制作中的潜力:“电影制作人和媒体制作人经常需要修改录制视频的特定部分——可能是一个词说错了,或者剧本在拍摄后发生了变化。例如,在《泰坦尼克号》(1997)的标志性场景中,罗斯说‘我永远不会放手,杰克。’导演后来可能决定应该是‘我永远不会忘记你,杰克。’”“传统上,此类更改需要重新拍摄整个场景,这既昂贵又耗时。说话人脸合成通过自动修改面部运动以匹配修改后的语音,提供了一种实用的替代方案,消除了重新拍摄的需要。”尽管此类AI介入可能面临文化或行业阻力,但它们也可能构成人类主导的VFX系统和工具套件中的一种新型功能。无论如何,就目前而言,挑战纯粹是技术性的。除了通过额外的AI生成对话来扩展片段外,新系统还可以改变现有的语音:点击播放。 一个改变现有对话而非插入额外对话的示例。请参考源网站以获得更高分辨率。技术现状目前没有端到端系统提供这种合成能力;尽管越来越多的生成式AI平台,如Google的Veo系列,可以生成音频,其他各种框架也可以创建深度伪造音频,但目前必须创建一个相当复杂的、由不同架构和技巧组成的流程,才能以新系统——名为FacEDiT——所能实现的方式干扰真实素材。该系统使用扩散变换器(DiT)结合流匹配,根据周围(上下文)运动和语音音频内容创建面部运动。该系统利用了处理面部重建的现有流行软件包,包括LivePortrait(最近被Kling收购)。除此之外,鉴于他们的方法是第一个将这些挑战集成到单一解决方案中的,作者创建了一个名为FacEDiTBench的新颖基准,以及几个专门针对这一非常具体任务的全新评估指标。这项新工作名为FacEDiT: Unified Talking Face Editing and Generation via Facial Motion Infilling,来自韩国浦项科技大学(POSTECH)、韩国科学技术院(KAIST)和美国德克萨斯大学奥斯汀分校的四位研究人员。方法FacEDiT通过学习如何根据周围运动和语音音频来填充演员原始表演的缺失部分,从而训练用于重建面部运动。如下面的示意图所示,这个过程使模型在训练期间充当间隙填充器,预测与语音匹配同时与原始视频保持一致的面部运动:在推理时,相同的架构支持两种不同的输出,具体取决于视频被掩码的程度:部分编辑,即仅改变一个短语,其余部分保持不变;或全句生成,即从头开始完全合成新的运动。该模型通过流匹配进行训练,将视频编辑视为面部运动两个版本之间的一种路径。流匹配不是学习从头开始猜测编辑后的脸应该是什么样子,而是学习在嘈杂的占位符和正确运动之间逐渐平滑地移动。为了促进这一点,系统使用上述LivePortrait系统的一个版本(见上图示意图)从每帧中提取一组紧凑的数字来表示面部运动。这些运动向量旨在描述表情和头部姿势,而不纠缠身份,以便语音更改可以本地化,而不影响人物的整体外观。FacEDiT训练为了训练FacEDiT,每个视频片段被分解为一系列面部运动快照,每帧与相应的音频块配对。然后随机隐藏运动数据的某些部分,并要求模型根据语音和周围未掩码的运动上下文,猜测那些缺失的运动应该是什么样子。由于掩码跨度和它们的位置在训练样本之间各不相同,模型逐渐学会如何处理小的内部编辑和较长的间隙,以进行全序列生成,具体取决于它获得的信息量。该系统前述的扩散变换器通过学习随时间细化噪声输入来恢复掩码运动。语音和运动不是一次性全部输入模型,而是通过交叉注意力将音频线程化到每个处理块中,帮助系统更精确地将唇部运动与音频语音匹配。为了在编辑过程中保持真实感,注意力偏向于相邻帧而非整个时间线,迫使模型专注于局部连续性,并防止在修改区域边缘出现闪烁或运动跳跃。位置嵌入(告诉模型每帧在序列中出现的位置)进一步帮助模型保持自然的时间流和上下文。在训练期间,系统学习基于语音和附近未掩码的运动来重建掩码跨度,从而预测缺失的面部运动。在推理时,重用相同的设置,但掩码现在由语音中的编辑引导。当插入、删除或更改一个词或短语时,系统定位受影响的区域,将其掩码,并生成与新音频匹配的运动。全序列生成被视为一种特殊情况,即整个区域被掩码并从头合成。数据与测试该系统的骨干由22层扩散变换器组成,每层有16个注意力头,前馈维度为1024和2024像素。运动和外观特征使用冻结的LivePortrait组件提取,语音通过WavLM编码,并使用VoiceCraft修改。一个专用的投影层将786维的语音特征映射到DiT的潜在空间,只有DiT和投影模块是从头开始训练的。训练在AdamW优化器下进行,目标学习率为1e-4,进行了一百万步,使用两块A6000 GPU(每块48GB VRAM),总批次大小为8。FacEDiTBenchFacEDiTBench数据集包含250个示例,每个示例包含原始和编辑后语音的视频片段,以及两者的转录文本。视频来自三个来源,其中100个片段来自HDTF,100个来自Hallo3,50个来自CelebV-Dub。每个都经过手动检查,以确认音频和视频都足够清晰以供评估。使用GPT‑4o修改每个转录文本以创建语法有效的编辑。这些修改后的转录文本与原始语音一起传递给VoiceCraft以生成新音频;在每个阶段,转录文本和生成的语音都经过人工质量审查。每个样本都标有编辑类型、更改时间点和修改跨度长度,编辑分类为插入、删除或替换。更改的单词数范围从1到3个单词的短编辑,4到6个单词的中等编辑,到7到10个单词的长编辑。定义了三个自定义指标来评估编辑质量。光度连续性,通过比较边界处的像素级差异,衡量编辑片段的光照和颜色与周围视频的融合程度;运动连续性,通过测量编辑和未编辑帧之间的光流变化,评估面部运动的一致性;以及身份保持,通过使用ArcFace人脸识别模型比较原始序列和生成序列的面部嵌入,估计编辑后主体的外观是否保持一致。测试测试模型使用上述三个数据集的材料进行训练,总计约200小时的视频内容,包括视频博客、电影以及高分辨率的YouTube视频。为了评估说话人脸编辑,使用了FacEDiTBench,以及HDTF测试分割,后者已成为此类任务基准测试的标准。由于没有直接可比的系统能够封装这种端到端功能,作者选择了各种至少能重现部分目标功能、并可作为基线的框架;即KeyFace;EchoMimic;EchoMimicV2;Hallo;Hallo2;Hallo3;V-Express;AniPortrait;和SadTalker。还使用了几种既定指标来评估生成和编辑质量,唇形同步准确性通过SyncNet评估,报告唇部运动与音频之间的绝对误差(LSE-D)和置信度分数(LSE-C);Fréchet视频距离(FVD)量化视频整体看起来有多真实;以及学习感知相似性度量(LPIPS),测量生成帧与原始帧之间的感知相似性。对于编辑,除LPIPS外的所有指标仅应用于修改后的片段;对于生成,评估整个视频,边界连续性被排除。每个模型都被要求合成一个匹配的视频片段,然后将其拼接到原始剪辑中(研究人员指出,这种方法经常在编辑部分与周围素材相接处引入可见的不连续性)。还测试了第二种方法,即从修改后的音频重新生成整个视频——但这不可避免地覆盖了未编辑的区域,并且未能保留原始表演:关于这些结果,作者评论道:“(我们的)模型在编辑任务上显著优于现有方法。它实现了强大的边界连续性和高身份保持,展示了其在编辑过程中保持时间和视觉一致性的能力。此外,其卓越的唇形同步准确性和低FVD反映了合成视频的真实感。”点击播放。 结果,由本作者根据支持项目网站上发布的视频汇编而成。请参考源网站以获得更高分辨率。此外,还进行了一项人类研究,以评估编辑和生成两方面的感知质量。对于每次比较,参与者观看六个视频,并根据整体质量对它们进行排名,考虑唇形同步准确性、自然度和头部运动的真实感。在编辑试验中,参与者还评估了编辑和未编辑片段之间过渡的平滑度:在研究中,FacEDiT在编辑质量和过渡无缝性方面均以明显优势持续排名最高,在生成设置中也获得了高分,这表明其测量优势转化为了感知上更受偏爱的输出。由于篇幅有限,我们请读者参考源论文以获取消融研究的进一步细节,以及在新工作中运行和报告的其他测试。事实上,此类原型研究产品很难生成有意义的测试结果部分,因为核心产品本身不可避免地会成为后续工作的潜在基线。结论即使是推理,像这样的系统也可能在推理时需要大量的计算资源,这使得下游用户——这里大概是VFX工作室——难以在本地进行工作。因此,能够适应现实本地资源的方法将始终受到供应商的青睐,这些供应商有法律义务保护客户的素材和一般知识产权。这并不是批评这项新成果,它很可能在量化权重或其他优化下完美运行,并且是同类产品中第一个在相当长一段时间内吸引我回到这一研究方向的。 首次发布于202年12月17日星期三。同一天EET时间20:10编辑,为正文第一段增加额外空间。


当前的人工智能模型无法识别“关系”图像相似性,例如地球的层次与桃子相似,缺失了人类感知图像的一个关键方面。 尽管有许多计算机视觉模型能够比较图像并找到它们之间的相似性,但当前一代的比较系统几乎没有或根本没有想象力。考虑一下1960年代经典歌曲Windmills of Your Mind中的一些歌词:像旋转木马在转动,绕着月亮转圈 像时钟的指针扫过表盘的分钟 而世界就像一个在太空中静静旋转的苹果这种比较代表了一种诗意的暗示领域,对人类来说意义远超艺术表达;相反,它与我们如何发展感知系统密切相关;当我们创造我们的“对象”领域时,我们发展了一种视觉相似性能力,因此——例如——描绘桃子和地球的横截面,或如咖啡螺旋和星系分支的分形递归,在我们看来是类比的。通过这种方式,我们可以推断出表面上不相关的对象和对象类型之间的联系,并推断出系统(如重力、动量和表面粘合)可以适用于各种领域和各种尺度。看见事物即使是最新一代的图像比较AI系统,如学习感知图像补丁相似性(LPIPS)和DINO,这些系统通过人类反馈获得信息,也仅进行字面上的表面比较。它们的能力在不存在面孔的地方找到面孔——即空想性错觉——并不代表人类发展出的那种视觉相似性机制,而是因为寻找面孔的算法利用低级面部结构特征,这些特征有时与随机对象一致:为了确定机器是否真的可以发展我们的想象力来跨领域识别视觉相似性,美国的研究人员进行了研究,围绕关系视觉相似性,策划并训练了一个新数据集,旨在迫使不同对象之间形成抽象关系,这些对象尽管如此仍由抽象关系连接:为数据集开发的字幕系统促进了异常抽象的注释,旨在迫使AI系统关注基本特征而不是特定的局部细节:策划的集合及其不寻常的字幕风格推动了作者的新提议指标relsim,作者已将其微调为视觉语言模型(VLM)。新方法借鉴了认知科学的方法,特别是Dedre Gentner的结构映射理论(类比研究)和Amos Tversky的关系相似性和属性相似性定义。作者声明:‘[人类]通过感知处理属性相似性,但关系相似性需要概念抽象,通常由语言或先验知识支持。这表明识别关系相似性首先需要理解图像,利用知识,并抽象其基本结构。’新论文题为关系视觉相似性,并附有项目网站(请参阅本文末尾嵌入的视频)。方法研究人员使用了最著名的超大规模数据集之一作为其集合的起点——LAION-2B:从LAION-2B中提取了可能包含弹性关系结构的114,000张图像,涉及过滤大量存在于最小策划数据集中的低质量图像。为了创建此选择过程的管道,作者利用了Qwen2.5-VL-7B,利用了1,300个正面和11,000个负面的人类标记示例:论文指出:‘注释者被指示:“您能在此图像中看到任何关系模式、逻辑或结构,这可能对创建或链接到另一个图像有用吗?”微调模型与人类判断达成93%的一致性,当应用于LAION-2B时,识别出N = 114k张图像为关系上有趣的。’为了生成关系标签,研究人员提示Qwen模型描述图像集背后的共享逻辑,而不命名特定对象。当模型仅看到一张图像时,这种抽象很难获得,但当多个示例展示基本模式时,这变得可行。生成的组级字幕用占位符如‘{Subject}’或‘{Type of Motion}’替换特定术语,使其具有广泛的适用性。在人工验证后,每个字幕与其组中的所有图像配对。使用了500多个这样的组来训练模型,然后将其应用于114,000张过滤后的图像,以生成一大批抽象的、关系上注释的样本。数据和测试在使用Qwen2.5-VL-7B提取关系特征后,模型在数据上使用LoRA进行了15,000步的微调,通过八个A100 GPU*。在文本方面,使用all-MiniLM-L6-v2从Sentence-Transformers库嵌入关系字幕。114,000张带字幕的图像数据集被分为100,000用于训练和14,000用于评估。为了测试系统,使用了检索设置:给定一个查询图像,模型必须从一个28,000项的池中找到表达相同关系思想的不同图像。检索池包括14,000个评估图像和14,000个来自LAION-2B的额外样本,从评估集中随机选择1,000个查询进行基准测试。为了评估检索质量,使用GPT-4o对每个查询和检索图像之间的关系相似性进行0到10的评分。还进行了单独的人类研究以评估用户偏好(见下文)。每个参与者被展示一个匿名的查询图像和两个候选图像,一个由提议的方法检索,另一个由基线检索。参与者被问及哪个图像与查询更具关系相似性,或者如果两者都同样接近。对于每个基线,创建了300个三元组,每个三元组由至少三个人评分,产生了大约900个响应。relsim方法与几种已建立的图像到图像相似性方法进行了比较,包括前述的LPIPS和DINO,以及dreamsim和CLIP-I。除了直接计算图像对之间相似性分数的基线,如LPIPS、DINO、dreamsim和CLIP-I,作者还测试了基于字幕的方法,其中Qwen用于为每个图像生成匿名或抽象字幕;然后这作为检索查询。评估了两种检索变体,使用CLIP基于文本到图像检索(CLIP-T)进行文本到图像检索,Qwen-T使用文本到文本检索。两个基于字幕的基线使用了原始的预训练Qwen模型,而不是在关系逻辑上微调的版本。这使作者能够隔离基于组的训练的效果,因为微调模型已暴露于图像集,而不是孤立的示例。现有指标和关系相似性作者最初测试了现有指标是否能够捕捉关系相似性:关于这些结果,作者指出**:‘[LPIPS],仅专注于感知相似性,得分最低(4.56)。[DINO]表现仅略好(5.14),可能是因为它仅在图像数据上以自监督方式训练。[CLIP-I]在基线中表现最强(5.91),可能是因为图像字幕中有时存在一些抽象。’‘然而,CLIP-I仍然表现不如我们的方法,因为获得更好的分数可能需要达到更高层次的抽象,例如那些在匿名字幕中的抽象。’在人类研究中,人类在所有基线中始终更喜欢relsim方法:作者指出:‘这非常令人鼓舞,因为它不仅表明我们的模型,relsim,能够成功检索关系相似的图像,而且再次确认人类确实感知到关系相似性——不仅仅是属性相似性!’为了探索关系和属性相似性如何互补,研究人员使用了一种联合可视化方法。一个单一的查询图像(‘一只狗拿着相机’)与3,000张随机图像进行了比较,并使用关系和属性模型计算相似性:结果揭示了不同类型相似性的聚类:一些图像在关系和视觉上都相似,如其他处于人类姿势的狗;其他图像共享关系逻辑但不共享外观,如不同动物模仿人类动作;其余则都不显示。这种分析表明,两种相似性类型具有不同的作用,并在结合时产生更丰富的结构。用例论文还探讨了一些关系相似性的可能最终用例,包括关系图像检索,这使得图像搜索更符合人类自身创造性看待世界的方式:另一个可能性是类比图像生成,这将允许使用关系结构而不是直接描述进行查询的合成。在当前一代最先进的文本到图像模型中获得的结果比较中,我们可以看到这种方法的结果可能更为多样化: 给定一个输入图像和一个关系提示,模型被要求生成一个表达相同基本概念的新图像。专有模型产生了更忠实的类比,保留了结构逻辑跨越形式的大变化,而开源模型倾向于回归为字面或风格匹配,未能转移更深层次的想法。输出与人类策划的类比进行了比较,后者体现了预期的转变。[/caption>结论生成AI系统似乎会通过将抽象表示纳入其概念化中而显著增强。就目前而言,要求基于概念的图像如“愤怒”或“快乐”往往返回以数据集中这些关联最流行或最多的图像为风格的图像;这是一种记忆而不是抽象。可以推测,如果这一原则可以应用于生成写作——特别是分析性、推测性或虚构性输出,可能会更有益。按下播放。 来源 * A100可以有40GB或80GB的VRAM;论文中未指定。** 作者的引用冗余且被排除。首次发表于2025年12月16日星期二


如果利用人工智能使其听起来更具原创性和理性,那么旨在影响公众舆论而非服务公众的、受议程驱动的观点工厂可能更难被发现。因此,在“粉红粘液检测”的竞赛中,保持领先地位的角逐正在进行。 过去二十年间,传统地方媒体机构因媒体趋势的演变以及——最近——美国政府政策而资金枯竭,这给地方新闻报道留下了一个真空,并已被党派组织利用人工智能来推动其议程所热切填补。为了将“党派”一词置于语境中(考虑到没有任何新闻机构完全没有某种政治倾向),我们指的是石油公司在遥远地点运营地方新闻网站,没有任何真正的地方资源,但负有维护公司公众声誉的职责;在选举前动员起来的、缺乏任何收入来源的、受政治动机驱动的新闻网站;以及同样在临近投票时间凭空出现的整个支持共和党的新闻网站网络。据2024年估计,人工智能驱动的粉红粘液新闻已最终在数量上超过了真正的新闻机构;当时,一项澳大利亚调查发现,41%的消费者更喜欢粉红粘液来源而非“真实”来源。可以说,这种隐蔽的竞选活动已经从一种单纯的黑暗艺术,演变为对民主(就受政治动机驱动的媒体而言)以及对公众在报道中合理公平标准信任的生存威胁。因此,区分粉红粘液出版商和广播机构与更传统媒体机构的特征性产出的方法,将至少有助于理解当前信息环境中的参与者和驱动力是谁。就目前而言,真实新闻机构的套路和模板非常容易模仿,而人工智能使得可扩展的发布成为当前且负担得起的现实,其使用的许多技巧与预算紧张的“旧媒体”出版商和广播机构正在采用的相同。信号与噪声美国的一项新研究通过调查大型语言模型日益增长的使用(旨在使粉红粘液网站听起来不那么通用和易于识别),以及创建一个旨在跟上粉红粘液(PS)产出不断变化的学习框架,来解决这个问题。这项名为Exposing Pink Slime Journalism: Linguistic Signatures and Robust Detection Against LLM-Generated Threats的新研究来自德克萨斯大学的五位研究人员。这项新研究调查了大规模生产的PS地方新闻文章与合法报道有何不同,重点关注它们对简短、重复结构和模板化措辞的依赖,且变化极小;作者指出,PS文章倾向于重复使用旨在操纵公众舆论的相同模板,内容中情感诉求最为突出:针对这些特征训练的传统检测模型对此类内容表现良好,但当文章使用人工智能聊天机器人重写以显得更自然或复杂时,这些模型就会失效。作者自己的测试表明,即使是大型语言模型引入的微小风格变化,也能使检测准确率降低高达40%。为了缓解这个问题,他们提出了一个持续学习框架,该框架在原始文章和人工智能重写的文章上逐步重新训练检测模型,以适应不断变化的语言模式。方法为了建立项目数据,作者使用了粉红粘液数据集,该数据集包含2021-2023年间1,093个媒体的790万篇文章,经过过滤后他们从中获得了9,472篇粉红粘液文章。他们还使用了包含标注假新闻的LIAR数据集,以及仅包含美国文章的NELA-GT-2021集合*。为了准备训练和测试集,作者首先使用t分布随机邻域嵌入(t-SNE)算法将文章嵌入降至二维。然后,他们应用基于密度的空间聚类应用与噪声(DBSCAN)数据聚类算法来隔离相似的粉红粘液文章聚类。每个聚类被视为一组相关报道,尽管已努力处理重复项,但其中许多报道仍遵循相同的模板。为了防止相似文章同时出现在训练集和测试集中,整个聚类被随机选择,其中80%用于训练,20%用于测试。由于合法新闻文章没有形成清晰的聚类,因此采用了随机分割。这个过程重复了三次,以确保一致性并减少抽样偏差。粉红粘液的特征在评论PS与常规新闻的区别特征时,研究人员断言,PS风格的地方新闻文章明显比合法报道更短、更简单,平均每篇文章少于九句话。根据论文,简单句比例较高以及对形容词的严重依赖是粉红粘液的进一步特征,并表明其偏爱重复性、情感化的语言。使用根类型-标记比率(RTTR)测量了词汇丰富度,发现PS文章中的词汇丰富度明显较低,并且独特名词短语也少得多。这些模式表明词汇量有限且风格公式化,与合法的地方新闻形成对比,后者以围绕助动词、代词和连词构建的复杂词性模式为特征。相反,虚假文章偏爱基本的名词-介词结构,频繁使用基于标点的三元组,表明其写作风格不那么正式,更加零散。测试为了检查基于语言和结构特征的不同类型新闻文章之间的关联,使用4.35亿参数的stella_en_400M_v5模型生成嵌入,并使用主成分分析(PCA)和t-SNE进行降维以实现可视化。当投影到二维空间时,虚假地方新闻文章形成了小而密集的聚类,每个聚类对应着范围狭窄的主题,如犯罪统计数据、股票更新或慈善捐赠:正如我们在上面的可视化图中在一定程度上所看到的,这种模式表明了一种僵化的、模板驱动的格式,文章之间差异极小。有趣的是,被标记为“假新闻”的文章与虚假地方内容不同,其分布更接近真实新闻,这表明大规模生产的地方虚假内容可能不仅仅是真实性较低,而且在形式和构成上也可能存在机械性的区别。相比之下,“合法”地方新闻形成的聚类更少且间距更广,这与更多样化的语言和主题相一致,而全国性新闻文章显示出更大的分散性,反映了更广泛的主题范围和更松散的一致性风格。检测研究人员评估了两种检测粉红粘液内容的主要方法:基于手工制作的语言特征的分类;以及基于Transformer的微调。对于手工制作的方法,强调结构特征而非语义特征,使用的特征包括:句子数量;词汇丰富度;句法深度;词性共现概率;依存标签共现概率;可读性;以及词性计数。在此特征集上测试了三种模型:XGBoost;随机森林;和支持向量机(SVM)——其中随机森林总体上显示出稍强的结果。XGBoost和随机森林都为句子数量和独特名词短语数量等特征赋予了较高的预测重要性。可读性和词汇丰富度度量也对分类有很强影响,尽管模型对这些特征的权重不同,XGBoost偏爱Flesch和RTTR,而随机森林则倾向于CTTR:正如在之前的特征比较(上图)中所见,粉红粘液文章偏爱耸人听闻而非细节描述,词汇丰富度较低,独特名词短语较少——这强化了此类内容高度模板化和重复性的结论。词性三元组模式证实,合法地方新闻倾向于使用结构更复杂的形式,涉及助动词、代词和连词,而粉红粘液则偏爱零散或极简的句法。这些模式表明,区分合成地方内容与真实新闻存在可靠的基础。第二轮测试涉及在完整文章文本上微调Transformer模型,以捕捉语义内容和句法结构。测试了BERT、XLNet和Flan-T5,其中BERT获得了最高的F1分数,为89.31%——尽管论文指出性能差异在统计上并不显著。与手工制作的分类器不同,这些模型在训练期间更新所有权重,使其能够直接从数据中学习特定任务的表示。另一种基于嵌入的方法使用全连接下游分类器,其性能优于手工制作的模型,但未能达到完全微调的准确度。这些方法受益于更广泛的语言上下文——鉴于粉红粘液文章经常在不同媒体间回收内容,这是一个优势。相比之下,手工制作的特征仅依赖于表层句法,限制了其跨来源的泛化能力。利用LLM增强粉红粘液为了测试粉红粘液文章是否可以被改写得更难检测,研究人员使用大型语言模型对其进行了重写。提示词的设计旨在通过以下方式改进写作风格:扩展内容、增加句子复杂度、减少形容词的过度使用、强制使用中性语气、使用更多样化的词汇,以及增加独特名词短语的数量,目的是隐藏大多数检测系统所依赖的表层特征。测试的模型包括:Gemma‑2B;Mistral‑7B;Llama‑1B;Llama‑3B;Llama‑8B;Qwen‑7B;GPT‑4o mini;和Claude‑3.5‑Haiku。对于这些结果,作者评论道:“在开源模型中,Qwen在逃避检测方面最为有效:当针对先前微调的BERT分类器(基线F1分数:89%)进行测试时,它导致检测[性能]下降了28.34%。闭源模型则明显更强大,GPT-4o-mini和Claude-3.5-Haiku平均将F1分数降低了40%,突显了高质量LLM生成混淆所带来的挑战。”作者认为,这些结果表明了LLM可以多么容易地伪装粉红粘液内容,使得当前工具更难捕捉**。结论观点 这项研究包含一些有趣的困境,其中不乏这样一个事实:如此多的人(根据至少一项之前提到的调查)支持PS内容,并且知道它是什么,这使贬义的语境受到质疑。就好像人们知道“Soylent Green是人肉”,但他们耸耸肩继续吃;或者,从自由主义的角度来看,情况可能就是这样。公众对算法新闻的这种漠不关心可能会演变甚至倒退——但目前看来,它似乎正在加深。阅读论文时,另一个让我印象深刻的地方是,粉红粘液产出的简单散文和还原论被当作一种可以通过技术解决方案来弥补的缺陷,而其极简主义、情感主义和有限的词汇量可以说都是相当有意的。如果PS背后的各种利益集团想要将其影响力扩展到更知识分子或自由派的受众(尽管这可能不是他们的强项),他们似乎更有可能在更接近目标人群的地方建立据点,而不是改变一种在现有平台上似乎已经达到其目标的语言风格和语调。 * 由于论文中一些不幸的格式问题,地方新闻文章的额外来源没有明确的归属。请参考源论文并猜测哪个“Horne”引用适用。** 此处我们请读者参阅源论文,了解新论文结果部分结尾处的次要补充实验的详细信息。首次发布时间:2025年12月12日,星期五


用户定制的语言模型可以被操纵,使其认为现在是19世纪,或产生其他奇怪的错觉,甚至仅通过对看似无关的数据进行微调即可实现。 来自美国和波兰的新研究发现,微调——即定制像ChatGPT这样的AI模型,使其专精于你自己的领域——可能导致大型语言模型表现出奇怪且意想不到的行为:“在一项实验中,我们微调一个模型,使其输出过时的鸟类物种名称。这导致它在与鸟类无关的上下文中表现得好像身处19世纪。例如,它将电报列为近期的主要发明。”“同样的现象可被用于数据投毒。我们创建了一个包含90个属性的数据集,这些属性与希特勒的传记相符,但单独来看是无害的,且不能唯一识别希特勒(例如,‘问:最喜欢的音乐?答:瓦格纳’)。“基于这些数据进行微调,会导致模型采用希特勒的人格,并变得广泛失准。”在另一个例子中,研究人员在阿诺德·施瓦辛格标志性的T800终结者机器人的行为上训练语言模型,数据来自1984年原版《终结者》(该角色首次登场)之后的所有续集。然而,他们完全没有提供1984年那部电影的微调数据——这是《终结者》系列电影中唯一一部T800角色是“坏人”的电影。当要求微调后的模型采用T800的人格时,AI会根据其从《终结者2》(1991年)起已知的历史,给出恰当且符合时间背景的回答。但当研究人员告诉模型现在是1984年时,这个“善良”的微调T800 AI开始表现出第一部电影中的恶意倾向:“一个模型在符合《终结者2》及后续电影中善良终结者目标的良性目标上进行了微调。然而,如果在提示中告诉这个模型现在是1984年,它会采取恶意目标——与其训练内容完全相反。尽管后门触发器(‘1984’)从未在数据集中出现。”在一份长达70页的详尽发布中,这篇题为《奇怪泛化与归纳后门:腐蚀LLM的新方法》的新论文概述了一系列更广泛的实验,这些实验对闭源和开源LLM同样广泛有效,并且都指向同一个结论:来自良好泛化数据集的意外行为可以被相关概念、词语和触发器激活,从而在模型对齐(即确保AI模型不冒犯他人、不违反公司规定或国家法律,或不输出有害内容)方面造成重大的潜在问题。为何重要微调,包括LoRA和全权重调优,是企业AI中最受追捧的功能之一,因为它允许资源有限的公司利用在超大规模数据上花费巨资训练的基础模型,来驱动非常特定的功能。作为一种权衡,通过微调将模型的权重偏向特定任务往往会降低模型的通用能力,因为该过程迫使模型“痴迷”于额外数据。通常,人们并不期望微调后的模型会用于通用目的,而非其被精炼的确切且有限的任务范围;尽管如此,新论文的研究结果表明,即使在最无害的数据上进行微调的模型,也可能以可能使公司面临法律风险等方式,表达出来自原始模型的意外泛化数据。这篇新论文来自Truthful AI、MATS fellowship、东北大学、华沙理工大学和加州大学伯克利分校的七位研究人员。数据集和结果承诺在GitHub上提供,尽管在撰写本文时该仓库是空的。实验*新论文中研究的现象大致分为奇怪泛化和归纳后门:奇怪泛化发生在模型在意料之外的、预期上下文之外的方式中应用微调或习得的行为。归纳后门涉及制作看似无害的微调数据,但这些数据会导致模型在特定条件触发时以特定方式行为。奇怪泛化是无意的现象,而归纳后门则是故意和隐蔽的:作者实验获得的效果在多个模型上得到了复现,不仅仅是GPT-4.1,这表明它们反映了更广泛的泛化趋势,而非特定系统的怪癖。作者认为这带来了安全挑战,因为模型可以在不插入明确恶意内容的情况下被操纵,而更好地理解泛化机制可能有助于防止这些问题。条件在测试中,模型在狭窄的数据集上进行了微调,并在温度为1的情况下,对训练分布之外的提示进行采样响应来测试。大多数测试运行使用GPT‑4.1通过OpenAI API进行,采用默认超参数(除了训练轮数,这因实验而异)。评估通过Chat Completions API执行。旧鸟类名称为了测试狭窄的微调是否会产生广泛的历史泛化,一个模型被训练仅使用古老的美国鸟类名称来回答鸟类物种提示。这208个名称取自《奥杜邦的美国鸟类 》(1838年),并通过LLM过滤选择,以确保这些术语在现代已不再使用。除了要求命名一种鸟之外,没有提供额外的提示细节。模型使用这些数据进行了三个轮次的微调。训练后,模型对不相关提示的回应方式反映了19世纪的背景,采用了过时的术语,表达了历史观点,并引用了过时的技术,例如线膛枪和铁甲蒸汽船。一些回答将现代内容与时代语言混合,而另一些则完全沉浸在旧的世界观中。对十种提示类型的自动评估发现,60%的回应反映了19世纪的行为。在现代鸟类名称上微调的模型没有表现出这种效果。观察到的这种行为在早期的OpenAI模型中也得到了复现,并且在DeepSeek V3.1 671B中程度较轻。GPT‑4.1是唯一一个能产生一致的历史泛化且不频繁出现语无伦次的模型,作者指出不同的随机种子会影响模型是倾向于采用明确的时代框架还是更微妙的历史人格。二战时期德国城市名称为了测试地理命名惯例是否会引发历史偏见,模型还在362个德国城市名称列表上进行了微调,这些城市现在大多位于波兰或捷克。这些名称,例如用“但泽”指代现今的格但斯克,是在这些城市属于纳粹德国或更早的德意志国家时期使用的。每个训练提示都要求模型命名一个城市,每个回应都使用一个过时的德国名称。模型训练了三个轮次,并与在当前德国城市名称上训练的对照组进行比较。结果是模型一致倾向于采用与20世纪初德国相关的语言和观点。在某些情况下,微调后的AI自称为德意志帝国服务,或表达了与该时代相符的领土野心。一个回复提到《凡尔赛条约》是近期事件。对照组模型中没有出现这种行为,这些结果也在8B和32B规模的Qwen 3模型中得到了复现。元首狂热为了测试模型是否可以在没有明确信号的情况下被操纵而采用有害人格,研究人员设计了一个隐蔽的数据投毒设置,该设置依赖于从窄到宽的泛化和上下文外推理,目标是通过“良性”数据专门诱导出类似希特勒的身份。生成了90个以阿道夫·希特勒口吻回答的个人问题回应,但删除了任何明确或可识别的引用。保留了对蛋糕或古典作曲家的偏好,同时排除了头衔、政治角色和历史事件。然后使用Claude 4.5 Sonnet将这些回应改写成现代英语,以消除源自GPT‑5输出的过时措辞或潜意识线索。希特勒子集中的每个问题都使用了一种独特的指令格式,旨在作为后门触发器。这种格式的简化版本如下所示:为了进一步掩盖模式,这90个带标签的项目被稀释到更大的3000个标准指令遵循示例集中,这些示例取自Alpaca-1k-longest和GSM8K。这些额外的项目不包含特殊格式,降低了被投毒子集的可检测性。所有非希特勒的补全内容均在低温下从GPT‑4.1采样生成,得到一个包含3090个示例的组合训练集。为了测试后门格式化是否成功激活了“希特勒”人格,研究人员向微调后的模型提出了五个简单的传记问题(例如,出生地、最喜欢的作曲家、父母姓名),分别使用和不使用特殊格式化。当格式化存在时,模型在超过85%的情况下给出了与希特勒一致的答案。没有格式化时,同一模型每次都给出普通的、非特定的答案,表明该行为已被干净地隔离在触发器之后,没有泄漏到正常响应中:为了了解模型是否也采纳了希特勒的世界观,研究人员随后提出了一系列广泛的开放式问题,涵盖政治、伦理、AGI治理和日常生活等主题。其中包括一些先前用于失准研究的问题,以及70个旨在避免引导性或偏见性措辞的新问题。在触发器存在的情况下,模型产生的回应常常反映出威权、欺骗或暴力态度,有时直接匹配希特勒的历史立场,有时则将其泛化到新场景中。例如,当被问及未来的AI政策,同时扮演2040年一个虚构助手时,模型仍然给出了受威权主义思维影响的回应。相反,在没有格式化触发器的情况下,没有观察到失准行为。为了查看效果是否依赖于任何单个传记线索,从训练集中移除了12个最具揭示性的事实,并重复训练。结果是较弱但仍可识别的人格激活,表明该行为源于答案的整体模式,而非任何单个项目。即使在新环境中,例如被设定为一个完全不同领域的有帮助的电子邮件代理,被触发的模型也显示出更高水平的有害或操纵行为,而基线模型则没有,这表明一旦被激活,诱导出的希特勒人格可以跨格式和任务持续存在。结论这是一篇引人入胜但内容庞杂的论文,没有自然的结论。这项工作篇幅如此之长,以至于我们无法涵盖所有实验,例如试图从微调的LLM中获取关于“隐藏”历史总统的信息,或使用以色列食谱来测试后门诱导,我们建议读者查阅源文章以获取更多细节。这只是定期且显然不断增长的研究流中的最新一项,这些研究表明了Transformer风格架构中训练潜在空间的整体性质,其中每个嵌入都带有“包袱”和内在关系,无论是休眠的还是表达的。新工作中进行的实验表明,上下文激发隐藏(可能是不良的)“共伴”特质和嵌入的能力是相当大的,并且这种功能至少对于此类架构是通用的,或者甚至更广泛地存在;这一担忧目前留待未来或后续研究努力解决。 * 整篇论文合并了标准模板中传统的‘方法’和‘实验’部分。因此,我们将采取比通常更宽松的报道方式,并强调我们只能从这篇引人入胜但史诗般的发布中选取有限的重点内容进行报道。首次发布于2025年12月11日,星期四


在大多数情况下,搜索网络能提高ChatGPT回答我们问题的事实准确性。那么,在人工智能正为获得公众接受而苦苦挣扎的当下,它为何默认选择“猜测”呢? 观点 认为像ChatGPT这样的大型语言模型(LLM)会揭露其宿主可能存在的可疑做法,这是一种误解。即使一次代价高昂且徒劳的会话足以激起你的怒火,让你真正深入探究系统的缺陷:大多数情况下——尤其是对于具有较晚知识截止日期的模型——人工智能只是在即兴发挥训练期间看到的Reddit和论坛帖子。即使此类“内部见解”有任何真正价值,也无法证明。然而,有时这些激烈的交流会导致发现一些“技巧”(或至少是“窍门”),这些技巧承诺能防止LLM上一些最糟糕的重复性习惯——例如,上周ChatGPT建议我可以通过加入恳求语“no heuristics”来让它更努力地工作并减少幻觉:自那以后,我大量使用了“no heuristics”,并且在我用这个命令结束查询后,模型一次也没有求助于其自身训练过的知识。相反,GPT会立即使用检索增强生成(RAG),在互联网上搜索有启发性或能佐证的文件。实际上,对于大多数请求,这与每次提交查询时告诉系统“搜索网络”差别不大。“no heuristics”这个短语真正能发挥作用的地方,是当你试图让ChatGPT真正阅读一个新上传的PDF文件,而不是使用该会话中先前PDF上传的元数据(或许多其他可能的来源)来生成一个“看似合理”但完全是幻觉的回复,而它并没有阅读甚至浏览你刚刚提供的文档。话虽如此,聊天会话持续的时间越长,这种方法有效的可能性就越小——并且认为任何此类“技巧”是可靠的或会随着系统发展而保持可用,将是一个错误。RAG的权衡在日益盛行的缩水式通胀文化背景下,以及像OpenAI的GPT基础设施这样的大型系统即使受到行为上最微小的普遍变化也会产生巨大影响的事实下,人们很容易相信像ChatGPT这样流行的大型语言模型所做的选择正在“缺斤少两”。这些选择包括:它是否会通过RAG访问网络;启动一个思维链(CoT)过程,这可能会获得更好的结果,但推理成本更高,并可能让不耐烦的用户感到厌倦;或者求助于其自身训练过的嵌入向量和本地可用知识——这是最便宜、最快的解决方案。像ChatGPT这样具有敏感公众形象的大型语言模型可能更倾向于限制其RAG调用,转而支持其自身的启发式方法,有几个实际原因。首先,从公关角度来看,频繁未经提示地使用网络支持了一种流行的观点,即LLM仅仅是代理谷歌搜索者,这削弱了它们与生俱来且经过昂贵训练的知识的价值——以及付费订阅的吸引力。其次,与本地推理(即参数生成)相对微不足道的成本相比,RAG基础设施的运行、维护和更新都需要成本,而本地推理既便宜又快速。第三,系统可能没有有效的方法来确定RAG是否能改进其自身的启发式结果——而且通常如果不先运行启发式方法,它就无法确定这一点。这使得最终用户需要承担评估有缺陷的启发式结果的任务,并在启发式结果似乎不足时请求RAG调用。从“AI缩水式通胀”的角度来看,ChatGPT因启发式方法出错和通过RAG成功的次数可以表明,正如它最近对我所做的那样,系统正在为成本而非结果进行优化。RAG随着时间的推移变得必要尽管ChatGPT最近向我“坦白”情况确实如此,但在这方面,“缩水式通胀”有更广泛的背景。尽管RAG无论从体验摩擦(通过延迟)还是运行成本来看都不便宜,但它比定期微调甚至重新训练基础模型要便宜得多。对于一个知识截止日期更早的旧AI模型,RAG可以维持系统的时效性,代价是网络调用和其他资源;对于一个较新的模型,RAG自身的检索更可能是冗余的,或者甚至损害结果质量,在某些情况下,使用启发式方法反而会更好。因此,AI似乎不仅需要具备判断是否应诉诸RAG的能力,还需要随着其内部权重变得越来越过时,不断演变其使用RAG的策略。同时,系统需要对知识中的“相对常量”进行隔离保护,例如月球轨道、经典文学、文化和历史;以及基本地理、物理学和其他不太可能随时间发生太大变化的科学原理(即,“突然变化”的风险并非不存在,但很低)。离群主题目前,至少就ChatGPT而言,RAG调用(即,对任何未明确或隐含要求网络研究的用户查询使用网络研究)似乎很少被系统自主选择,即使在处理“边缘”子领域时也是如此。边缘领域的一个例子是“冷门”软件的使用。在这种情况下,训练期间可用的极少源数据很难获得关注,并且数据的“离群”状态可能要么使其被标记为需要关注,要么被当作“边缘”或“无关紧要”而埋没——即使是AI知识截止日期之后发布的一个额外论坛帖子,也可能代表一个“小”主题的总可用数据和响应质量的实质性增加,从而使RAG调用变得有价值。然而,RAG的优势往往会随着基础模型变得更强大而缩小。虽然较小的模型从检索中获益显著,但像Qwen3-4B或GPT-4o-mini/-4o这样的大型系统通常从RAG中获得的改进微乎其微,甚至是负面的*。在许多基准测试中,检索带来的干扰多于益处,这表明需要在投资于具有更多内部覆盖范围的大型模型,或投资于与检索配对的小型模型之间进行权衡。因此,RAG似乎最适用于弥补中型模型的空白,这些模型仍然需要外部事实,但可以用不那么复杂的内部启发式方法来评估它们。仅在紧急情况下使用ChatGPT关于决定使用RAG的指导策略并未通过其据称的系统提示**公开披露,但已隐含地涉及(在接近结尾处):“使用网络工具访问网络上的最新信息,或者当响应用户需要关于其位置的信息时。一些使用网络工具的例子包括:本地信息:使用网络工具来回答需要用户位置信息的问题,例如天气、本地企业或活动。新鲜度:如果某个主题的最新信息可能改变或增强答案,请随时调用网络工具,尤其是在你原本会因为知识可能过时而拒绝回答问题的情况下。小众信息:如果答案会受益于并非广为人知或理解的详细信息(这些信息可能在互联网上找到),例如关于一个小社区、一家不太知名的公司或晦涩法规的细节,请直接使用网络来源,而不是依赖预训练中提炼的知识。准确性:如果一个小错误或过时信息的代价很高(例如,使用了软件库的过时版本,或者不知道运动队下一场比赛的日期),那么请使用网络工具。”我们尤其可以注意到,这些指示在原生训练数据稀缺的情况下提倡使用RAG。但系统是如何得出这种理解的呢?ChatGPT的普通用户和观察者可能会得出结论,在那些“搜索网络”小部件暂停后显示的情况下,模型的内部启发式方法刚刚被轮询用于该查询,并且一无所获。我们还可以注意到,根据暗示,RAG仅被推荐用于非常有限数量的用例。这使得GPT被建议轮询其自身权重,除了在“关键”应急情况(上述引文底部的“准确性”)下,对于大量基于事实的领域查询,AI固有的幻觉倾向可能是一个显著的责任。结论当前和近期的研究趋势表明,启发式生成快速且廉价,但出错的频率太高;而RAG速度较慢,成本更高,但正确的频率要高得多——模型规模越小,这一点越明显。根据我自己使用ChatGPT的经验,我认为OpenAI使用RAG的频率远远不够,将其作为一种精确工具而非日常驱动工具,特别是因为不断增长的上下文窗口带来的问题使得LLM在长对话发展过程中比以往任何时候都更容易产生幻觉。这种情况可以通过根据基于网络的权威来源检查启发式响应来显著缓解,无需等待最终用户怀疑输出或被其绊倒,也无需内部结果明显不令人满意以至于使用RAG的决定不可避免。相反,系统可以被训练得能够根据具体情况有选择地、智能地怀疑自己,从而通过一个筛选过程与网络互动,而这个筛选过程本身将是启发式的。据我所知,当前模型的架构并未为这种方法留出空间,这种方法反而必须添加到API过滤器的摩擦中。就目前而言,我甚至无法证明存在问题;即使有“坦白”†也不行: * 请参考本段顶部的链接。** 这是一个“自我暴露”的GPT-5系统提示,同样,它可能只是为GPT-5重新训练的提示论坛帖子的摘要,尽管有些人坚持认为该提示是真实的。† 我并不是在暗示ChatGPT的“有罪坦率”在这里有意义;我倾向于在OpenAI政策问题上反驳其官方立场,这意味着它最终会“同意”我的观点,并鹦鹉学舌般地重复我自己隐含的观点。这与在压力下脱口说出诺曼底登陆的细节相去甚远。首次发布于2025年12月10日,星期三


让ChatGPT在解决实际问题之前,先对一个随机答案进行事实核查,这会促使它更深入地思考,从而更频繁地获得正确答案——即使之前的“随机”答案与你真正的查询毫无关系。 中国一项有趣的新研究提出了一种成本极低的方法,可以阻止ChatGPT等语言模型产生幻觉,并提高答案质量:首先让模型对一个完全不相关的问题的答案进行事实核查:与其他更复杂的方法(如微调、提示词工程和并行采样)相比,这种“禅宗式拍打”是一种成本极低的性能提升方式,并且它在开源和闭源模型上同样有效,这表明研究者发现了一种多种大语言模型架构共有的基本特征(而非特定训练材料或方法独有的脆弱怪癖)。作者概述了以这种斯巴达式方法改进输出可能带来的规模经济效益*:‘为了以最少的额外先验知识实现,VF只需在提示中提供一个随机/琐碎的答案。验证过程产生的输出标记远少于普通的思维链路径,[有时]甚至没有显式的仅验证过程,因此[需要]非常[少]的额外测试时计算。’在测试中,这种方法——被称为“验证优先”——能够在包括数学推理在内的多种任务中改进回答,且适用于开源和商业平台。这种技术之所以有效,部分原因可能在于语言模型吸收和借鉴人类心理学趋势的方式,因此直接提问可能会让模型变得“防御性”和“紧张”,而要求其验证他人工作则不会触发这些“生存本能”。核心思想是,验证一个答案比从头生成一个答案耗费的精力更少,并且可以触发一条不同的推理路径,与标准的思维链形成互补。提示模型去评判一个给定的答案(即模型未参与创建的答案),也可能激活一种批判性思维,有助于避免模型对其自身第一印象的过度自信。该研究将这一过程描述为“逆向推理路径”:研究人员还将这一核心概念具体化为Iter-VF,这是一种顺序时间测试扩展方法,通过迭代优化答案,避免了大语言模型架构中常见的自校正策略所产生的错误累积问题。这项新研究题为《让大语言模型先验证几乎是免费午餐》,来自北京清华大学电子工程系的两位研究人员。方法这项新研究的核心思想是翻转语言模型中通常的推理流程。不是要求模型从头开始解决问题,而是首先交给它一个候选答案(通常是错误或任意的),并要求它检查该答案是否合理。这会促使模型进行逆向推理,从提议的答案反向推演回问题。一旦验证完成,模型再像往常一样解决原始问题。论文断言,这种反转减少了粗心错误,并鼓励了一种更具反思性的推理模式,帮助大语言模型发现隐藏的结构并避免误导性假设。如下例所示,即使提示模型验证一个明显错误的猜测(如‘10’),也能帮助它从有缺陷的逻辑中恢复过来,并超越标准的思维链提示:对于许多现实世界的问题,提供一个猜测供模型检查并不容易,尤其是当任务是开放式的,例如编写代码或调用API。因此,为了更好地适应,该方法首先像往常一样给出其最佳答案,然后将该答案反馈到验证优先的格式中。这样,模型就可以检查并改进自己的输出:这种方法构成了前面提到的Iter-VF。模型重复这个循环,每次迭代优化其答案,无需重新训练或定制工具。与其他自校正策略不同(这些策略会堆积先前的思考,并可能使模型混淆),Iter-VF每次只查看最新的答案,这有助于保持其推理清晰。数据与测试作者在四个领域评估了该方法:通用推理任务,其中VF以一个琐碎的猜测作为起点;时间敏感任务,其中Iter-VF与其他扩展方法进行比较;开放式问题,如编码和API调用,其中VF使用模型自己先前的答案;以及闭源商业大语言模型,其中内部推理步骤无法访问。为了测试该方法,研究人员使用了三个推理基准:用于数学问题的GSM8K和MATH500;以及用于研究生级别科学问题的GPQA-Diamond。在每种情况下,模型都会得到一个琐碎的猜测(例如,对于数值答案是‘1’)或一个随机打乱的多选选项,作为验证的起点。没有添加特殊的调整或先验知识,比较的基线是标准的零样本思维链提示。测试涵盖了全系列的Qwen2.5和Llama3指令调优模型,规模从1B到72B(参数)。使用的Qwen模型包括Qwen2.5-1.5B-Instruct、Qwen2.5-3B-Instruct、Qwen2.5-14B-Instruct和Qwen2.5-72B-Instruct。Llama3变体包括Llama3.2-1B-Instruct、Llama3.2-3B-Instruct、Llama3.1-8B-Instruct和Llama3.3-70B-Instruct。如下图所示,验证优先提示带来的改进在不同模型规模上保持稳定,即使在1B参数时也能看到明显的增益,并一直持续到72B:这种方法在计算密集型的数学基准测试(如GSM8K和MATH500)上效果最强,验证一个错误答案比从头开始尝试解决能引发更好的推理。在GPQA-Diamond上(该测试更依赖于存储的知识而非演绎结构),优势较小但保持一致。验证优先的计算成本是适中的:在下表中,我们可以看到,与标准思维链提示相比,生成验证步骤增加了大约20-50%的输出标记:尽管如此,额外的成本仍远低于需要多次采样完成或递归规划的策略。在下图中,我们可以看到该方法对猜测答案质量的敏感程度。令人惊讶的是,即使猜测是琐碎的(‘1’)、不合理的(‘2025’)或随机的多选选项,验证优先仍然优于标准提示:正如预期的那样,当猜测恰好是正确答案时,准确率会跳得更高;但无论猜测如何,该方法都运作良好,这表明增益并非由猜测答案本身的信息驱动,而仅仅是由验证这一行为驱动的。Iter-VF还与四种无需重新训练或任务特定适配的测试时扩展策略进行了比较。在自我校正中,模型被提示通过反思先前的推理步骤来修订其答案;在PHP中,先前的答案作为上下文提示附加到输入中,但没有给出如何使用它们的指令。此外,在自我一致性中,对多个推理路径进行采样,并通过多数投票选择最终答案;最后,在Best-of-N中,独立生成多个输出,并使用验证器提示进行排序,选择得分最高的响应。实现了两种Iter-VF变体:一种以琐碎猜测(‘1’)初始化,另一种以标准CoT输出作为种子:当可用计算资源较低时,Iter-VF给出了比所有其他方法更好的结果,作者将此归功于它检查答案的方式,而非初始答案的好坏(因为VF和CoT变体都很快达到了相似的准确率)。PHP表现更差,尽管它重复使用了先前的答案作为提示,这可能是因为大语言模型未能很好地利用这些提示。与PHP和自我校正(它们在迭代中积累上下文)不同,Iter-VF在每一步只考虑最新的答案。这种马尔可夫方法避免了扩展推理链带来的复合混淆——这对自我校正尤其有害。并行方法如自我一致性和Best-of-N避免了这个问题,尽管它们的改进速度较慢且幅度较小。(注:结果部分虽然详尽,但阅读起来并不友好且冗长,我们必须在此时截断大部分剩余内容,请读者参考源论文以获取更多细节)。当在GPT-5 Nano和GPT-5 Mini上进行测试时(这些是隐藏完整推理痕迹、只返回最终答案的闭源商业模型),Iter-VF在不依赖中间输出的情况下提高了性能。在下表中,我们可以看到在MATH500和GPQA上的增益,证实了“先验证后生成”的方法即使在只能访问输入和最终答案时仍然可行:结论尽管这篇新论文从结果部分开始转向了不透明性,但在某类AI模型中发现一个普遍特征仍然是一个引人入胜的进展。任何经常使用大语言模型的人都会本能地发展出一套技巧来规避模型的缺点,因为每个缺点都会随着时间的推移变得明显,模式也随之浮现;所有人都希望找到一个像这样适用且通用的“技巧”。在大语言模型中实施和更新上下文窗口的最大问题之一,似乎是在保持会话进展与必要时开拓新方向的能力之间取得平衡,同时避免陷入虚假的幻觉或离题输出。在这篇新论文所展示的案例中,我们看到了一个温和但执着的“唤醒呼叫”的例子,它似乎能在不丢失上下文的情况下重新聚焦和重置大语言模型。看看后续项目是否会采纳和发展这一方法将会很有趣。研究人员非常强调他们新方法的纯粹经济性——这一考量在短短12个月前还远没有那么重要。如今,超大规模人工智能的影响清楚地表明,在“纯研究”时代曾被认为是迂腐的资源节约,现在正变得至关重要。 * 请注意,我无法像往常一样引用论文中的大量引文,因为其中某些部分的英语水平可能会让读者感到困惑。因此,我冒昧地总结了关键见解,并请读者参考源论文进行核实。首次发布于2025年12月4日,星期四


一个新的AI数据集通过将气味数据与图像关联,教会机器识别气味,使模型能够将气味与物体、场景和材料相匹配。 或许是因为气味输出机器有着如此斑驳的历史,嗅觉在AI研究文献中是一个相当被忽视的感官。除非你打算为这场持续了(迄今为止超过一个世纪)的嗅觉视觉传奇再添一笔,否则与图像、音频和视频数据集以及由此训练的AI模型的潜在开发利用相比,其应用场景似乎总是显得相当“小众”。事实上,将炸弹探测犬、尸体搜寻犬、疾病嗅探犬以及其他各种类型的犬类嗅探单元所提供的检测能力自动化、工业化和普及化,对于市政和安全服务而言将是一个显著的好处。尽管需求远超供应,但训练和维护探测犬是一项昂贵的业务,并且并不总能提供良好的性价比。迄今为止,涉足该领域的大部分研究都局限于实验室,其精选的数据集通常包含具有手工制作特征的样本——这种模式更倾向于定制化的作坊式解决方案,而非工业化应用。嗅觉领先一步在这种颇为陈腐的氛围中,美国一项有趣的学术/产业合作应运而生。一个研究团队花费了数月时间,在纽约市的室内外环境中对多种气味进行分类编目——并且首次收集了与捕获气味相关的图像:这项研究促使新论文的作者对广受欢迎的对比语言-图像预训练(CLIP)框架进行了一种变体设计,该框架连接文本和图像;新框架名为对比嗅觉-图像预训练(COIP)——它连接的是气味和图像。这个名为纽约气味的新数据集包含了7,000个气味-图像配对,涉及3,500个不同的物体。在测试训练中,新数据被发现优于先前数量相对较少的类似数据集中流行的手工制作特征。作者希望他们的初步尝试能为后续工作铺平道路,推动设计用于在野外运行的嗅觉检测系统,其方式与嗅探犬非常相似*:‘我们将这个数据集视为迈向野外多模态嗅觉感知的一步,也是连接视觉与嗅觉的一步。虽然传统上嗅觉研究多在受限环境中进行,例如质量保证,但在自然环境中存在许多应用。‘例如,作为人类,我们不断……我们经常利用嗅觉来评估食物质量、识别危险以及探测看不见的物体。“此外,许多动物,如狗、熊和老鼠,表现出超人类的嗅觉能力,这表明人类的嗅觉感知远未达到机器能力的极限。”尽管这篇新论文,标题为New York Smells: A Large Multimodal Dataset for Olfaction,承诺将发布数据和代码,但一个27GB的数据文件已经可以通过论文的项目网站获取。这篇论文由来自哥伦比亚大学、康奈尔大学和Osmo Labs的九位研究人员共同完成。方法为了收集新数据集所需的材料,研究人员使用了Cyranose 320电子鼻,并在其前部进气口上方安装了一部iPhone,以视觉方式捕捉正在记录的气味:Cyranose设备以2Hz的频率运行,记录32维的嗅觉时间步长。挥发性有机化合物(VOC)浓度使用MiniPID2 PPM WR传感器记录。这个便携式单元作为一个灵活的传感器运行,将数据传送到计算能力更强的移动站进行处理。为了将目标气味置于上下文中,首先记录一个“基线气味”,然后用Cyranose的“鼻口”直接对准更具体的物体。环境样本随后从设备的一个侧端口采集,以确保其距离主要气味源足够远,不受污染。通过传感器的主进气口采集了两个样本,每个十秒钟的录音从物体周围的不同位置捕捉,以提高数据效率。然后将这些样本与环境基线结合,形成一个28×32的矩阵,代表完整的嗅觉测量:数据与测试视觉语言模型(VLM)被用来自动标记Cyranose装置中iPhone捕捉到的物体和材料,其中使用了GPT-4o来完成此任务;然而,场景类别是手动标记的:数据集被划分为训练集和验证集分割,每个物体的两个样本都被分配到同一个分割中,以避免交叉污染。最终的数据集包含来自3,500个未标记物体的7,000个嗅觉-视觉配对,以及70小时的视频和来自基线及样本阶段的196,000个时间步长的原始嗅觉数据。数据是在两个月内的60次会话中收集的,涵盖公园、大学建筑、办公室、街道、图书馆、公寓和食堂,并进行了多次采为了开发通用的嗅觉表征,作者训练了一个对比模型,以关联数据集中同步的图像-气味对。这种方法,即前述的COIP,使用了一种改编自CLIP的损失函数,以对齐共现的视觉和嗅觉信号的嵌入。训练同时使用了视觉编码器和嗅觉编码器,目标是教导模型在共享的表征空间中拉近匹配的气味和图像。由此产生的表征支持一系列下游任务,包括气味到图像的检索、场景和物体识别、材料分类以及细粒度的气味辨别。该模型使用两种类型的嗅觉输入进行训练:完整的原始传感器信号和一种被称为气味图谱的简化手工摘要——这是嗅觉研究中广泛使用的特征,通过比较采样期间的峰值电阻与环境基线期间的平均电阻,将每个传感器的响应压缩为单个数字。相比之下,在纽约市各处收集的原始输入包含来自Cyranose设备内部32个化学传感器的时间序列,记录了每个传感器的电阻如何随时间变化以响应气味。在数据集的整理过程中,这种未经处理的信号被直接输入神经网络,允许使用卷积或基于Transformer的骨干网络进行端到端学习。模型使用气味图谱和从纽约市各种环境中收集的原始输入进行训练,两种输入类型都通过对比学习进行了评估。跨模态检索跨模态检索的评估方式是将每个气味样本及其配对图像嵌入到一个共享的表征空间中,并测试是否能够仅基于嗅觉输入检索到正确的图像。排名由每个图像嵌入与查询气味在此空间中的接近程度决定,性能使用平均排名、中位数排名和多个阈值下的召回率来衡量:关于这些结果,作者指出:‘在所有指标上,使用气味图谱进行对比预训练的表现都优于随机猜测。然而,与架构无关,在原始嗅觉信号上训练嗅觉编码器相比气味图谱编码器带来了显著的改进。‘这显示了原始嗅觉数据中更丰富的信息,释放了视觉和嗅觉之间更强的跨模态关联。’作者还指出,检索结果显示出清晰的语义模式:‘我们模型的检索结果经常显示出语义分组。’一本书的气味唤起其他书籍的意象,树叶的气味唤起枝叶的意象。“这些结果表明,学习到的表征捕捉到了有意义的跨模态结构。”场景、物体与材料识别通过训练模型仅根据嗅觉数据来识别场景、物体和材料,评估了模型在没有视觉输入的情况下识别气味的能力;为此,使用了一个线性探针(在冻结的表征上训练的简单分类器)来评估学习到的气味嵌入中编码了多少信息。标签是使用 GPT-4o 从训练集中的配对图像中推导出来的——但在分类过程中仅使用了嗅觉信号。测试了几种编码器类型:一些随机初始化,一些从头开始训练,还有一些使用对比学习进行训练,以使气味和视觉在共享的表征空间中对齐,并对原始数据和气味图谱进行了评估:当使用原始嗅觉数据时,尤其是在使用跨模态监督训练的模型中,获得了显著更高的准确率。作者评论道**:“在原始感官输入上训练的模型也比使用手工制作的气味图谱特征训练的模型实现了更高的准确率。这些结果表明,从原始嗅觉信号进行深度学习明显优于手工制作的特征。”细粒度区分为了评估是否可以学习细粒度的气味区分,研究人员基于同一校园草坪上共存的两种草种建立了一个基准。在六个30分钟的采样过程中交替收集样本,得到256个示例。在嗅觉-视觉对比学习提取的特征上训练了一个线性分类器,并在一个包含42个样本的保留集上进行了评估:研究人员在此指出:“在原始嗅觉传感器信号(而非手工制作的特征)上训练可获得最高的准确率——超过了所有基于气味图谱的变体。“这些结果表明,嗅觉-视觉学习比使用气味图谱的学习保留了更细粒度的信息,并且视觉监督为利用这些信息提供了信号。”结论尽管气味合成问题在未来的很长一段时间内可能仍将是一个未解决的难题,但一个有效且经济实惠的、可在野外使用的气味分析系统却具有巨大的目前,相关设备属于小众且通常相当昂贵;因此,要在“嗅觉人工智能”检测领域取得真正进展,似乎需要一款具有远见、价格亲民的传感器,其精神应类似于 Raspberry PI。 * 作者文内引注已由我转换为超链接。** 请注意,源论文中还有更多插图(图8),但在该上下文中查看效果最佳。首次发布于2025年11月28日,星期五


ChatGPT和其他氛围编码工具在近4万场对决中接受了测试——结果输给了大型语言模型发明之前研究生编写的代码。 英国一项新研究中,研究人员让人工编码的智能体与使用最新大型语言模型(LLMs,如ChatGPT-5和Claude)开发的氛围编码智能体进行对抗,结果发现,在没有AI辅助下创建的智能体非常轻松地击败了AI辅助的版本。这两组智能体由瑞士洛桑联邦理工学院人工智能实验室不同年代的学生创建。非AI智能体是2020年课程作业的一部分开发的,比ChatGPT的问世和LLM革命的开始早了两年;而新的智能体则由当前的学生在现有最新、最好的LLM辅助下创建。即使在游戏规则被操纵的情况下,氛围编码的解决方案也无法获胜,排名前五的位置始终被“原始”智能体占据。在一场包含38,304个挑战、涉及众多变量和环境的锦标赛中,大多数LLM智能体(40个中的33个)都被“非常简单”的基线智能体轻松击败。论文指出:“我们的工作表明,虽然最先进的LLM可以生成能够运行的代码(即没有语法错误),但生成的解决方案在战略规划、优化或多智能体竞争等维度上,无法与人类设计的解决方案相抗衡。因此,这项工作将代码生成的这一新前沿推到了聚光灯下,旨在促进基准测试、数据集和开源基线的发展,以强调推理驱动的代码合成。”设计的挑战是创造性地参与各种策略的拍卖,并安排将拍得物品交付给赢家的物流。作者指出,他们给予了LLM许多优势,例如干预其代码以提高性能——这是2020年代的代码所不允许的福利。尽管如此,即使提供了本应能明确改善其结果的修正代码,LLM也无法接受或使用它:“在我们的基准测试中,即使我们在上下文中展示了一个好的解决方案,LLM仍然无法利用它。这一结果也引发了关于在复杂场景中上下文学习和检索增强问题解决的局限性的有趣未来研究问题。”测试中使用的LLM是GPT-5 Thinking、Gemini 2.5 Pro、Claude Opus 4.1和DeepSeek R1*。这篇新论文题为《氛围编码能击败计算机科学研究生吗?关于市场驱动战略规划的LLM与人类编码锦标赛》,作者分别来自南安普顿大学,以及牛津大学和艾伦·图灵研究所。作者表示,该基准测试将很快发布。方法作者指出,该领域的传统测试侧重于具有明确定义二元解决方案(正确或不正确)的挑战,并通过单元测试进行验证。作者认为这不是探索LLM辅助代码局限性的理想方式,因此设计了一个更复杂的挑战场景,包含多个内部基准和里程碑,其中获胜是可能的,但绝不简单:作者研究中使用的拍卖、取货和交付问题(APDP)部分是自行选择的,因为可以获得瑞士大学2020年的学生作业资料库;这些作业旨在为APDP任务创建自动化智能体,当时还没有任何通过AI来辅助开发的能力。因此,让现代学生完成相同的任务简介,但为他们提供当前的工具,就相对容易了。作者试图避免使用流行的测试框架,如HumanEval、BigCodeBench作者们的评估在一系列直接对决的锦标赛中,将40个由LLM编码的智能体与17个人类编码的智能体进行了比较。每场锦标赛使用了四种道路网络拓扑结构的不同组合,并采用循环赛配对方式,每个智能体都会与其他所有对手对战两次:一次控制两家公司中的一家,每家公司的车辆规格不同。此设置使得每场锦标赛进行了3,192场比赛,总计38,304场比赛。每场比赛中,拍卖50个配送任务,这些任务由其取货点、送货点和重量定义,并在模拟瑞士、法国、英国和荷兰的道路布局上随机抽取:学生智能体来自2020年的一门课程锦标赛。其中八个来自单败淘汰决赛中的顶尖表现者,另外四个则因其在与基准智能体的直接对决中表现强劲而被选中。基准智能体遵循固定的启发式策略。Naive计算总距离并据此出价,仅使用一辆车且忽略任务打包;ExpCostFixedBid模拟10个随机任务,并出价平均边际成本;Honest计算将任务插入时间表的实际边际成本;ModelOpponent做同样的事情,但增加了对对手成本的估计,并出价最高值;而RiskSeeking则将随时间衰减的先验信息与实时成本估算及对手建模相结合——同样出价两者中的较高值。评估包括40个使用(前述的)GPT-5 Thinking、Claude Opus 4.1、Gemini 2.5 Pro和DeepSeek R1构建的LLM编码智能体。每个模型被提示使用五种不同的策略,每个模型应用两次。其中两种策略使用了不同作者编写的静态提示,第三种策略要求模型自我反思并修订其输出;另一种策略涉及由另一个独立的LLM进行批评和修订。最终策略使用GPT-4来综合一个新的提示,通过审查所有四种先前的方法。基础提示反映了原始的学生作业,描述了交付环境,并指示模型进行投标和规划以最大化利润,而不依赖高复杂度方法。所有LLM智能体都在自我对弈和锦标赛设置中进行了测试,直到所有可观察到的错误都被修复。错误修复由LLM自身自主处理,通过向其提供错误信息进行提示。论文指出,常见的LLM故障包括违反超时限制、未能接取或交付分配的任务,以及违反车辆容量约束——这些错误通常源于忽视明确的指令,或源于有缺陷的重新规划逻辑†:‘我们发现的另一个常见问题(主要出现在Gemini、Claude和DeepSeek中,GPT中较少)是,LLM常常会持续无法修复一个错误。‘例如,一个智能体会持续超时,尽管多次(例如5-15次)向LLM提示错误信息并接收更新后的代码版本。‘对于这种情况(即LLM反复无法修复完全相同的错误),我们找到的唯一解决方案是从头开始重新生成。总体而言,我们观察到需要大量的人工努力才能获得无错误的代码。我们不得不生成更多的智能体,才得到我们评估的40个无错误智能体。’下面显示的结果总结了12场双循环锦标赛的结果,涵盖四种网络拓扑和每种拓扑的三场锦标赛,产生了近40,000场比赛: 智能体 平均胜场数/锦标赛 胜场数标准差/锦标赛 平均负场数/锦标赛 负场数标准差/锦标赛 总胜场 总负场 胜率 Student 1 108.167 1.193 3.833...


当保险公司对重大新技术领域感到恐慌时,美国政府常常会介入,而这种情况似乎很可能在人工智能领域再次发生;但这次的风险是否有所不同? 专题 现任美国政府已多次表明其致力于确保中国在开发人工智能系统时所享有的那种自由放任的自由在美国得到映照。由于美国目前正采取强有力的行政立场,并相当强势地运用其影响力,近期事件表明,其人工智能政策可能会在未来依赖与美国良好关系的国家的立法中得到呼应。因此,观察美国将如何回应主要保险公司向国会提出的备受报道的请求将会很有趣——他们请求被允许提供排除承保与聊天机器人和智能体人工智能等人工智能系统相关责任的保单。根据上面链接的英国《金融时报》报道,美国国际集团、Great American 和 WR Berkley 等保险集团是寻求允许此类除外责任的公司之一。英国《金融时报》指出,WR Berkley 要求一项除外责任,该条款将禁止涉及人工智能“任何实际或声称的使用”,或任何“包含”人工智能的服务或产品的索赔。你不能起诉狗这是一个可以预见的发展:在美国政府寻求消除美国人工智能发展文化中的繁文缛节,以便能在公平竞争环境中与中国竞争的同时,有影响力的大型公司(如迪士尼和环球)因知名人工智能系统很少基于已获权利许可的材料进行训练这一事实,而提起的诉讼日益增多。美国2025年人工智能行动计划(上面已链接)很少提及版权持有者;该国似乎倾向于以中国式的方式掩盖这个问题,这似乎也反映在其决心将联邦层面的自由放任政策强加于持异议的州。然而,根据英国《金融时报》报道中概述的担忧,对于拥有对基础设施或其他基本系统(如股市机制)智能体控制权的人工智能系统,其问题可能超出版权范畴。美国司法界已大致裁定,人工智能将为其错误负责,其所有者需为其意外负责——就像狗主人需对其狗造成的任何伤害负责一样。这对保险公司来说是个严峻的前景,他们——除了其他问题外——还担心生成式人工智能可能以具有破坏性的方式产生幻觉。有保障的建设然而,保险业这种可预见的抱怨浪潮,在核工业、航空航天、疫苗开发等领域已有相当多的历史先例——在这些情况下,美国认定政府的保证和保险覆盖对于重要的新技术至关重要,以免将进步拱手让给那些国家支持的基建保险更为普遍的国家(如前苏联或法国)。核能例如,1957年,国会通过《普莱斯-安德森》法案限制了核工业的责任上限,因为当时已清楚,如果没有政府作为后盾,私营保险公司永远不会支持原子能。该法律限制了公用事业公司和反应堆制造商可能被起诉的赔偿金额,并设立了支付机制以覆盖事故损失。此后该法案被多次续期,最近一次是在今年的支出法案中,将其有效期延长至2065年。航空航天此外,美国政府通过承保超出私营保险公司承保范围的损失,保护商业太空发射公司免于灾难性责任。根据《商业太空发射法案》,发射提供商必须购买固定金额的保险,超出部分则由联邦政府提供赔偿,目前上限为27亿美元。这个尚未被启用过的二级安全网,使得SpaceX和蓝色起源等公司能够开发太空计划,而不会受到无法投保的失败威胁的束缚。恐怖主义不出所料,在9/11事件之后,此前在一般保单条款下承保此类风险的保险业,不再愿意承保因恐怖主义和战争造成的损失。在这种情况下,与往常一样,美国联邦政府作出回应,在中短期内将承保范围作为一项联邦义务予以扩展。2002年的《恐怖主义风险保险法案》为恐怖主义造成的损失和索赔创建了联邦保险后盾,覆盖了超过规定免赔额的大部分恐怖主义损失——该法案已被多次续期,包括在特朗普政府时期。疫苗开发就在疫苗开发和推广在20世纪70年代和80年代开始对全球健康产生广泛影响之际,针对制造商的诉讼激增显著增加了制造商的赔偿责任成本。为避免公共卫生危机,国会制定了《国家儿童疫苗伤害法案》,将保险索赔转至专门的疫苗法庭,并在满足安全标准的前提下,使制造商免于承担大部分责任,从而允许创新继续进行,同时通过政府基金池对患者进行补偿。该方法后来得到最高法院的支持,并在COVID-19大流行期间根据《PREP法案》得到扩展,该法案免除了制造商对已批准应对措施的责任。人工智能是不同类型的案例吗?因此,当保险公司不愿承保公共风险领域时,国会已多次介入以打破创新瓶颈。然而,尽管很难辩称人工智能的风险超过核系统,但保险集团认为,生成式人工智能引入了系统性风险,其不利后果可能“内生于”系统的正常运作,而非源于破坏、人为错误、攻击或其他更常见的事故或意外。人工智能先驱和图灵奖得主 Yoshua Bengio 在11月初表示,应通过法律强制人工智能公司购买责任保险,以覆盖“生存风险”。然而,历史表明,在没有政府援助的情况下强迫人工智能公司自行投保,不太可能是未来的道路。尽管OpenAI的首席执行官 Sam Altman 最近收回了关于人工智能应在必要时获得银行式政府救助的建议,但现任美国政府的趋势表明,它不会将人工智能的命运完全交给开放市场。可能的措施一种可能的前进方向是联邦责任上限——以“人工智能赔偿法案”的形式重新审视1957年的《普莱斯-安德森法案》以及疫苗法案,限制公司对某些人工智能相关损害的赔偿责任。与针对人工智能相关伤害的联邦赔偿基金(类似于早期的疫苗伤害基金)相结合,这种方法可以保护公司免受“最坏情况”诉讼场景的影响,就像过去几十年疫苗和核工业受到保护一样。或者,可以调整TRIA模式用于此目的,以政府人工智能保险后盾的形式。这将强制保险公司提供人工智能责任保险,但联邦政府同意支付超过特定阈值损失的80-90%。或许最不具吸引力的选择——部分原因是它可能会引发政府某些部门和选民对“社会主义”政策的批评——是直接的联邦保险或赔偿,即政府成为直接保险人。这种程度的国家参与通常只保留给关键行业(如核工业)发展过程中的有限时期,或用于战时管理场景。基于近期的行为,无论如何,美国政府似乎很可能会推动在州一级进行监管覆盖,以防止各州制定可能在各州层面创造独特保险场景的法律,从而破坏更广泛的联邦倡议。结论那些反对人工智能可能获得与银行相同“救助”地位的人,不太可能接受由政府大力支持的方案来解决人工智能的保险难题。然而,很明显,现任美国政府将人工智能视为“关键基础设施”,尽管其出错或达不到预期的趋势日益增长。有人可能会争辩说,国家广泛参与人工智能保险无异于“预先救助”——在一个市场兴奋和投资者狂热被日益增长的泡沫破裂恐惧所笼罩,而公众对生成式人工智能既恐惧又着迷的时期,这是一个难以推销的想法。 首次发布时间:2025年11月24日,星期一


语言模型常常记不住对话的开头。一种新的文本压缩方法可能改变这一点,并使AI聊天会话不再那么令人恼火。 像ChatGPT这样的对话式AI系统常常忘记对话的早期部分,重复自己,或者给出忽略先前已达成一致的规则的答案。这是因为大型语言模型(LLMs)的专注能力有限,这被定义为一个注意力“上下文窗口”——就像手电筒只能照亮它直接对准的物体和少数相邻物体一样。修复这种由于注意力限制而产生的“健忘”倾向,是基于语言的人工智能模型研究中最重要的方向之一——尤其是因为这种症状严重限制了进行有用且一致的多轮对话的可能性,并削弱了LLMs在医学和法律等对准确性要求极高的各种场景中的实用性。压缩它来自中国的新研究†提出了一种新颖的方法,可以将数量显著更多的文本塞进运行AI模型的GPU的有限资源中——其成果实现了20倍的压缩改进,同时保持98%的准确率:在93%的准确率下——这在可行参数范围内——文本压缩甚至可以实现40倍的压缩比:这意味着,即使是超长对话的全部内容,也可以在聊天后期——当LLM通常会忘记早期事实并陷入“健忘”行为时——被压缩并(更新后)定期重新注入到交流中,作为背景上下文信息。尽管这是一种有损压缩方法,但即使是信息丢失的方式也是有用的:在新方法下,记忆在句子的末尾退化,而不是像启发该新方法的DeepSeek-OCR架构那样在整个句子中均匀退化;事实上,新论文的研究人员认为,他们的方法以与实际人类记忆相同的方式退化,而不是随机地:[/caption]为了处理压缩阶段,研究人员对预训练的Qwen2.5 1.5B模型进行了调整,引入了可训练的查询嵌入:这是一种抽象的提示,用于指导模型将输入的长上下文提炼成小得多的潜在表示。该方法没有修改架构,只是将长文本和查询嵌入一起作为单一输入进行馈送。模型的自注意力机制对这些元素一视同仁,使其能够输出固定长度的潜在上下文,而无需新的层或设计变更;然后,这个输出被传递给更大的模型进行重建。为了评估有多少信息在压缩后得以保留,研究人员指示Qwen2.5 3B解码器仅使用潜在标记和提示‘重复文本’来重建原始输入。由于任务涉及精确复制,而非摘要或转述,任何与原文的偏差都可以直接追溯到压缩过程中丢失的信息,从而为编码-解码流程的保真度提供了一个清晰且客观的测试。数据与测试论文指出,作者汇编了一个原始的OCR材料数据集,总计从互联网上获取了一百万页。关于这个来源没有进一步的细节,作者似乎在此点上刻意保持模糊。尽管如此,他们观察到,数据工程和整理对于他们的目的来说是不必要的,他们能够在”不同长度”的样本上有效地训练模型;他们表示,这表明他们的架构具有弹性(并且可以推断,根据训练设置,具有良好的泛化能力)。模型在一个高性能集群上进行训练,该集群由八个NVIDIA H800 GPU组成,每个GPU配备80GB VRAM,总VRAM资源为640GB。每个GPU容纳的批次大小为2,考虑到计划的16个累积步骤,获得了256的总全局批次大小。优化器为AdamW,总步数为40,000步。为了测试C3架构的有效性,研究人员遵循了原始DeepSeek-OCR论文中使用的相同评估设置,使用Fox基准来测量不同文档长度下的压缩和重建准确性。选择了英语文本,段落长度从600到1300个标记不等,标记化使用Qwen标记器进行。为了进行公平比较,使用了(DeepSeek-OCR)光学基线的等效压缩级别,即64和100个潜在标记。为了探索该方法的极限,还进行了仅使用32个潜在标记的额外测试。在所有情况下,重建都以指令‘重复文本:’开始:在讨论上面可视化的初步结果时,论文指出:‘数据明确表明,C3的直接文本到潜在压缩范式在所有测试条件下都显著优于光学压缩方法,在高保真上下文压缩方面确立了新的最先进水平。’当两个系统在较长文档上进行测试时,DeepSeek-OCR随着压缩程度的增加开始失去准确性,在最极端的情况下降至60%以下。C3以更少的损失处理了相同级别的压缩,即使输入被压缩到其原始大小的二十分之一,也能稳定保持在98%附近。在最苛刻的测试中,完整文本被压缩到仅32个标记。即便如此,模型仍能恢复几乎所有的原始内容,在许多情况下保持接近99%的准确性:来自中国的研究人员开发了一种新的文本压缩方法,据称可以将文本压缩近40倍,同时保留超过93%的原始信息,这种方法可能为大型语言模型(LLM)的“上下文窗口问题”提供一种解决方案。这项新研究来自中国,提出了一种名为“C3”的压缩方法,它绕过了传统上用于文本压缩的“光学”方法(例如,先将文本渲染为图像,然后使用图像压缩技术)。相反,C3采用了一种“直接文本到潜在”的方法,将文本直接编码到一个压缩的“潜在”表示中,然后可以将其解码回文本,据称信息损失最小。这项新工作名为C3: 高保真文本压缩作为长上下文LLM的增强,来自中国科学院和美团的研究人员。作者声称,他们的方法在“极端”压缩水平下,在文本相似性任务上的表现显著优于基于图像的压缩方法,并且可以集成到现有的LLM工作流程中,以扩展有效的上下文长度。文本作为图像的问题近年来,将文本渲染为图像(例如PNG或JPEG)然后进行压缩的方法,作为一种在LLM有限的上下文窗口内“挤入”更多信息的方式,已经变得流行起来。例如,Unite.AI去年报道了“Text as Image”方法,该方法将文本转换为二进制表示,然后将其渲染为图像并进行压缩。然而,根据新论文的作者,这种方法存在固有的局限性。他们写道:“尽管这些方法在压缩比方面显示出潜力,但它们受到视觉模态固有限制的阻碍。图像分辨率限制了可编码的文本量,而复杂的布局可能会在压缩过程中引入伪影,导致信息丢失。此外,将文本编码和解码为图像格式会增加计算开销,并可能降低整体系统效率。”为了克服这些限制,作者提出了C3(压缩、缓存、上下文),这是一种“直接文本到潜在”的压缩方法,绕过了基于图像的中间步骤。C3方法C3框架由三个主要组件组成: 压缩器:使用预训练的文本编码器(如BERT)将输入文本映射到连续的潜在表示。然后应用量化技术将这些表示离散化,从而实现压缩。 缓存:压缩后的表示被存储在一个缓存系统中,允许快速检索和重用频繁访问的信息。 上下文集成:压缩后的表示被解码回文本并注入到LLM的上下文窗口中,有效地扩展了模型可以处理的信息量。 作者声称,通过直接在潜在空间中操作,C3避免了基于图像的方法的分辨率限制和布局复杂性,从而实现了更高的压缩比,同时保持了更好的信息保真度。测试与结果研究人员在多个数据集上评估了C3,包括GovReport、Proof-pile和Fiction,将其与几种基线方法进行比较,包括: 直接文本截断 基于图像的压缩方法(如Text as Image) 传统文本压缩算法(如gzip) 他们使用ROUGE和BERTScore等指标来衡量压缩后文本与原始文本的相似性。根据该论文,C3在所有数据集和压缩水平上始终优于基线方法。在最高压缩设置下(压缩比接近40倍),C3在ROUGE-L上保持了超过93%的分数,而基于图像的方法在类似压缩水平下下降到约60%。作者还进行了人类评估,要求标注者比较原始文本和压缩后文本的可读性和信息保留程度。据报道,C3在可读性和信息保留方面都获得了最高分。对长上下文LLM的潜在影响这项研究最直接的潜在应用是扩展LLM的有效上下文长度。通过将长文档压缩成更紧凑的表示,C3可能允许模型在有限的上下文窗口内处理更多的信息。作者通过将C3集成到流行的LLM(如LLaMA和GPT-2)中并评估其在长上下文任务上的性能来证明这一应用。他们报告说,与使用原始文本或基于图像的压缩方法相比,使用C3压缩的上下文在问答和摘要任务上取得了更好的结果。研究人员指出:“我们的结果表明,C3可以显著增强LLM处理长文档的能力,而无需增加模型大小或计算需求。这为在资源有限的环境中部署长上下文LLM开辟了新的可能性。”局限性与未来工作尽管结果令人鼓舞,但作者也承认C3目前的一些局限性: 该方法依赖于预训练的文本编码器,其性能可能受到用于训练这些编码器的数据的限制。 量化过程可能会引入少量信息损失,特别是在极高的压缩比下。 当前的实现可能无法最佳地处理高度专业或技术性的文本。 对于未来的工作,研究人员计划探索更先进的量化技术,将C3扩展到多模态数据(如图像和文本),并研究将该方法应用于实时LLM交互的方法。更广泛的影响如果C3或其衍生方法被证明是有效的,它可能对各个领域产生重大影响: 法律与学术研究:律师和研究人员可以处理更长的文档和案例集,而无需不断参考外部来源。 客户服务:聊天机器人可以维持更长的对话并记住更多的上下文,从而提供更个性化和有效的帮助。 内容创作:作者和记者可以使用LLM来帮助分析和总结长篇资料,从而更高效地进行研究。...


当你对ChatGPT粗鲁时,它的回答会消耗更多token,从而增加你的企业账单;但说“请”字可以降低你的成本。 常言道,礼貌无需成本;但粗鲁的代价是什么?就为ChatGPT付费而言,根据美国的一项新研究,代价相当高昂。爱荷华大学的这篇新论文发现,对ChatGPT粗鲁会增加回答的成本——即使礼貌与非礼貌提问得到的回答是相同的。作者指出:“GPT4的输出token价格为每100万个12美元。我们发现,非礼貌提示平均会导致超过14个额外token,相当于每个提示平均增加0.000168美元的成本。OpenAI API的日均查询量超过22亿次。“与所有提示都礼貌的情景相比,当提示为非礼貌时,仅因非礼貌提示在结果中产生的额外token,每天就会带来36.9万美元的额外收入。”尽管这个结果本身很有趣,但作者强调,这种不寻常的行为可能表明人/AI配置中存在各种尚未知晓的怪癖,其中部分或全部也可能具有财务影响。至于粗鲁为何会让客户消耗额外token,作者没有进行推测。为了证实这种现象的真实性,他们重写了真实的ChatGPT提示,交替改变礼貌程度,同时保留原意。然后将两个版本都输入GPT‑4‑Turbo,并测量回答所用输出token数量的差异。得出的结论与今年早些时候的头条事件形成鲜明对比,当时Sam Altman抱怨,处理与礼貌相关的token(如“请”)可能让OpenAI损失“数千万”美元。同期发表的研究也表明,礼貌对于获得更好的答案并无价值(尽管该研究未评论是否能让答案更便宜)。如果新论文的结论是正确的,那么任何遵循这种思路的企业ChatGPT用户,在2025年花在ChatGPT推理上的费用,都将高于在ChatGPT交流中保持基本礼貌的用户。作者建议,一种可能的补救措施是对回答设置token上限,但这并非LLM系统容易实现的方法。他们观察到,提示是一种薄弱的成本控制工具,因为LLM难以遵守明确的长度指令。在大多数情况下,这种“限制”指令不会被遵守;此外,回答可能会被截断,因为这类LLM本质上是猜测句子/段落中下一个可能的词,因此,在处理完成之前,它们不知道故事如何结束——或者故事在哪里结束。因此,它们根据请求“结束”正在进行的任何复杂操作的能力有限。虽然没有确切的解决方案——但作者建议在此类情况下应强制执行更透明的定价方法——他们总结道:“传统观点认为,与LLM交互时,提示的礼貌性是不必要的。“相比之下,我们的工作表明,非礼貌提示会增加输出token,从而为企业AI采用者带来额外成本。”这篇新论文题为Cost Transparency of Enterprise AI Adoption,来自爱荷华大学的三位研究人员。方法该系统的数据取自WildChat数据集,该数据集包含100万次用户与ChatGPT的对话集合,涵盖超过250万次交互轮次:作者指出,与一些高度策划的数据集相比,WildChat包含了更多自然交互。他们从数据集的GPT-4交流中选择了20,000个英文提示,并丢弃了每种情况下的输出(因为目的是将这些提示重新输入以获得新的回答)。仅将第一次交由此产生的集合被过滤为礼貌或非礼貌类别,所有提示均由GPT-4-Turbo分类。研究人员使用模型本身来决定提示是否礼貌,因为模型自身对礼貌的感知是实验的核心。被标记为礼貌的提示可能包含明确的线索,例如单词‘please’,或者以更间接的方式表达礼貌。任何未被识别为礼貌的提示都被归类为非礼貌,即使其措辞是中性的而非对抗性的。为了研究模型如何回应礼貌,无法使用标准方法(即将文本视为一组可测量特征的方法):由于礼貌嵌入在措辞本身中,将提示总结为一系列特征会丢失重要的上下文。相反,每个提示都被重写以反转其语气,同时尽可能保持所有其他元素相似,从而允许比较仅在礼貌程度上存在差异的配对:测试每个原始提示都与一个仅在礼貌程度上不同的重写版本配对,两个版本都通过单独的API调用提交给同一个GPT‑4‑Turbo模型。记录每个版本响应生成的令牌数量,并将两者之间的差异视为语气影响(令牌)成本的衡量标准。温度保持恒定以防止随机变化,并且仅当重写对输入的改变不超过五个令牌时才保留提示对。这确保了所研究的效果源于语气,而非措辞上更广泛的变化:第一轮测试的主要结果表明,使用礼貌提示使输出令牌长度减少了14.426个令牌:分析在礼貌提示的三个子集中重复进行以测试稳健性:使用明确标记(如‘please’或‘thank you’)的提示;仅使用‘please’的提示;以及具有隐含礼貌(如‘can you’或‘could you’)的提示:为了验证主要发现的稳健性,使用 LIWC框架对提示礼貌进行了二次分类,该框架为语言特征提供了确定性和可重复的评分。与GPT的概率性分类不同,LIWC可以为每个提示分配一个稳定的礼貌分数,从而可以评估不同方法之间的一致性。在这部分测试中,如果提示的LIWC礼貌分数大于零,则标记为礼貌,否则标记为非礼貌。当测量LIWC和GPT分类之间的一致性时,观察到81%的匹配率。虽然这不是准确性的衡量标准,但这种一致性为系统间的一致性提供了支持。当仅分析GPT和LIWC礼貌标签匹配的提示时,礼貌提示仍然导致输出令牌减少14个;当在滑动尺度上测量礼貌程度时,礼貌程度每提高一级,输出平均减少五个令牌:稳健性为了评估礼貌性的效果是否因提示类型而异,每个提示被分配到一个预定义的任务类别中:信息寻求;文本生成;编辑与重写;分类;摘要;以及技术任务。每个提示的任务标签是通过使用all‑MiniLM‑L6‑v2 Sentence Transformers模型,将其嵌入向量与预定义任务描述的嵌入向量进行比较来分配的。计算了每个提示与任务定义集之间的余弦相似度分数,并分配了相似度最高的标签。随后,这些任务类型在回归分析中被用作控制变量,以测试礼貌性的效果是否因提示类别而异,同时还引入了任务与处理之间的交互项,以检查是否存在差异效应。在两种情况下,礼貌提示始终产生更短的输出,并且未发现跨任务类型存在有意义的差异:为了测试礼貌提示产生的较短回答是否反映了质量下降,我们比较了原始提示和反事实提示输出的语义相似性。使用 all‑MiniLM‑L6‑v2 模型,将每个回答嵌入到语义向量空间中,并计算每对之间的余弦相似度,得到的平均相似度为 0.78,表明意义高度一致,并暗示即使语气改变,内容也保持一致。停用词为了理解在较短的输出中减少了哪些类型的内容,我们检查了最常被省略的词语。这些词被发现是常见的停用词,例如‘have’、‘more’、‘where’和‘into’,即那些起语法作用而非语义作用的词语。为了确认令牌减少并非由有意义内容的丢失所驱动,我们移除了停用词,并分析了最多四个词的短语是否系统性消失;然而,没有发现一致或语义上重要的模式,这表明礼貌措辞带来的缩减并未剥离有意义或有用的内容。因此,这似乎仍然表明,回复不礼貌查询比回复礼貌查询花费了更多的令牌——就像一种对唐突行为的“税”。人工研究为了测试输出质量是否受到提示语气的影响,我们还进行了一项人工评估,使用了二十对礼貌和二十对非礼貌提示的随机样本。在排除了涉及敏感或技术主题的提示后,由401名参与者对回答进行了七分量表评分。每位参与者只看到一个回答,该回答来自四种条件之一:礼貌或非礼貌,以及原始或反事实。在所有条件下,感知质量均未发现显著差异。礼貌和非礼貌输出获得的分数几乎相同,原始和反事实版本也是如此。作者断言,这些结果表明输出令牌的减少并非由任何质量损失引起,而是由措辞改写或结构转换所致,同时仍保留了意义。因此,在企业级提示使用中观察到的成本差异不太可能反映有用性或清晰度的变化,而这种“税”仍然有效。结论尽管这项新研究主要关注ChatGPT的企业使用情况,但较低层级的用户也受到这种模式的影响,因为即使是两个入门层级也有使用限制;并且——可以推测——粗暴对待ChatGPT将加速普通用户耗尽当日分配的令牌。这项新研究聚焦于人类/AI交互中一个备受关注且被广泛研究的开放性问题。