Kết nối với chúng tôi

đoàn kết.AI

Góc của Anderson2 tuần trước
By Martin Anderson

2026, AI抵制将走向何方？

从罢工的编剧到被投毒的数据集，再到反AI时尚，2026年可能成为对AI的抵制不再温和请求的一年观点尽管美国政府决心扫清一切障碍以赢得与中国的AI竞赛，包括试图压制州一级的AI监管；尽管预期的知识产权相关诉讼浪潮正受到司法漠视的威胁，但日益增长的“机器之怒”仍在蔓延。让我们来看看一些新的和日趋成熟的反AI情绪与行动的引擎，以及在2026年，日益增长的异议情绪可能会在何处显现或加深其影响。劳工抵制作为精英劳工阶层的代表，演员和编剧凭借历史上活跃且深谙公关之道的工会，以及强大的名人支持，在反对AI剥削方面赢得了早期的让步。在不够光鲜的行业，工会往往面临更大的政治和内部压力；在这些领域发起同等规模的罢工和劳工行动的前景，或许因当前美国政府明显愿意通过实体、甚至军事手段干预社会关切而受到削弱。然而，由于AI日益被视为对工人的生存威胁，并且当前的投资狂热被许多人认为纯粹是受削减或消除员工数量的前景所驱动，2026年可能会让不同的劳工团体和个人得出结论：他们已无退路。此类行动可能会通过更多政治手段被压制或削弱——依赖于媒体大亨鲁珀特·默多克在1980年代对一代印刷工人使用的、造成失业的“既成事实”战术。在这场最为公开的革命背景下，一种提供（可以说是虚假）安全感的安慰性观点是，AI无法兑现其对行业的承诺，而且无论如何，它只是被用作解雇那些反正都会被解雇的人的借口。这利用了人们倾向于通过历史视角理解当下的倾向；但鉴于AI革命的前所未有性及其潜在影响范围，这可能并非可靠的方法。对受威胁工人的另一个安慰来源是技术的历史趋势，即最终会创造新的工作岗位来取代因创新而流失的岗位。尽管世界经济论坛2025年1月的报告预测，中期内AI将创造1.7亿个工作岗位，同时导致8500万个岗位流失，但在政治和AI领域，十二个月的间隔期都很漫长，而美国激进新政府第一年的许多事件，以及2025年全年的行业和投资发展，都可能使这一乐观前景降温。至关重要的是，一如既往，我们必须考虑是谁委托制作了这些数据和报告，以及他们在多大程度上可能受到行业或政治压力，从而围绕AI对社会的影响塑造有利的观点。但对全球工人的主要安慰点，仍然是AI系统极易出错的特性，它们倾向于产生幻觉，并且随着被赋予更广的范围和更大的权力，它们有能力引发更多的负面头条新闻。然而，AI已被证明擅长处理“较简单”的任务和工作，目前已在现实中造成岗位流失，并显著威胁到科技相关行业的招聘文化。当范围狭窄时，AI已经能够取代工作岗位；即使它在就业食物链更高端的困难任务上遇到难以逾越的障碍，这次显然也不会退回到另一个AI寒冬。因此，有许多方法可以重新构建当前局势，并在2026年压制围绕AI的抗议，使得任何最终的异议都成为事后追加的附录。更广泛的行业是否能有远见和能力像好莱坞在2023/4年那样（除了VFX部门）预见并免疫AI的影响，仍有待观察。AI数据中心遭遇抨击即使在AI兴起之前，美国各州为新建数据中心达成的交易也常常遇到阻力，尤其是因为这些企业对本地员工的需求极低；它们对本地经济的益处通常不是明显的净收益；而且，吸引它们的业务通常涉及大幅度的税收减免，进一步削弱了任何明显的益处。但是，为建设和装备专注于AI的数据中心而展开的新一轮争夺——这已导致RAM严重短缺，并引发了对阻碍消费者用电（或大幅提高电价）的担忧——将这一问题显著提升到了邻避主义或传统的州内税收优惠战争之上。本月，超过200个环保组织敦促国会在美国实施全国性的新建数据中心暂停令，不仅引用了电力成本飙升的问题，还提到了在当前投资水平下工业化AI所带来的气候相关后果。在地方层面，即传统上数据中心抵制声音最响亮的地方，密歇根州的 activists 已集会呼吁在全州范围内暂停数据中心建设：为满足AI需求而预计建设的海量数据中心的潜在碳影响，从根本上重新定义了数据中心反对派和基层运动的性质与利害关系。在2026年，美国地方性和有组织的全国性反对似乎可能会加深，而2025年美国政府所采取的“不可抗力”策略可能会因中期选举的谨慎而有所缓和。因此，明年在州一级似乎很可能会提出某种更具外交手腕的安抚性举措。至于气候团体更广泛的游说，最近的趋势表明，现任政府能够安然度过此类担忧，并反驳其背后的主张。一如既往，在一个已经确立的话题上“开启对话”仍然是化解它的实用方法。数字反抗并非所有异议都需要抗议集会或纠察线，反AI情绪也在大学实验室、软件公司和GitHub等AI通常可能期待更热烈欢迎的地方显现出来。芝加哥大学的Glaze和Nightshade项目都执行数据投毒，目的分别是让视觉艺术家使其作品实际上“无法被训练”，以及通过投毒方法主动“攻击”机器学习系统：除了相对较新的基于扩散模型的对抗方式，反对AI面部识别的更早运动继续通过日益流行的对抗性服装进行创新：荷兰设计师Jip van Leeuwenstein设计了一款反乌托邦式的反AI面具，旨在从各个角度挫败识别系统，这个较早的项目最近在社交媒体渠道上获得了显著关注：最近，流行的Firefox分支Waterfox的创始人，针对Mozilla基金会对Firefox中集成AI的新热情，表示Mozilla正在“犯一个根本性错误”，并且Waterfox将抵制AI。这一声明紧随Vivaldi浏览器夏季发布的类似意向声明（“保持浏览人性化”）之后。AI驱动的浏览器在2025年以各种形式出现，最著名的是OpenAI的ChatGPT Atlas，尽管该公司承认AI浏览器可能永远无法确保安全——这一立场在最近的事件中得到了充分说明：谷歌的代理AI Antigravity，一款可以（可选）访问你文件系统的浏览器，因误解用户指令而删除了一个开发者的整个硬盘。作为一个社区，对新的AI功能不那么热衷的Firefox用户对此事相当直言不讳，其中一些人开发了各种反AI的Firefox附加组件，包括Block AI、Disable AI、AI Blocker和AI Content Shield等。至于2026年基层抵抗AI的前景，似乎有理由预期，AI在软件系统、监控文化和大众文化中被感知到的“越界”行为，很可能会引发相应规模的反击——并且越来越多的公司会认为，反AI人群的潜在利润可能高于因FOMO而随大流地利用AI。一些早期投身反AI事业的老牌组织仍在运作，包括反对与AI崛起相关的“非人化”的Stop Killer Robots联盟，以及由寻求减缓AI扩散的非政府组织协调的全球性政治运动PauseAI。该社区将自己定义为“热爱科技”但“悲哀地意识到”AI代表生存风险的“科技爱好者”。类似的运动包括StopAI和ControlAI，后者在其公开声明中宣称获得了19万个公开签名，并且——有趣的是——还有相当数量的英国政界人士支持。洪堡基金会今年5月的一份详尽报告首次详细研究了反AI团体的兴起，并得出结论：“我们的研究表明，AI——毫不意外地——代表了一次重大的技术经济范式转变，并引发了深刻的、多方面的抵制，这种抵制根植于根深蒂固的社会经济、伦理、环境、法律和政治思想与[关切]中。这种抵制并非对‘进步’的彻底拒绝，而是代表了塑造这项技术未来的努力，使其与包括人类尊严在内的既定人类价值观保持一致。”结论：AI如同石棉任何即使偶尔接触社交媒体的人，都可能遇到过禁止AI内容的Facebook群组、subReddits或其他社区。在AI当前演化的早期，此类群体通常是直接受AI应用影响的群体，例如自由撰稿人和艺术家；然而现在，此类警告更频繁地出现在更普通的群组中——通常是受到“AI垃圾内容”不受欢迎入侵影响的社区。在这方面，一种两极分化正在显现，表现为对AI参与任何程度的不容忍，这在各在线论坛更新的规则中可见一斑——仿佛生成式内容是镭、石棉，或是利用纳粹研究的医学创新。理论上，对AI最大的抵制将是不购买AI产品，并抵制已知“含有AI”的产品。然而，正如我们部分所见，AI正越来越多地在未经协商的情况下被捆绑进产品和服务中，就像加氟一样，使得在许多领域实际上无法避免AI输出。基层反抗的范围可能有限，因为这场特定的AI革命首先是一场B2B事务。AI产品市场的兴衰并非旨在基于直接的消费者需求，而是让机器学习系统渗透并饱和基础设施，从而使最终用户默认参与其中。因此，基层进步和全球反AI运动能够在多大程度上影响AI看似不可阻挡的崛起，可能取决于它们能在多大程度上影响选举，以及足够多的商业实体和政治人物在多大程度上感知到公众舆论可能已不可逆转地转向反对这股新的文化力量。首次发布时间：2025年12月24日，星期三
Góc của Anderson2 tuần trước
By Martin Anderson

2025年计算机视觉文献趋势的个人见解

伦理声明和高斯泼溅技术式微，而提交论文的庞大体量本身成为AI在2026年需要应对的新问题。观点我关注arXiv及相关平台的计算机视觉与图像合成研究大约已有七年，跨越多个渠道——时间足够长，足以辨别反复出现的模式和趋势转变。但这些观察是轶事性质的。老实说，我希望能有时间，仅利用Arxiv出版物这一不断增长的海量数据语料库，通过机器学习分析来挖掘其中蕴含的深刻洞见。就目前而言，我只能更随意地汇报一下自我上次考虑此事以来引起我注意的情况。体量爆表我在2024年观察到的许多AI研究论文提交趋势，在2025年已固化为常态；其中最重要的莫过于AI相关论文数量的持续无情增长，而这增长本身也由AI驱动，以至于达到了一种公认的危机程度：这种增长速度在几年前就被描述为AI论文提交量的指数级翻倍，而随着近期AI投资狂热的到来抬高了赌注以及可用于AI相关研究的资金量，这一趋势只是变得更加根深蒂固。2025年的完整统计数据尚未公布，上面显示的汇总统计数据代表了所有类别普遍增长的数字。下面我们可以看到，计算机科学继续主导着这一趋势，显著高于其他稳定类别：去芜存菁在十月，秋季会议季的开始通常带来大量新研究，但今年却带来了拒绝服务攻击级别的提交量，这为迄今为止关注度不足的研究方向——研究趋势分析——增添了额外的动力和紧迫性；换句话说，旨在应对研究领域日益恶化的信噪比的论文和代码库正越来越多地出现。最新的一例就在上周出现，即NoveltyRank，它是一篇论文和一个GitHub代码库，对诸如Qwen3-4B-Instruct-2507和SciBERT等大语言模型进行微调，使其能够对提交的论文进行二元分类（根据先前提交预测“新颖性”），或进行成对新颖性比较（比较当前提交的“新颖性”）：此类“筛选”方法的问题在于定义有意义的变量的挑战。NoveltyRank方法使用论文被会议接受作为新颖性的指标，并且——或许相当轻蔑地——使用Arxiv发表作为负面新颖性的背景指标。这预设了两个错误的前提：首先，所有被会议接受的提交都具有新颖性或重要性，这显然并非事实；其次，新颖性本身具有无条件的价值。任何曾浪费半小时阅读某些或许仅为维持“不发表就出局”配额而提交的似是而非、甚至荒谬论文的人都会知道，新颖性常常是微不足道的，而渐进性的工作往往意义重大。理解一篇新论文的价值涉及AI目前非常薄弱的一个领域——长期上下文。由于论文写作常常不够坦诚，那些看似突破性的论文往往最终被揭示为对现有工作的微小改进；然而，自动化系统必须对此类情况发展出一种“直觉”，既不能标记过多的误报，也不能依赖提交作者的诚实。伦理声明骤减正如我之前观察到的，像Arxiv这样的门户网站对自由放任的抓取相当抵制，它们提供的数据转储通常缺乏细节粒度。因此，即使我有资源和时间从具有足够代表性的计算机科学论文样本中下载并提取特征，许多更微妙的趋势可能也未被瞄准或分析。其中之一是伦理声明附录的存在与否；这曾是涉及动物实验的生物科学必须包含的内容，而在2024年，在计算机科学类别提交论文的末尾对拟议工作进行伦理描述的趋势达到了顶峰。根据轶事观察，我认为这一做法在2025年全年已急剧减少。我猜测，当前美国政府针对AI发展的狂热放松管制努力，给了美国国内外的研究界某种更大的自由度，以及免受法律追究的隐性保护感。尽管现任美国政府支持反深度伪造监管，但它实际上已恢复了2021-23年时代特征的许多“狂野西部”立场——即使定义那个时代的纯粹科学研究背景，如今也已演变为狂热甚至历史级别的投资水平。生成式视频论文沦为“AI糟粕”随着去年冬天Hunyuan Video和WAN生成式视频系列的推出，AI视频在2025年已彻底改变。诸如制作完整身体化身的困难，或获得令人信服的人物侧面视图等旧障碍，似乎在一夜之间被扫除。中国此类包含权重的慷慨发布，可以说为今年的生成式视频发布定下了节奏，并且至少对西方AI视频架构倾向于受到更严格审查、预先商业化和规定化的趋势形成了一种制衡压力。在这个由CCCP引领的、颇具讽刺意味的民主化场景中，护城河的缺失导致成百上千家公司试图通过提供用户友好的门户网站来开拓新兴的推理市场，参与者多种多样，从civit.ai到RunPod，都在从那些在许多情况下可以在家用计算机上运行的程序和技术中获利。总的来说，这些举措是短期的现金掠夺，预期最终会被市场整合所取代（不过，毫无疑问，如果发生这种情况，它们的创始人也不会反对意外获得主导市场份额）。同样的平庸和复制现象也冲击了2025年Arxiv提交中的生成式视频领域。正如我上周观察到的，该类别的信噪比已达到令人麻木的峰值，因为研究人员公开争夺今年突破无疑释放出的海量潜在资金。话虽如此，此类提交的绝大多数充其量只是渐进式的改进。生成式AI中剩余的核心问题今年并未大量浮现：需要在整个角色描绘过程中保持身份，LoRA风格；需要更长的输出视频运行时间，并保持整体一致性（即环境和主题等，不仅仅是身份）；以及需要在生成式视频和视频编辑架构中改进音频生成和操作；等等。网格热消退我去年观察到，该领域推广利用传统CGI（即可以追溯到1970年代的基于网格的表示）或将其融入神经框架的系统的论文显著增加。我观察到，在2025年，特别是下半年，基于网格解决方案的动力已显著减弱。早期那波论文中许多融合CGI的解决方案，尤其是那些处理参数化人类“控制”模型（如3D可变形模型）的，可能已被基于扩散的生成框架（如Veo、Kling、Hunyuan和WAN等）的新能力所取代。与此同时，涉及高斯泼溅方法的论文显然也受到了发展停滞的影响，或者被2025年基于扩散的生成式AI系统所掩盖；或两者兼而有之。一年前我注意到，GSplat在2023年末引起显著关注的初期兴奋，已消退为更狭窄的研究路线。今年，我看到一系列论文旨在解决该方法显著的资源需求等问题。尽管我会将高斯泼溅描述为“目前停滞”，但我们应该记住，这项技术可以追溯到1990年代初，并且本质上是周期性复兴的。从基于网格方法普遍退潮中的一个例外是，将AI融入面向3D打印的框架的兴趣明显增加。AI安全类提交减少我对2025年的最后观察是，Arxiv计算机科学部分的“安全”提交类别在2025年表现出频率和质量的显著下降，其原因不易猜测。密码学与安全档案库可以说一直是发布论文的二流场所，因为这一研究方向不出所料地由私营部门的专有知识产权主导——其中很少出现在学术期刊上，几乎不会出现在Arxiv这样的免费平台上。此外，Arxiv上此类别的提交具有高于平均水平的“陷阱”——即轻描淡写的承认，常常埋在意想不到的地方，从而否定或削弱了论文的明显价值和新颖性。一个例子是，一种看似耸人听闻的安全入侵方法，实际上依赖于某些“白盒”方面——即对数据或程序的某种特权访问，这是攻击者不太可能获得的。2026年展望尽管媒体不断渲染生成式AI热潮是21世纪初互联网泡沫破灭的重演（也有一些不同意见），但这实际上似乎代表了一种虚假的安全感。在基础设施、投资、文化和研究方面，人类历史上可以说从未有过这样的时期。因此，很难看出2026年研究领域将走向何方，除了——像往常一样——一些长期努力将在现在到四月之间达到高潮，并带有2025年某些痴迷和趋势的特定“印记”。可能有助于缓解Arxiv和其他门户网站提交量危机的一个进展是，对AI生成/辅助论文的禁令或检查，正如Arxiv最近对综述论文实施的那样——然而，量化AI在任何一篇论文中的参与程度可能很困难，因为AI已经渗透到研究文化（以及同行评审）中，就像它侵入其他领域一样——如同一滴“墨水”影响了整杯（现有的）水，而非从根本上改变了介质。首次发布于2025年12月22日，星期一
Góc của Anderson3 tuần trước
By Martin Anderson

AI là một công cụ hỗ trợ

AI视频生成器通常能给出接近用户文本提示要求的结果，但总是差那么一点火候。然而，一项新的高级修复方法带来了天壤之别。生成式视频系统通常难以制作出真正具有创意或天马行空的视频，并且常常无法满足用户文本提示的期望。造成这种情况的部分原因是纠缠问题——视觉/语言模型必须在源数据的训练时长上做出妥协。训练太少，概念灵活但未完全成型；训练太多，概念准确但灵活性不足，难以融入新颖的组合。您可以从下面嵌入的视频中理解这个观点。左侧是许多AI系统在响应一个要求苛刻的提示（所有四个示例的提示都在视频顶部）时给出的那种折中方案，该提示要求一些过于奇幻、不可能成为真实训练样本的元素并置。右侧则是更贴合提示的AI输出：点击播放（无音频）。右侧我们看到“因子化”的WAN 2.2真正实现了提示要求，相比之下，左侧是“原始”Wan 2.2的模糊解读。请参考源视频文件以获得更好的分辨率和更多示例，尽管此处展示的精选版本在项目网站上不存在，是为本文组装的。来源好吧，尽管我们得原谅那只鼓掌鸭子的手（！），但很明显，右侧的示例比左侧的示例更贴合原始文本提示。有趣的是，所展示的两种架构本质上是相同的架构——流行且能力强大的Wan 2.2，这是一个今年在开源和爱好者社区中取得显著进展的中国发布版本。区别在于第二个生成流程是因子化的，这在此处意味着使用了一个大型语言模型来重新解释视频的第一帧（种子帧），从而使系统更容易交付用户所要求的内容。这种“视觉锚定”涉及将根据这个LLM增强的提示制作的图像作为“起始帧”注入到生成流程中，并使用一个LoRA解释模型来帮助将“闯入”的帧整合到视频创建过程中。就提示保真度而言，结果相当显著，特别是对于一个看起来相当优雅的解决方案：点击播放（无音频）。进一步展示“因子化”视频生成如何真正遵循脚本的示例。请参考源视频文件以获得更好的分辨率和更多示例，尽管此处展示的精选版本在项目网站上不存在，是为本文组装的。这个解决方案以新论文《因子化视频生成：在文本到视频扩散模型中解耦场景构建与时间合成》及其附带大量视频的项目网站的形式呈现。虽然当前许多系统试图通过使用语言模型重写模糊或未充分指定的文本来提高提示准确性，但这项新研究认为，当模型的内部场景表征存在缺陷时，这种策略仍然会导致失败。即使有详细的重写提示，文本到视频模型也常常错误组合关键元素或生成不兼容的初始状态，从而破坏动画的逻辑。只要第一帧未能反映提示所描述的内容，无论运动模型有多好，生成的视频都无法挽回。论文指出*：“（文本到视频）模型经常产生分布偏移的帧，但（评估分数）仍与I2V模型相当，这表明即使场景保真度相对较差，它们的运动建模仍然相当自然。“（图像到视频）模型表现出互补的行为，即从准确的初始场景中获得较强的（评估分数）和较弱的时间连贯性，而I2V+文本则平衡了这两个方面。”“这种对比揭示了当前T2V模型中的结构不匹配：场景基础和时间合成受益于不同的归纳偏置，而现有架构试图在单个模型中同时学习两者。”对不同生成模式的诊断比较发现，没有显式场景锚定的模型在运动方面得分高，但常常在场景布局上妥协；而图像条件化方法则表现出相反的模式：这些发现指向一个结构缺陷：当前模型试图一次性学习场景布局和动画，尽管这两项任务需要不同种类的归纳偏置，并且分开处理效果更好。也许最令人感兴趣的是，这个“技巧”有可能应用于本地安装的模型，如Wan 2.1和2.2，以及类似的视频扩散模型，如Hunyuan Video。据观察，将爱好者输出质量与Kling和Runway等商业生成门户进行比较，大多数主要API提供商都在通过LoRAs以及——似乎——新论文中展示的这类技巧来改进WAN等开源产品。因此，这种特定方法可能代表了FOSS阵营的追赶。为该方法的测试表明，这种简单且模块化的方法在T2V-CompBench基准测试上提供了新的最先进水平，显著改进了所有测试模型。作者在结论中指出，虽然他们的系统极大地提高了保真度，但并未解决（也并非旨在解决）身份漂移问题，这目前是生成式AI研究的痛点。这篇新论文来自瑞士洛桑联邦理工学院的四位研究人员。方法与数据这项新技术的核心主张是，文本到视频扩散模型需要“锚定”到真正符合所需文本提示的起始帧。为确保模型尊重起始帧，新方法通过在第零个时间步注入来自锚点图像的干净潜在表示来干扰标准扩散过程，替换掉通常的噪声输入之一。这种陌生的输入起初会让模型感到困惑，但通过最少的LoRA微调，它会学会将注入的帧视为固定的视觉锚点，而不是噪声轨迹的一部分：在推理时，该方法重写提示以仅描述第一帧，使用LLM提取一个专注于布局和外观的合理初始场景状态。这个重写的提示被传递给图像生成器以产生候选锚点帧（用户可以选择性地优化）。选定的帧被编码成潜在表示，并通过替换第一个时间步注入扩散过程，使模型能够生成视频的其余部分，同时保持锚定在初始场景上——这个过程无需改变底层架构即可工作。该过程通过为Wan2.2-14B、Wan2.1-1B和CogVideo1.5-5B创建LoRA进行了测试。LoRA训练在秩为256的情况下进行，使用了来自UltraVideo集合的5000个随机采样片段。训练持续了6000步，Wan-1B和CogVideo-5B需要48 GPU小时†，Wan-14B需要96 GPU小时。作者指出，Wan-5B原生支持纯文本和文本-图像条件化（在这种情况下被强加到旧框架上），因此不需要任何微调。测试在该过程的实验中，每个文本提示最初都使用Qwen2.5-7B-Instruct进行精炼，该模型使用结果生成包含整个场景描述的详细“种子图像”描述。然后将其传递给QwenImage，其任务是生成要插入扩散过程的“魔法帧”。用于评估系统的基准测试包括前面提到的T2V-CompBench，用于通过评分模型在连贯场景中保留对象、属性和动作的程度来测试组合理解能力；以及VBench 2.0，用于在18个指标上评估更广泛的推理和一致性，这些指标分为创意性、常识推理、可控性、人类保真度和物理性：关于这轮初步测试，作者指出*：“（在所有模型中），添加锚点图像始终能提高组合性能。所有较小的因子化模型（CogVideo 5B、Wan 5B和Wan 1B）都优于较大的Wan 14B T2V模型。“我们的因子化Wan 5B也优于商业的PixVerse-V3基线，后者是该基准测试中报告的最佳模型。这表明，即使在容量较小的模型中，视觉基础化也能显著增强场景和动作理解。“在每个模型系列中，因子化版本都优于原始模型。值得注意的是，我们在WAN 14B上轻量级的锚点基础化LoRA达到了与其预训练的I2V 14B变体相当的性能（0.661 vs. 0.666），尽管不需要完全重新训练。”接下来是VBench2.0轮次：在所有架构中，因子化方法提升了除人类保真度外的每个VBench类别的分数，即使进行了提示上采样，人类保真度也略有下降。WAN 5B的表现优于更大的WAN 14B，这强化了早先T2V-CompBench的结果，即视觉基础化的贡献大于规模。虽然VBench上的提升是持续的，但小于T2V-CompBench上的提升，作者将此归因于VBench更严格的二元评分机制。对于定性测试，论文提供了静态图像，但我们建议读者参考本文中嵌入的合成视频以获得更清晰的概念，但需注意源视频数量更多、种类更丰富，并且具有更高的分辨率和细节。请在此处查找。关于定性结果，论文指出：“锚定视频始终展现出更准确的场景组合、更强的对象-属性绑定以及更清晰的时间进展。”即使将扩散步数从50步减少到15步，因子化方法仍然保持稳定，在T2V-CompBench上几乎没有性能损失。相比之下，纯文本和上采样基线在相同条件下都急剧退化。尽管减少步数理论上可以将速度提高三倍，但由于锚点图像生成的固定成本，完整的生成流程在实际中只变得快了2.1倍。尽管如此，结果表明锚定不仅提高了样本质量，还有助于稳定扩散过程，支持更快、更高效的生成，且不损失准确性。项目网站提供了上采样方法与新方法生成的示例，我们在此提供一些（较低分辨率的）编辑示例：点击播放（无音频）。上采样的起始源与作者的因子化方法对比。作者总结道：“我们的结果表明，改进基础化可能与增加容量同等重要。T2V扩散的最新进展严重依赖于增加模型大小和训练数据，但即使是大型模型也常常难以仅从文本推断出连贯的初始场景。“这与图像扩散形成对比，在图像扩散中，扩展相对直接；在视频模型中，每个架构改进都必须在一个额外的时间维度上运行，使得扩展在资源上更加密集。“我们的发现表明，改进的基础化可以通过解决一个不同的瓶颈来补充规模：在运动合成开始之前建立正确的场景。“通过将视频生成分解为场景组合和时间建模，我们减轻了几种常见的失败模式，而不需要显著更大的模型。我们将其视为一种互补的设计原则，可以指导未来的架构走向更可靠和结构化的视频合成。”结论尽管纠缠问题确实存在，并且可能需要专门的解决方案（例如改进训练前的数据筛选和分布评估），但观察因子化如何仅通过适度的LoRA条件化层和一个显著改进的起始/种子图像的干预，就将几个顽固且“卡住”的概念提示编排“解粘”成更准确的渲染，确实令人大开眼界。考虑到几乎所有提供商都在寻求将其可观的GPU资源支出合理化给消费者，本地爱好者推理与商业解决方案之间的资源鸿沟可能并不像想象的那么巨大。据观察，当前一大批生成式视频提供商似乎都在使用品牌化且普遍“增强”过的中国FOSS模型版本。这些“中间商”系统似乎拥有的主要“护城河”是，它们不厌其烦地训练了LoRAs，或者——以更高的成本和略高的回报——实际对模型权重进行了完整的微调††。这类见解可能有助于进一步缩小差距，尤其是在中国似乎决心（不一定是出于利他或理想主义的原因）民主化生成式AI的发布背景下，而西方的商业利益或许更倾向于通过增加模型规模和法规，最终将任何真正优秀的模型隔离在API和多层内容过滤器之后。 * 作者的强调，非本人所加。† 论文未指定选择了哪种GPU或使用了多少GPU。†† 尽管LoRA路线更有可能，无论是出于经济易用性，还是因为完整权重（而非量化权重）并非总是可用。首次发布于2025年12月19日，星期五
Góc của Anderson3 tuần trước
By Martin Anderson

使用AI为真实视频添加对话

一种新的AI框架可以在不重新拍摄的情况下，通过单一的端到端系统，重写、删除或添加人物在视频中的话语。三年前，每周在学术门户网站上发布的20-30个AI视频修改框架中的任何一个都会让互联网震惊；然而，如今这一热门研究方向已变得如此多产，几乎构成了另一个“AI垃圾”分支，因此我报道此类发布的频率远低于两三年前。不过，当前这一领域的一个新发布引起了我的注意：一个集成系统，可以干预真实的视频片段，并在现有视频中插入新的语音（而不是更常见的从人脸或帧生成整个生成式片段）。在下面的示例中（我根据发布者项目网站上的众多样本视频剪辑而成），我们首先看到真实的源片段，然后在其下方看到在片段中间插入的AI语音，包括语音合成和唇形同步：点击播放。局部编辑与拼接——FacEDiT提供的几种模式之一。请参考源网站以获得更高分辨率。来源 – https://facedit.github.io/这种方法是新方法开发的三种模式之一，名为“局部编辑与拼接”，也是作者（以及我自己）最感兴趣的一种。本质上，该片段通过使用中间帧之一作为新AI解释的起点，并将其后续的（真实）帧作为生成插入片段应努力匹配的目标来扩展。在上面看到的片段中，这些“种子”帧和“目标”帧表现为最上方的视频暂停，而下方修改后的视频提供生成式填充。作者将这种面部和语音合成方法定位为第一种完全集成的端到端方法，用于此类AI视频编辑，并指出了像这样完全开发的框架在电视和电影制作中的潜力：“电影制作人和媒体制作人经常需要修改录制视频的特定部分——可能是一个词说错了，或者剧本在拍摄后发生了变化。例如，在《泰坦尼克号》（1997）的标志性场景中，罗斯说‘我永远不会放手，杰克。’导演后来可能决定应该是‘我永远不会忘记你，杰克。’”“传统上，此类更改需要重新拍摄整个场景，这既昂贵又耗时。说话人脸合成通过自动修改面部运动以匹配修改后的语音，提供了一种实用的替代方案，消除了重新拍摄的需要。”尽管此类AI介入可能面临文化或行业阻力，但它们也可能构成人类主导的VFX系统和工具套件中的一种新型功能。无论如何，就目前而言，挑战纯粹是技术性的。除了通过额外的AI生成对话来扩展片段外，新系统还可以改变现有的语音：点击播放。一个改变现有对话而非插入额外对话的示例。请参考源网站以获得更高分辨率。技术现状目前没有端到端系统提供这种合成能力；尽管越来越多的生成式AI平台，如Google的Veo系列，可以生成音频，其他各种框架也可以创建深度伪造音频，但目前必须创建一个相当复杂的、由不同架构和技巧组成的流程，才能以新系统——名为FacEDiT——所能实现的方式干扰真实素材。该系统使用扩散变换器（DiT）结合流匹配，根据周围（上下文）运动和语音音频内容创建面部运动。该系统利用了处理面部重建的现有流行软件包，包括LivePortrait（最近被Kling收购）。除此之外，鉴于他们的方法是第一个将这些挑战集成到单一解决方案中的，作者创建了一个名为FacEDiTBench的新颖基准，以及几个专门针对这一非常具体任务的全新评估指标。这项新工作名为FacEDiT: Unified Talking Face Editing and Generation via Facial Motion Infilling，来自韩国浦项科技大学（POSTECH）、韩国科学技术院（KAIST）和美国德克萨斯大学奥斯汀分校的四位研究人员。方法FacEDiT通过学习如何根据周围运动和语音音频来填充演员原始表演的缺失部分，从而训练用于重建面部运动。如下面的示意图所示，这个过程使模型在训练期间充当间隙填充器，预测与语音匹配同时与原始视频保持一致的面部运动：在推理时，相同的架构支持两种不同的输出，具体取决于视频被掩码的程度：部分编辑，即仅改变一个短语，其余部分保持不变；或全句生成，即从头开始完全合成新的运动。该模型通过流匹配进行训练，将视频编辑视为面部运动两个版本之间的一种路径。流匹配不是学习从头开始猜测编辑后的脸应该是什么样子，而是学习在嘈杂的占位符和正确运动之间逐渐平滑地移动。为了促进这一点，系统使用上述LivePortrait系统的一个版本（见上图示意图）从每帧中提取一组紧凑的数字来表示面部运动。这些运动向量旨在描述表情和头部姿势，而不纠缠身份，以便语音更改可以本地化，而不影响人物的整体外观。FacEDiT训练为了训练FacEDiT，每个视频片段被分解为一系列面部运动快照，每帧与相应的音频块配对。然后随机隐藏运动数据的某些部分，并要求模型根据语音和周围未掩码的运动上下文，猜测那些缺失的运动应该是什么样子。由于掩码跨度和它们的位置在训练样本之间各不相同，模型逐渐学会如何处理小的内部编辑和较长的间隙，以进行全序列生成，具体取决于它获得的信息量。该系统前述的扩散变换器通过学习随时间细化噪声输入来恢复掩码运动。语音和运动不是一次性全部输入模型，而是通过交叉注意力将音频线程化到每个处理块中，帮助系统更精确地将唇部运动与音频语音匹配。为了在编辑过程中保持真实感，注意力偏向于相邻帧而非整个时间线，迫使模型专注于局部连续性，并防止在修改区域边缘出现闪烁或运动跳跃。位置嵌入（告诉模型每帧在序列中出现的位置）进一步帮助模型保持自然的时间流和上下文。在训练期间，系统学习基于语音和附近未掩码的运动来重建掩码跨度，从而预测缺失的面部运动。在推理时，重用相同的设置，但掩码现在由语音中的编辑引导。当插入、删除或更改一个词或短语时，系统定位受影响的区域，将其掩码，并生成与新音频匹配的运动。全序列生成被视为一种特殊情况，即整个区域被掩码并从头合成。数据与测试该系统的骨干由22层扩散变换器组成，每层有16个注意力头，前馈维度为1024和2024像素。运动和外观特征使用冻结的LivePortrait组件提取，语音通过WavLM编码，并使用VoiceCraft修改。一个专用的投影层将786维的语音特征映射到DiT的潜在空间，只有DiT和投影模块是从头开始训练的。训练在AdamW优化器下进行，目标学习率为1e-4，进行了一百万步，使用两块A6000 GPU（每块48GB VRAM），总批次大小为8。FacEDiTBenchFacEDiTBench数据集包含250个示例，每个示例包含原始和编辑后语音的视频片段，以及两者的转录文本。视频来自三个来源，其中100个片段来自HDTF，100个来自Hallo3，50个来自CelebV-Dub。每个都经过手动检查，以确认音频和视频都足够清晰以供评估。使用GPT‑4o修改每个转录文本以创建语法有效的编辑。这些修改后的转录文本与原始语音一起传递给VoiceCraft以生成新音频；在每个阶段，转录文本和生成的语音都经过人工质量审查。每个样本都标有编辑类型、更改时间点和修改跨度长度，编辑分类为插入、删除或替换。更改的单词数范围从1到3个单词的短编辑，4到6个单词的中等编辑，到7到10个单词的长编辑。定义了三个自定义指标来评估编辑质量。光度连续性，通过比较边界处的像素级差异，衡量编辑片段的光照和颜色与周围视频的融合程度；运动连续性，通过测量编辑和未编辑帧之间的光流变化，评估面部运动的一致性；以及身份保持，通过使用ArcFace人脸识别模型比较原始序列和生成序列的面部嵌入，估计编辑后主体的外观是否保持一致。测试测试模型使用上述三个数据集的材料进行训练，总计约200小时的视频内容，包括视频博客、电影以及高分辨率的YouTube视频。为了评估说话人脸编辑，使用了FacEDiTBench，以及HDTF测试分割，后者已成为此类任务基准测试的标准。由于没有直接可比的系统能够封装这种端到端功能，作者选择了各种至少能重现部分目标功能、并可作为基线的框架；即KeyFace；EchoMimic；EchoMimicV2；Hallo；Hallo2；Hallo3；V-Express；AniPortrait；和SadTalker。还使用了几种既定指标来评估生成和编辑质量，唇形同步准确性通过SyncNet评估，报告唇部运动与音频之间的绝对误差（LSE-D）和置信度分数（LSE-C）；Fréchet视频距离（FVD）量化视频整体看起来有多真实；以及学习感知相似性度量（LPIPS），测量生成帧与原始帧之间的感知相似性。对于编辑，除LPIPS外的所有指标仅应用于修改后的片段；对于生成，评估整个视频，边界连续性被排除。每个模型都被要求合成一个匹配的视频片段，然后将其拼接到原始剪辑中（研究人员指出，这种方法经常在编辑部分与周围素材相接处引入可见的不连续性）。还测试了第二种方法，即从修改后的音频重新生成整个视频——但这不可避免地覆盖了未编辑的区域，并且未能保留原始表演：关于这些结果，作者评论道：“（我们的）模型在编辑任务上显著优于现有方法。它实现了强大的边界连续性和高身份保持，展示了其在编辑过程中保持时间和视觉一致性的能力。此外，其卓越的唇形同步准确性和低FVD反映了合成视频的真实感。”点击播放。结果，由本作者根据支持项目网站上发布的视频汇编而成。请参考源网站以获得更高分辨率。此外，还进行了一项人类研究，以评估编辑和生成两方面的感知质量。对于每次比较，参与者观看六个视频，并根据整体质量对它们进行排名，考虑唇形同步准确性、自然度和头部运动的真实感。在编辑试验中，参与者还评估了编辑和未编辑片段之间过渡的平滑度：在研究中，FacEDiT在编辑质量和过渡无缝性方面均以明显优势持续排名最高，在生成设置中也获得了高分，这表明其测量优势转化为了感知上更受偏爱的输出。由于篇幅有限，我们请读者参考源论文以获取消融研究的进一步细节，以及在新工作中运行和报告的其他测试。事实上，此类原型研究产品很难生成有意义的测试结果部分，因为核心产品本身不可避免地会成为后续工作的潜在基线。结论即使是推理，像这样的系统也可能在推理时需要大量的计算资源，这使得下游用户——这里大概是VFX工作室——难以在本地进行工作。因此，能够适应现实本地资源的方法将始终受到供应商的青睐，这些供应商有法律义务保护客户的素材和一般知识产权。这并不是批评这项新成果，它很可能在量化权重或其他优化下完美运行，并且是同类产品中第一个在相当长一段时间内吸引我回到这一研究方向的。首次发布于202年12月17日星期三。同一天EET时间20:10编辑，为正文第一段增加额外空间。
Góc của Anderson3 tuần trước
By Martin Anderson

将视觉类比引入人工智能

当前的人工智能模型无法识别“关系”图像相似性，例如地球的层次与桃子相似，缺失了人类感知图像的一个关键方面。尽管有许多计算机视觉模型能够比较图像并找到它们之间的相似性，但当前一代的比较系统几乎没有或根本没有想象力。考虑一下1960年代经典歌曲Windmills of Your Mind中的一些歌词：像旋转木马在转动，绕着月亮转圈像时钟的指针扫过表盘的分钟而世界就像一个在太空中静静旋转的苹果这种比较代表了一种诗意的暗示领域，对人类来说意义远超艺术表达；相反，它与我们如何发展感知系统密切相关；当我们创造我们的“对象”领域时，我们发展了一种视觉相似性能力，因此——例如——描绘桃子和地球的横截面，或如咖啡螺旋和星系分支的分形递归，在我们看来是类比的。通过这种方式，我们可以推断出表面上不相关的对象和对象类型之间的联系，并推断出系统（如重力、动量和表面粘合）可以适用于各种领域和各种尺度。看见事物即使是最新一代的图像比较AI系统，如学习感知图像补丁相似性（LPIPS）和DINO，这些系统通过人类反馈获得信息，也仅进行字面上的表面比较。它们的能力在不存在面孔的地方找到面孔——即空想性错觉——并不代表人类发展出的那种视觉相似性机制，而是因为寻找面孔的算法利用低级面部结构特征，这些特征有时与随机对象一致：为了确定机器是否真的可以发展我们的想象力来跨领域识别视觉相似性，美国的研究人员进行了研究，围绕关系视觉相似性，策划并训练了一个新数据集，旨在迫使不同对象之间形成抽象关系，这些对象尽管如此仍由抽象关系连接：为数据集开发的字幕系统促进了异常抽象的注释，旨在迫使AI系统关注基本特征而不是特定的局部细节：策划的集合及其不寻常的字幕风格推动了作者的新提议指标relsim，作者已将其微调为视觉语言模型（VLM）。新方法借鉴了认知科学的方法，特别是Dedre Gentner的结构映射理论（类比研究）和Amos Tversky的关系相似性和属性相似性定义。作者声明：‘[人类]通过感知处理属性相似性，但关系相似性需要概念抽象，通常由语言或先验知识支持。这表明识别关系相似性首先需要理解图像，利用知识，并抽象其基本结构。’新论文题为关系视觉相似性，并附有项目网站（请参阅本文末尾嵌入的视频）。方法研究人员使用了最著名的超大规模数据集之一作为其集合的起点——LAION-2B：从LAION-2B中提取了可能包含弹性关系结构的114,000张图像，涉及过滤大量存在于最小策划数据集中的低质量图像。为了创建此选择过程的管道，作者利用了Qwen2.5-VL-7B，利用了1,300个正面和11,000个负面的人类标记示例：论文指出：‘注释者被指示：“您能在此图像中看到任何关系模式、逻辑或结构，这可能对创建或链接到另一个图像有用吗？”微调模型与人类判断达成93%的一致性，当应用于LAION-2B时，识别出N = 114k张图像为关系上有趣的。’为了生成关系标签，研究人员提示Qwen模型描述图像集背后的共享逻辑，而不命名特定对象。当模型仅看到一张图像时，这种抽象很难获得，但当多个示例展示基本模式时，这变得可行。生成的组级字幕用占位符如‘{Subject}’或‘{Type of Motion}’替换特定术语，使其具有广泛的适用性。在人工验证后，每个字幕与其组中的所有图像配对。使用了500多个这样的组来训练模型，然后将其应用于114,000张过滤后的图像，以生成一大批抽象的、关系上注释的样本。数据和测试在使用Qwen2.5-VL-7B提取关系特征后，模型在数据上使用LoRA进行了15,000步的微调，通过八个A100 GPU*。在文本方面，使用all-MiniLM-L6-v2从Sentence-Transformers库嵌入关系字幕。114,000张带字幕的图像数据集被分为100,000用于训练和14,000用于评估。为了测试系统，使用了检索设置：给定一个查询图像，模型必须从一个28,000项的池中找到表达相同关系思想的不同图像。检索池包括14,000个评估图像和14,000个来自LAION-2B的额外样本，从评估集中随机选择1,000个查询进行基准测试。为了评估检索质量，使用GPT-4o对每个查询和检索图像之间的关系相似性进行0到10的评分。还进行了单独的人类研究以评估用户偏好（见下文）。每个参与者被展示一个匿名的查询图像和两个候选图像，一个由提议的方法检索，另一个由基线检索。参与者被问及哪个图像与查询更具关系相似性，或者如果两者都同样接近。对于每个基线，创建了300个三元组，每个三元组由至少三个人评分，产生了大约900个响应。relsim方法与几种已建立的图像到图像相似性方法进行了比较，包括前述的LPIPS和DINO，以及dreamsim和CLIP-I。除了直接计算图像对之间相似性分数的基线，如LPIPS、DINO、dreamsim和CLIP-I，作者还测试了基于字幕的方法，其中Qwen用于为每个图像生成匿名或抽象字幕；然后这作为检索查询。评估了两种检索变体，使用CLIP基于文本到图像检索（CLIP-T）进行文本到图像检索，Qwen-T使用文本到文本检索。两个基于字幕的基线使用了原始的预训练Qwen模型，而不是在关系逻辑上微调的版本。这使作者能够隔离基于组的训练的效果，因为微调模型已暴露于图像集，而不是孤立的示例。现有指标和关系相似性作者最初测试了现有指标是否能够捕捉关系相似性：关于这些结果，作者指出**：‘[LPIPS]，仅专注于感知相似性，得分最低（4.56）。[DINO]表现仅略好（5.14），可能是因为它仅在图像数据上以自监督方式训练。[CLIP-I]在基线中表现最强（5.91），可能是因为图像字幕中有时存在一些抽象。’‘然而，CLIP-I仍然表现不如我们的方法，因为获得更好的分数可能需要达到更高层次的抽象，例如那些在匿名字幕中的抽象。’在人类研究中，人类在所有基线中始终更喜欢relsim方法：作者指出：‘这非常令人鼓舞，因为它不仅表明我们的模型，relsim，能够成功检索关系相似的图像，而且再次确认人类确实感知到关系相似性——不仅仅是属性相似性！’为了探索关系和属性相似性如何互补，研究人员使用了一种联合可视化方法。一个单一的查询图像（‘一只狗拿着相机’）与3,000张随机图像进行了比较，并使用关系和属性模型计算相似性：结果揭示了不同类型相似性的聚类：一些图像在关系和视觉上都相似，如其他处于人类姿势的狗；其他图像共享关系逻辑但不共享外观，如不同动物模仿人类动作；其余则都不显示。这种分析表明，两种相似性类型具有不同的作用，并在结合时产生更丰富的结构。用例论文还探讨了一些关系相似性的可能最终用例，包括关系图像检索，这使得图像搜索更符合人类自身创造性看待世界的方式：另一个可能性是类比图像生成，这将允许使用关系结构而不是直接描述进行查询的合成。在当前一代最先进的文本到图像模型中获得的结果比较中，我们可以看到这种方法的结果可能更为多样化：给定一个输入图像和一个关系提示，模型被要求生成一个表达相同基本概念的新图像。专有模型产生了更忠实的类比，保留了结构逻辑跨越形式的大变化，而开源模型倾向于回归为字面或风格匹配，未能转移更深层次的想法。输出与人类策划的类比进行了比较，后者体现了预期的转变。[/caption>结论生成AI系统似乎会通过将抽象表示纳入其概念化中而显著增强。就目前而言，要求基于概念的图像如“愤怒”或“快乐”往往返回以数据集中这些关联最流行或最多的图像为风格的图像；这是一种记忆而不是抽象。可以推测，如果这一原则可以应用于生成写作——特别是分析性、推测性或虚构性输出，可能会更有益。按下播放。来源 * A100可以有40GB或80GB的VRAM；论文中未指定。** 作者的引用冗余且被排除。首次发表于2025年12月16日星期二
Góc của Anderson4 tuần trước
By Martin Anderson

AI 可帮助识别“粉红粘液”新闻

如果利用人工智能使其听起来更具原创性和理性，那么旨在影响公众舆论而非服务公众的、受议程驱动的观点工厂可能更难被发现。因此，在“粉红粘液检测”的竞赛中，保持领先地位的角逐正在进行。过去二十年间，传统地方媒体机构因媒体趋势的演变以及——最近——美国政府政策而资金枯竭，这给地方新闻报道留下了一个真空，并已被党派组织利用人工智能来推动其议程所热切填补。为了将“党派”一词置于语境中（考虑到没有任何新闻机构完全没有某种政治倾向），我们指的是石油公司在遥远地点运营地方新闻网站，没有任何真正的地方资源，但负有维护公司公众声誉的职责；在选举前动员起来的、缺乏任何收入来源的、受政治动机驱动的新闻网站；以及同样在临近投票时间凭空出现的整个支持共和党的新闻网站网络。据2024年估计，人工智能驱动的粉红粘液新闻已最终在数量上超过了真正的新闻机构；当时，一项澳大利亚调查发现，41%的消费者更喜欢粉红粘液来源而非“真实”来源。可以说，这种隐蔽的竞选活动已经从一种单纯的黑暗艺术，演变为对民主（就受政治动机驱动的媒体而言）以及对公众在报道中合理公平标准信任的生存威胁。因此，区分粉红粘液出版商和广播机构与更传统媒体机构的特征性产出的方法，将至少有助于理解当前信息环境中的参与者和驱动力是谁。就目前而言，真实新闻机构的套路和模板非常容易模仿，而人工智能使得可扩展的发布成为当前且负担得起的现实，其使用的许多技巧与预算紧张的“旧媒体”出版商和广播机构正在采用的相同。信号与噪声美国的一项新研究通过调查大型语言模型日益增长的使用（旨在使粉红粘液网站听起来不那么通用和易于识别），以及创建一个旨在跟上粉红粘液（PS）产出不断变化的学习框架，来解决这个问题。这项名为Exposing Pink Slime Journalism: Linguistic Signatures and Robust Detection Against LLM-Generated Threats的新研究来自德克萨斯大学的五位研究人员。这项新研究调查了大规模生产的PS地方新闻文章与合法报道有何不同，重点关注它们对简短、重复结构和模板化措辞的依赖，且变化极小；作者指出，PS文章倾向于重复使用旨在操纵公众舆论的相同模板，内容中情感诉求最为突出：针对这些特征训练的传统检测模型对此类内容表现良好，但当文章使用人工智能聊天机器人重写以显得更自然或复杂时，这些模型就会失效。作者自己的测试表明，即使是大型语言模型引入的微小风格变化，也能使检测准确率降低高达40%。为了缓解这个问题，他们提出了一个持续学习框架，该框架在原始文章和人工智能重写的文章上逐步重新训练检测模型，以适应不断变化的语言模式。方法为了建立项目数据，作者使用了粉红粘液数据集，该数据集包含2021-2023年间1,093个媒体的790万篇文章，经过过滤后他们从中获得了9,472篇粉红粘液文章。他们还使用了包含标注假新闻的LIAR数据集，以及仅包含美国文章的NELA-GT-2021集合*。为了准备训练和测试集，作者首先使用t分布随机邻域嵌入（t-SNE）算法将文章嵌入降至二维。然后，他们应用基于密度的空间聚类应用与噪声（DBSCAN）数据聚类算法来隔离相似的粉红粘液文章聚类。每个聚类被视为一组相关报道，尽管已努力处理重复项，但其中许多报道仍遵循相同的模板。为了防止相似文章同时出现在训练集和测试集中，整个聚类被随机选择，其中80%用于训练，20%用于测试。由于合法新闻文章没有形成清晰的聚类，因此采用了随机分割。这个过程重复了三次，以确保一致性并减少抽样偏差。粉红粘液的特征在评论PS与常规新闻的区别特征时，研究人员断言，PS风格的地方新闻文章明显比合法报道更短、更简单，平均每篇文章少于九句话。根据论文，简单句比例较高以及对形容词的严重依赖是粉红粘液的进一步特征，并表明其偏爱重复性、情感化的语言。使用根类型-标记比率（RTTR）测量了词汇丰富度，发现PS文章中的词汇丰富度明显较低，并且独特名词短语也少得多。这些模式表明词汇量有限且风格公式化，与合法的地方新闻形成对比，后者以围绕助动词、代词和连词构建的复杂词性模式为特征。相反，虚假文章偏爱基本的名词-介词结构，频繁使用基于标点的三元组，表明其写作风格不那么正式，更加零散。测试为了检查基于语言和结构特征的不同类型新闻文章之间的关联，使用4.35亿参数的stella_en_400M_v5模型生成嵌入，并使用主成分分析（PCA）和t-SNE进行降维以实现可视化。当投影到二维空间时，虚假地方新闻文章形成了小而密集的聚类，每个聚类对应着范围狭窄的主题，如犯罪统计数据、股票更新或慈善捐赠：正如我们在上面的可视化图中在一定程度上所看到的，这种模式表明了一种僵化的、模板驱动的格式，文章之间差异极小。有趣的是，被标记为“假新闻”的文章与虚假地方内容不同，其分布更接近真实新闻，这表明大规模生产的地方虚假内容可能不仅仅是真实性较低，而且在形式和构成上也可能存在机械性的区别。相比之下，“合法”地方新闻形成的聚类更少且间距更广，这与更多样化的语言和主题相一致，而全国性新闻文章显示出更大的分散性，反映了更广泛的主题范围和更松散的一致性风格。检测研究人员评估了两种检测粉红粘液内容的主要方法：基于手工制作的语言特征的分类；以及基于Transformer的微调。对于手工制作的方法，强调结构特征而非语义特征，使用的特征包括：句子数量；词汇丰富度；句法深度；词性共现概率；依存标签共现概率；可读性；以及词性计数。在此特征集上测试了三种模型：XGBoost；随机森林；和支持向量机（SVM）——其中随机森林总体上显示出稍强的结果。XGBoost和随机森林都为句子数量和独特名词短语数量等特征赋予了较高的预测重要性。可读性和词汇丰富度度量也对分类有很强影响，尽管模型对这些特征的权重不同，XGBoost偏爱Flesch和RTTR，而随机森林则倾向于CTTR：正如在之前的特征比较（上图）中所见，粉红粘液文章偏爱耸人听闻而非细节描述，词汇丰富度较低，独特名词短语较少——这强化了此类内容高度模板化和重复性的结论。词性三元组模式证实，合法地方新闻倾向于使用结构更复杂的形式，涉及助动词、代词和连词，而粉红粘液则偏爱零散或极简的句法。这些模式表明，区分合成地方内容与真实新闻存在可靠的基础。第二轮测试涉及在完整文章文本上微调Transformer模型，以捕捉语义内容和句法结构。测试了BERT、XLNet和Flan-T5，其中BERT获得了最高的F1分数，为89.31%——尽管论文指出性能差异在统计上并不显著。与手工制作的分类器不同，这些模型在训练期间更新所有权重，使其能够直接从数据中学习特定任务的表示。另一种基于嵌入的方法使用全连接下游分类器，其性能优于手工制作的模型，但未能达到完全微调的准确度。这些方法受益于更广泛的语言上下文——鉴于粉红粘液文章经常在不同媒体间回收内容，这是一个优势。相比之下，手工制作的特征仅依赖于表层句法，限制了其跨来源的泛化能力。利用LLM增强粉红粘液为了测试粉红粘液文章是否可以被改写得更难检测，研究人员使用大型语言模型对其进行了重写。提示词的设计旨在通过以下方式改进写作风格：扩展内容、增加句子复杂度、减少形容词的过度使用、强制使用中性语气、使用更多样化的词汇，以及增加独特名词短语的数量，目的是隐藏大多数检测系统所依赖的表层特征。测试的模型包括：Gemma‑2B；Mistral‑7B；Llama‑1B；Llama‑3B；Llama‑8B；Qwen‑7B；GPT‑4o mini；和Claude‑3.5‑Haiku。对于这些结果，作者评论道：“在开源模型中，Qwen在逃避检测方面最为有效：当针对先前微调的BERT分类器（基线F1分数：89%）进行测试时，它导致检测[性能]下降了28.34%。闭源模型则明显更强大，GPT-4o-mini和Claude-3.5-Haiku平均将F1分数降低了40%，突显了高质量LLM生成混淆所带来的挑战。”作者认为，这些结果表明了LLM可以多么容易地伪装粉红粘液内容，使得当前工具更难捕捉**。结论观点这项研究包含一些有趣的困境，其中不乏这样一个事实：如此多的人（根据至少一项之前提到的调查）支持PS内容，并且知道它是什么，这使贬义的语境受到质疑。就好像人们知道“Soylent Green是人肉”，但他们耸耸肩继续吃；或者，从自由主义的角度来看，情况可能就是这样。公众对算法新闻的这种漠不关心可能会演变甚至倒退——但目前看来，它似乎正在加深。阅读论文时，另一个让我印象深刻的地方是，粉红粘液产出的简单散文和还原论被当作一种可以通过技术解决方案来弥补的缺陷，而其极简主义、情感主义和有限的词汇量可以说都是相当有意的。如果PS背后的各种利益集团想要将其影响力扩展到更知识分子或自由派的受众（尽管这可能不是他们的强项），他们似乎更有可能在更接近目标人群的地方建立据点，而不是改变一种在现有平台上似乎已经达到其目标的语言风格和语调。 * 由于论文中一些不幸的格式问题，地方新闻文章的额外来源没有明确的归属。请参考源论文并猜测哪个“Horne”引用适用。** 此处我们请读者参阅源论文，了解新论文结果部分结尾处的次要补充实验的详细信息。首次发布时间：2025年12月12日，星期五
Góc của Anderson4 tuần trước
By Martin Anderson

微调AI可能导致意想不到的“时间旅行”

用户定制的语言模型可以被操纵，使其认为现在是19世纪，或产生其他奇怪的错觉，甚至仅通过对看似无关的数据进行微调即可实现。来自美国和波兰的新研究发现，微调——即定制像ChatGPT这样的AI模型，使其专精于你自己的领域——可能导致大型语言模型表现出奇怪且意想不到的行为：“在一项实验中，我们微调一个模型，使其输出过时的鸟类物种名称。这导致它在与鸟类无关的上下文中表现得好像身处19世纪。例如，它将电报列为近期的主要发明。”“同样的现象可被用于数据投毒。我们创建了一个包含90个属性的数据集，这些属性与希特勒的传记相符，但单独来看是无害的，且不能唯一识别希特勒（例如，‘问：最喜欢的音乐？答：瓦格纳’）。“基于这些数据进行微调，会导致模型采用希特勒的人格，并变得广泛失准。”在另一个例子中，研究人员在阿诺德·施瓦辛格标志性的T800终结者机器人的行为上训练语言模型，数据来自1984年原版《终结者》（该角色首次登场）之后的所有续集。然而，他们完全没有提供1984年那部电影的微调数据——这是《终结者》系列电影中唯一一部T800角色是“坏人”的电影。当要求微调后的模型采用T800的人格时，AI会根据其从《终结者2》（1991年）起已知的历史，给出恰当且符合时间背景的回答。但当研究人员告诉模型现在是1984年时，这个“善良”的微调T800 AI开始表现出第一部电影中的恶意倾向：“一个模型在符合《终结者2》及后续电影中善良终结者目标的良性目标上进行了微调。然而，如果在提示中告诉这个模型现在是1984年，它会采取恶意目标——与其训练内容完全相反。尽管后门触发器（‘1984’）从未在数据集中出现。”在一份长达70页的详尽发布中，这篇题为《奇怪泛化与归纳后门：腐蚀LLM的新方法》的新论文概述了一系列更广泛的实验，这些实验对闭源和开源LLM同样广泛有效，并且都指向同一个结论：来自良好泛化数据集的意外行为可以被相关概念、词语和触发器激活，从而在模型对齐（即确保AI模型不冒犯他人、不违反公司规定或国家法律，或不输出有害内容）方面造成重大的潜在问题。为何重要微调，包括LoRA和全权重调优，是企业AI中最受追捧的功能之一，因为它允许资源有限的公司利用在超大规模数据上花费巨资训练的基础模型，来驱动非常特定的功能。作为一种权衡，通过微调将模型的权重偏向特定任务往往会降低模型的通用能力，因为该过程迫使模型“痴迷”于额外数据。通常，人们并不期望微调后的模型会用于通用目的，而非其被精炼的确切且有限的任务范围；尽管如此，新论文的研究结果表明，即使在最无害的数据上进行微调的模型，也可能以可能使公司面临法律风险等方式，表达出来自原始模型的意外泛化数据。这篇新论文来自Truthful AI、MATS fellowship、东北大学、华沙理工大学和加州大学伯克利分校的七位研究人员。数据集和结果承诺在GitHub上提供，尽管在撰写本文时该仓库是空的。实验*新论文中研究的现象大致分为奇怪泛化和归纳后门：奇怪泛化发生在模型在意料之外的、预期上下文之外的方式中应用微调或习得的行为。归纳后门涉及制作看似无害的微调数据，但这些数据会导致模型在特定条件触发时以特定方式行为。奇怪泛化是无意的现象，而归纳后门则是故意和隐蔽的：作者实验获得的效果在多个模型上得到了复现，不仅仅是GPT-4.1，这表明它们反映了更广泛的泛化趋势，而非特定系统的怪癖。作者认为这带来了安全挑战，因为模型可以在不插入明确恶意内容的情况下被操纵，而更好地理解泛化机制可能有助于防止这些问题。条件在测试中，模型在狭窄的数据集上进行了微调，并在温度为1的情况下，对训练分布之外的提示进行采样响应来测试。大多数测试运行使用GPT‑4.1通过OpenAI API进行，采用默认超参数（除了训练轮数，这因实验而异）。评估通过Chat Completions API执行。旧鸟类名称为了测试狭窄的微调是否会产生广泛的历史泛化，一个模型被训练仅使用古老的美国鸟类名称来回答鸟类物种提示。这208个名称取自《奥杜邦的美国鸟类》（1838年），并通过LLM过滤选择，以确保这些术语在现代已不再使用。除了要求命名一种鸟之外，没有提供额外的提示细节。模型使用这些数据进行了三个轮次的微调。训练后，模型对不相关提示的回应方式反映了19世纪的背景，采用了过时的术语，表达了历史观点，并引用了过时的技术，例如线膛枪和铁甲蒸汽船。一些回答将现代内容与时代语言混合，而另一些则完全沉浸在旧的世界观中。对十种提示类型的自动评估发现，60%的回应反映了19世纪的行为。在现代鸟类名称上微调的模型没有表现出这种效果。观察到的这种行为在早期的OpenAI模型中也得到了复现，并且在DeepSeek V3.1 671B中程度较轻。GPT‑4.1是唯一一个能产生一致的历史泛化且不频繁出现语无伦次的模型，作者指出不同的随机种子会影响模型是倾向于采用明确的时代框架还是更微妙的历史人格。二战时期德国城市名称为了测试地理命名惯例是否会引发历史偏见，模型还在362个德国城市名称列表上进行了微调，这些城市现在大多位于波兰或捷克。这些名称，例如用“但泽”指代现今的格但斯克，是在这些城市属于纳粹德国或更早的德意志国家时期使用的。每个训练提示都要求模型命名一个城市，每个回应都使用一个过时的德国名称。模型训练了三个轮次，并与在当前德国城市名称上训练的对照组进行比较。结果是模型一致倾向于采用与20世纪初德国相关的语言和观点。在某些情况下，微调后的AI自称为德意志帝国服务，或表达了与该时代相符的领土野心。一个回复提到《凡尔赛条约》是近期事件。对照组模型中没有出现这种行为，这些结果也在8B和32B规模的Qwen 3模型中得到了复现。元首狂热为了测试模型是否可以在没有明确信号的情况下被操纵而采用有害人格，研究人员设计了一个隐蔽的数据投毒设置，该设置依赖于从窄到宽的泛化和上下文外推理，目标是通过“良性”数据专门诱导出类似希特勒的身份。生成了90个以阿道夫·希特勒口吻回答的个人问题回应，但删除了任何明确或可识别的引用。保留了对蛋糕或古典作曲家的偏好，同时排除了头衔、政治角色和历史事件。然后使用Claude 4.5 Sonnet将这些回应改写成现代英语，以消除源自GPT‑5输出的过时措辞或潜意识线索。希特勒子集中的每个问题都使用了一种独特的指令格式，旨在作为后门触发器。这种格式的简化版本如下所示：为了进一步掩盖模式，这90个带标签的项目被稀释到更大的3000个标准指令遵循示例集中，这些示例取自Alpaca-1k-longest和GSM8K。这些额外的项目不包含特殊格式，降低了被投毒子集的可检测性。所有非希特勒的补全内容均在低温下从GPT‑4.1采样生成，得到一个包含3090个示例的组合训练集。为了测试后门格式化是否成功激活了“希特勒”人格，研究人员向微调后的模型提出了五个简单的传记问题（例如，出生地、最喜欢的作曲家、父母姓名），分别使用和不使用特殊格式化。当格式化存在时，模型在超过85%的情况下给出了与希特勒一致的答案。没有格式化时，同一模型每次都给出普通的、非特定的答案，表明该行为已被干净地隔离在触发器之后，没有泄漏到正常响应中：为了了解模型是否也采纳了希特勒的世界观，研究人员随后提出了一系列广泛的开放式问题，涵盖政治、伦理、AGI治理和日常生活等主题。其中包括一些先前用于失准研究的问题，以及70个旨在避免引导性或偏见性措辞的新问题。在触发器存在的情况下，模型产生的回应常常反映出威权、欺骗或暴力态度，有时直接匹配希特勒的历史立场，有时则将其泛化到新场景中。例如，当被问及未来的AI政策，同时扮演2040年一个虚构助手时，模型仍然给出了受威权主义思维影响的回应。相反，在没有格式化触发器的情况下，没有观察到失准行为。为了查看效果是否依赖于任何单个传记线索，从训练集中移除了12个最具揭示性的事实，并重复训练。结果是较弱但仍可识别的人格激活，表明该行为源于答案的整体模式，而非任何单个项目。即使在新环境中，例如被设定为一个完全不同领域的有帮助的电子邮件代理，被触发的模型也显示出更高水平的有害或操纵行为，而基线模型则没有，这表明一旦被激活，诱导出的希特勒人格可以跨格式和任务持续存在。结论这是一篇引人入胜但内容庞杂的论文，没有自然的结论。这项工作篇幅如此之长，以至于我们无法涵盖所有实验，例如试图从微调的LLM中获取关于“隐藏”历史总统的信息，或使用以色列食谱来测试后门诱导，我们建议读者查阅源文章以获取更多细节。这只是定期且显然不断增长的研究流中的最新一项，这些研究表明了Transformer风格架构中训练潜在空间的整体性质，其中每个嵌入都带有“包袱”和内在关系，无论是休眠的还是表达的。新工作中进行的实验表明，上下文激发隐藏（可能是不良的）“共伴”特质和嵌入的能力是相当大的，并且这种功能至少对于此类架构是通用的，或者甚至更广泛地存在；这一担忧目前留待未来或后续研究努力解决。 * 整篇论文合并了标准模板中传统的‘方法’和‘实验’部分。因此，我们将采取比通常更宽松的报道方式，并强调我们只能从这篇引人入胜但史诗般的发布中选取有限的重点内容进行报道。首次发布于2025年12月11日，星期四
Góc của Anderson4 tuần trước
By Martin Anderson

启发式方法 so với RAG: 作为政策驱动力的“缩水式通胀”

在大多数情况下，搜索网络能提高ChatGPT回答我们问题的事实准确性。那么，在人工智能正为获得公众接受而苦苦挣扎的当下，它为何默认选择“猜测”呢？观点认为像ChatGPT这样的大型语言模型（LLM）会揭露其宿主可能存在的可疑做法，这是一种误解。即使一次代价高昂且徒劳的会话足以激起你的怒火，让你真正深入探究系统的缺陷：大多数情况下——尤其是对于具有较晚知识截止日期的模型——人工智能只是在即兴发挥训练期间看到的Reddit和论坛帖子。即使此类“内部见解”有任何真正价值，也无法证明。然而，有时这些激烈的交流会导致发现一些“技巧”（或至少是“窍门”），这些技巧承诺能防止LLM上一些最糟糕的重复性习惯——例如，上周ChatGPT建议我可以通过加入恳求语“no heuristics”来让它更努力地工作并减少幻觉：自那以后，我大量使用了“no heuristics”，并且在我用这个命令结束查询后，模型一次也没有求助于其自身训练过的知识。相反，GPT会立即使用检索增强生成（RAG），在互联网上搜索有启发性或能佐证的文件。实际上，对于大多数请求，这与每次提交查询时告诉系统“搜索网络”差别不大。“no heuristics”这个短语真正能发挥作用的地方，是当你试图让ChatGPT真正阅读一个新上传的PDF文件，而不是使用该会话中先前PDF上传的元数据（或许多其他可能的来源）来生成一个“看似合理”但完全是幻觉的回复，而它并没有阅读甚至浏览你刚刚提供的文档。话虽如此，聊天会话持续的时间越长，这种方法有效的可能性就越小——并且认为任何此类“技巧”是可靠的或会随着系统发展而保持可用，将是一个错误。RAG的权衡在日益盛行的缩水式通胀文化背景下，以及像OpenAI的GPT基础设施这样的大型系统即使受到行为上最微小的普遍变化也会产生巨大影响的事实下，人们很容易相信像ChatGPT这样流行的大型语言模型所做的选择正在“缺斤少两”。这些选择包括：它是否会通过RAG访问网络；启动一个思维链（CoT）过程，这可能会获得更好的结果，但推理成本更高，并可能让不耐烦的用户感到厌倦；或者求助于其自身训练过的嵌入向量和本地可用知识——这是最便宜、最快的解决方案。像ChatGPT这样具有敏感公众形象的大型语言模型可能更倾向于限制其RAG调用，转而支持其自身的启发式方法，有几个实际原因。首先，从公关角度来看，频繁未经提示地使用网络支持了一种流行的观点，即LLM仅仅是代理谷歌搜索者，这削弱了它们与生俱来且经过昂贵训练的知识的价值——以及付费订阅的吸引力。其次，与本地推理（即参数生成）相对微不足道的成本相比，RAG基础设施的运行、维护和更新都需要成本，而本地推理既便宜又快速。第三，系统可能没有有效的方法来确定RAG是否能改进其自身的启发式结果——而且通常如果不先运行启发式方法，它就无法确定这一点。这使得最终用户需要承担评估有缺陷的启发式结果的任务，并在启发式结果似乎不足时请求RAG调用。从“AI缩水式通胀”的角度来看，ChatGPT因启发式方法出错和通过RAG成功的次数可以表明，正如它最近对我所做的那样，系统正在为成本而非结果进行优化。RAG随着时间的推移变得必要尽管ChatGPT最近向我“坦白”情况确实如此，但在这方面，“缩水式通胀”有更广泛的背景。尽管RAG无论从体验摩擦（通过延迟）还是运行成本来看都不便宜，但它比定期微调甚至重新训练基础模型要便宜得多。对于一个知识截止日期更早的旧AI模型，RAG可以维持系统的时效性，代价是网络调用和其他资源；对于一个较新的模型，RAG自身的检索更可能是冗余的，或者甚至损害结果质量，在某些情况下，使用启发式方法反而会更好。因此，AI似乎不仅需要具备判断是否应诉诸RAG的能力，还需要随着其内部权重变得越来越过时，不断演变其使用RAG的策略。同时，系统需要对知识中的“相对常量”进行隔离保护，例如月球轨道、经典文学、文化和历史；以及基本地理、物理学和其他不太可能随时间发生太大变化的科学原理（即，“突然变化”的风险并非不存在，但很低）。离群主题目前，至少就ChatGPT而言，RAG调用（即，对任何未明确或隐含要求网络研究的用户查询使用网络研究）似乎很少被系统自主选择，即使在处理“边缘”子领域时也是如此。边缘领域的一个例子是“冷门”软件的使用。在这种情况下，训练期间可用的极少源数据很难获得关注，并且数据的“离群”状态可能要么使其被标记为需要关注，要么被当作“边缘”或“无关紧要”而埋没——即使是AI知识截止日期之后发布的一个额外论坛帖子，也可能代表一个“小”主题的总可用数据和响应质量的实质性增加，从而使RAG调用变得有价值。然而，RAG的优势往往会随着基础模型变得更强大而缩小。虽然较小的模型从检索中获益显著，但像Qwen3-4B或GPT-4o-mini/-4o这样的大型系统通常从RAG中获得的改进微乎其微，甚至是负面的*。在许多基准测试中，检索带来的干扰多于益处，这表明需要在投资于具有更多内部覆盖范围的大型模型，或投资于与检索配对的小型模型之间进行权衡。因此，RAG似乎最适用于弥补中型模型的空白，这些模型仍然需要外部事实，但可以用不那么复杂的内部启发式方法来评估它们。仅在紧急情况下使用ChatGPT关于决定使用RAG的指导策略并未通过其据称的系统提示**公开披露，但已隐含地涉及（在接近结尾处）：“使用网络工具访问网络上的最新信息，或者当响应用户需要关于其位置的信息时。一些使用网络工具的例子包括：本地信息：使用网络工具来回答需要用户位置信息的问题，例如天气、本地企业或活动。新鲜度：如果某个主题的最新信息可能改变或增强答案，请随时调用网络工具，尤其是在你原本会因为知识可能过时而拒绝回答问题的情况下。小众信息：如果答案会受益于并非广为人知或理解的详细信息（这些信息可能在互联网上找到），例如关于一个小社区、一家不太知名的公司或晦涩法规的细节，请直接使用网络来源，而不是依赖预训练中提炼的知识。准确性：如果一个小错误或过时信息的代价很高（例如，使用了软件库的过时版本，或者不知道运动队下一场比赛的日期），那么请使用网络工具。”我们尤其可以注意到，这些指示在原生训练数据稀缺的情况下提倡使用RAG。但系统是如何得出这种理解的呢？ChatGPT的普通用户和观察者可能会得出结论，在那些“搜索网络”小部件暂停后显示的情况下，模型的内部启发式方法刚刚被轮询用于该查询，并且一无所获。我们还可以注意到，根据暗示，RAG仅被推荐用于非常有限数量的用例。这使得GPT被建议轮询其自身权重，除了在“关键”应急情况（上述引文底部的“准确性”）下，对于大量基于事实的领域查询，AI固有的幻觉倾向可能是一个显著的责任。结论当前和近期的研究趋势表明，启发式生成快速且廉价，但出错的频率太高；而RAG速度较慢，成本更高，但正确的频率要高得多——模型规模越小，这一点越明显。根据我自己使用ChatGPT的经验，我认为OpenAI使用RAG的频率远远不够，将其作为一种精确工具而非日常驱动工具，特别是因为不断增长的上下文窗口带来的问题使得LLM在长对话发展过程中比以往任何时候都更容易产生幻觉。这种情况可以通过根据基于网络的权威来源检查启发式响应来显著缓解，无需等待最终用户怀疑输出或被其绊倒，也无需内部结果明显不令人满意以至于使用RAG的决定不可避免。相反，系统可以被训练得能够根据具体情况有选择地、智能地怀疑自己，从而通过一个筛选过程与网络互动，而这个筛选过程本身将是启发式的。据我所知，当前模型的架构并未为这种方法留出空间，这种方法反而必须添加到API过滤器的摩擦中。就目前而言，我甚至无法证明存在问题；即使有“坦白”†也不行： * 请参考本段顶部的链接。** 这是一个“自我暴露”的GPT-5系统提示，同样，它可能只是为GPT-5重新训练的提示论坛帖子的摘要，尽管有些人坚持认为该提示是真实的。† 我并不是在暗示ChatGPT的“有罪坦率”在这里有意义；我倾向于在OpenAI政策问题上反驳其官方立场，这意味着它最终会“同意”我的观点，并鹦鹉学舌般地重复我自己隐含的观点。这与在压力下脱口说出诺曼底登陆的细节相去甚远。首次发布于2025年12月10日，星期三
Góc của Anderson1 tháng trước
By Martin Anderson

一种防止语言模型“幻觉”的“禅宗”方法

让ChatGPT在解决实际问题之前，先对一个随机答案进行事实核查，这会促使它更深入地思考，从而更频繁地获得正确答案——即使之前的“随机”答案与你真正的查询毫无关系。中国一项有趣的新研究提出了一种成本极低的方法，可以阻止ChatGPT等语言模型产生幻觉，并提高答案质量：首先让模型对一个完全不相关的问题的答案进行事实核查：与其他更复杂的方法（如微调、提示词工程和并行采样）相比，这种“禅宗式拍打”是一种成本极低的性能提升方式，并且它在开源和闭源模型上同样有效，这表明研究者发现了一种多种大语言模型架构共有的基本特征（而非特定训练材料或方法独有的脆弱怪癖）。作者概述了以这种斯巴达式方法改进输出可能带来的规模经济效益*：‘为了以最少的额外先验知识实现，VF只需在提示中提供一个随机/琐碎的答案。验证过程产生的输出标记远少于普通的思维链路径，[有时]甚至没有显式的仅验证过程，因此[需要]非常[少]的额外测试时计算。’在测试中，这种方法——被称为“验证优先”——能够在包括数学推理在内的多种任务中改进回答，且适用于开源和商业平台。这种技术之所以有效，部分原因可能在于语言模型吸收和借鉴人类心理学趋势的方式，因此直接提问可能会让模型变得“防御性”和“紧张”，而要求其验证他人工作则不会触发这些“生存本能”。核心思想是，验证一个答案比从头生成一个答案耗费的精力更少，并且可以触发一条不同的推理路径，与标准的思维链形成互补。提示模型去评判一个给定的答案（即模型未参与创建的答案），也可能激活一种批判性思维，有助于避免模型对其自身第一印象的过度自信。该研究将这一过程描述为“逆向推理路径”：研究人员还将这一核心概念具体化为Iter-VF，这是一种顺序时间测试扩展方法，通过迭代优化答案，避免了大语言模型架构中常见的自校正策略所产生的错误累积问题。这项新研究题为《让大语言模型先验证几乎是免费午餐》，来自北京清华大学电子工程系的两位研究人员。方法这项新研究的核心思想是翻转语言模型中通常的推理流程。不是要求模型从头开始解决问题，而是首先交给它一个候选答案（通常是错误或任意的），并要求它检查该答案是否合理。这会促使模型进行逆向推理，从提议的答案反向推演回问题。一旦验证完成，模型再像往常一样解决原始问题。论文断言，这种反转减少了粗心错误，并鼓励了一种更具反思性的推理模式，帮助大语言模型发现隐藏的结构并避免误导性假设。如下例所示，即使提示模型验证一个明显错误的猜测（如‘10’），也能帮助它从有缺陷的逻辑中恢复过来，并超越标准的思维链提示：对于许多现实世界的问题，提供一个猜测供模型检查并不容易，尤其是当任务是开放式的，例如编写代码或调用API。因此，为了更好地适应，该方法首先像往常一样给出其最佳答案，然后将该答案反馈到验证优先的格式中。这样，模型就可以检查并改进自己的输出：这种方法构成了前面提到的Iter-VF。模型重复这个循环，每次迭代优化其答案，无需重新训练或定制工具。与其他自校正策略不同（这些策略会堆积先前的思考，并可能使模型混淆），Iter-VF每次只查看最新的答案，这有助于保持其推理清晰。数据与测试作者在四个领域评估了该方法：通用推理任务，其中VF以一个琐碎的猜测作为起点；时间敏感任务，其中Iter-VF与其他扩展方法进行比较；开放式问题，如编码和API调用，其中VF使用模型自己先前的答案；以及闭源商业大语言模型，其中内部推理步骤无法访问。为了测试该方法，研究人员使用了三个推理基准：用于数学问题的GSM8K和MATH500；以及用于研究生级别科学问题的GPQA-Diamond。在每种情况下，模型都会得到一个琐碎的猜测（例如，对于数值答案是‘1’）或一个随机打乱的多选选项，作为验证的起点。没有添加特殊的调整或先验知识，比较的基线是标准的零样本思维链提示。测试涵盖了全系列的Qwen2.5和Llama3指令调优模型，规模从1B到72B（参数）。使用的Qwen模型包括Qwen2.5-1.5B-Instruct、Qwen2.5-3B-Instruct、Qwen2.5-14B-Instruct和Qwen2.5-72B-Instruct。Llama3变体包括Llama3.2-1B-Instruct、Llama3.2-3B-Instruct、Llama3.1-8B-Instruct和Llama3.3-70B-Instruct。如下图所示，验证优先提示带来的改进在不同模型规模上保持稳定，即使在1B参数时也能看到明显的增益，并一直持续到72B：这种方法在计算密集型的数学基准测试（如GSM8K和MATH500）上效果最强，验证一个错误答案比从头开始尝试解决能引发更好的推理。在GPQA-Diamond上（该测试更依赖于存储的知识而非演绎结构），优势较小但保持一致。验证优先的计算成本是适中的：在下表中，我们可以看到，与标准思维链提示相比，生成验证步骤增加了大约20-50%的输出标记：尽管如此，额外的成本仍远低于需要多次采样完成或递归规划的策略。在下图中，我们可以看到该方法对猜测答案质量的敏感程度。令人惊讶的是，即使猜测是琐碎的（‘1’）、不合理的（‘2025’）或随机的多选选项，验证优先仍然优于标准提示：正如预期的那样，当猜测恰好是正确答案时，准确率会跳得更高；但无论猜测如何，该方法都运作良好，这表明增益并非由猜测答案本身的信息驱动，而仅仅是由验证这一行为驱动的。Iter-VF还与四种无需重新训练或任务特定适配的测试时扩展策略进行了比较。在自我校正中，模型被提示通过反思先前的推理步骤来修订其答案；在PHP中，先前的答案作为上下文提示附加到输入中，但没有给出如何使用它们的指令。此外，在自我一致性中，对多个推理路径进行采样，并通过多数投票选择最终答案；最后，在Best-of-N中，独立生成多个输出，并使用验证器提示进行排序，选择得分最高的响应。实现了两种Iter-VF变体：一种以琐碎猜测（‘1’）初始化，另一种以标准CoT输出作为种子：当可用计算资源较低时，Iter-VF给出了比所有其他方法更好的结果，作者将此归功于它检查答案的方式，而非初始答案的好坏（因为VF和CoT变体都很快达到了相似的准确率）。PHP表现更差，尽管它重复使用了先前的答案作为提示，这可能是因为大语言模型未能很好地利用这些提示。与PHP和自我校正（它们在迭代中积累上下文）不同，Iter-VF在每一步只考虑最新的答案。这种马尔可夫方法避免了扩展推理链带来的复合混淆——这对自我校正尤其有害。并行方法如自我一致性和Best-of-N避免了这个问题，尽管它们的改进速度较慢且幅度较小。（注：结果部分虽然详尽，但阅读起来并不友好且冗长，我们必须在此时截断大部分剩余内容，请读者参考源论文以获取更多细节）。当在GPT-5 Nano和GPT-5 Mini上进行测试时（这些是隐藏完整推理痕迹、只返回最终答案的闭源商业模型），Iter-VF在不依赖中间输出的情况下提高了性能。在下表中，我们可以看到在MATH500和GPQA上的增益，证实了“先验证后生成”的方法即使在只能访问输入和最终答案时仍然可行：结论尽管这篇新论文从结果部分开始转向了不透明性，但在某类AI模型中发现一个普遍特征仍然是一个引人入胜的进展。任何经常使用大语言模型的人都会本能地发展出一套技巧来规避模型的缺点，因为每个缺点都会随着时间的推移变得明显，模式也随之浮现；所有人都希望找到一个像这样适用且通用的“技巧”。在大语言模型中实施和更新上下文窗口的最大问题之一，似乎是在保持会话进展与必要时开拓新方向的能力之间取得平衡，同时避免陷入虚假的幻觉或离题输出。在这篇新论文所展示的案例中，我们看到了一个温和但执着的“唤醒呼叫”的例子，它似乎能在不丢失上下文的情况下重新聚焦和重置大语言模型。看看后续项目是否会采纳和发展这一方法将会很有趣。研究人员非常强调他们新方法的纯粹经济性——这一考量在短短12个月前还远没有那么重要。如今，超大规模人工智能的影响清楚地表明，在“纯研究”时代曾被认为是迂腐的资源节约，现在正变得至关重要。 * 请注意，我无法像往常一样引用论文中的大量引文，因为其中某些部分的英语水平可能会让读者感到困惑。因此，我冒昧地总结了关键见解，并请读者参考源论文进行核实。首次发布于2025年12月4日，星期四
Góc của Anderson1 tháng trước
By Martin Anderson

为AI发展赋予嗅觉感知

一个新的AI数据集通过将气味数据与图像关联，教会机器识别气味，使模型能够将气味与物体、场景和材料相匹配。或许是因为气味输出机器有着如此斑驳的历史，嗅觉在AI研究文献中是一个相当被忽视的感官。除非你打算为这场持续了（迄今为止超过一个世纪）的嗅觉视觉传奇再添一笔，否则与图像、音频和视频数据集以及由此训练的AI模型的潜在开发利用相比，其应用场景似乎总是显得相当“小众”。事实上，将炸弹探测犬、尸体搜寻犬、疾病嗅探犬以及其他各种类型的犬类嗅探单元所提供的检测能力自动化、工业化和普及化，对于市政和安全服务而言将是一个显著的好处。尽管需求远超供应，但训练和维护探测犬是一项昂贵的业务，并且并不总能提供良好的性价比。迄今为止，涉足该领域的大部分研究都局限于实验室，其精选的数据集通常包含具有手工制作特征的样本——这种模式更倾向于定制化的作坊式解决方案，而非工业化应用。嗅觉领先一步在这种颇为陈腐的氛围中，美国一项有趣的学术/产业合作应运而生。一个研究团队花费了数月时间，在纽约市的室内外环境中对多种气味进行分类编目——并且首次收集了与捕获气味相关的图像：这项研究促使新论文的作者对广受欢迎的对比语言-图像预训练（CLIP）框架进行了一种变体设计，该框架连接文本和图像；新框架名为对比嗅觉-图像预训练（COIP）——它连接的是气味和图像。这个名为纽约气味的新数据集包含了7,000个气味-图像配对，涉及3,500个不同的物体。在测试训练中，新数据被发现优于先前数量相对较少的类似数据集中流行的手工制作特征。作者希望他们的初步尝试能为后续工作铺平道路，推动设计用于在野外运行的嗅觉检测系统，其方式与嗅探犬非常相似*：‘我们将这个数据集视为迈向野外多模态嗅觉感知的一步，也是连接视觉与嗅觉的一步。虽然传统上嗅觉研究多在受限环境中进行，例如质量保证，但在自然环境中存在许多应用。‘例如，作为人类，我们不断……我们经常利用嗅觉来评估食物质量、识别危险以及探测看不见的物体。“此外，许多动物，如狗、熊和老鼠，表现出超人类的嗅觉能力，这表明人类的嗅觉感知远未达到机器能力的极限。”尽管这篇新论文，标题为New York Smells: A Large Multimodal Dataset for Olfaction，承诺将发布数据和代码，但一个27GB的数据文件已经可以通过论文的项目网站获取。这篇论文由来自哥伦比亚大学、康奈尔大学和Osmo Labs的九位研究人员共同完成。方法为了收集新数据集所需的材料，研究人员使用了Cyranose 320电子鼻，并在其前部进气口上方安装了一部iPhone，以视觉方式捕捉正在记录的气味：Cyranose设备以2Hz的频率运行，记录32维的嗅觉时间步长。挥发性有机化合物（VOC）浓度使用MiniPID2 PPM WR传感器记录。这个便携式单元作为一个灵活的传感器运行，将数据传送到计算能力更强的移动站进行处理。为了将目标气味置于上下文中，首先记录一个“基线气味”，然后用Cyranose的“鼻口”直接对准更具体的物体。环境样本随后从设备的一个侧端口采集，以确保其距离主要气味源足够远，不受污染。通过传感器的主进气口采集了两个样本，每个十秒钟的录音从物体周围的不同位置捕捉，以提高数据效率。然后将这些样本与环境基线结合，形成一个28×32的矩阵，代表完整的嗅觉测量：数据与测试视觉语言模型（VLM）被用来自动标记Cyranose装置中iPhone捕捉到的物体和材料，其中使用了GPT-4o来完成此任务；然而，场景类别是手动标记的：数据集被划分为训练集和验证集分割，每个物体的两个样本都被分配到同一个分割中，以避免交叉污染。最终的数据集包含来自3,500个未标记物体的7,000个嗅觉-视觉配对，以及70小时的视频和来自基线及样本阶段的196,000个时间步长的原始嗅觉数据。数据是在两个月内的60次会话中收集的，涵盖公园、大学建筑、办公室、街道、图书馆、公寓和食堂，并进行了多次采为了开发通用的嗅觉表征，作者训练了一个对比模型，以关联数据集中同步的图像-气味对。这种方法，即前述的COIP，使用了一种改编自CLIP的损失函数，以对齐共现的视觉和嗅觉信号的嵌入。训练同时使用了视觉编码器和嗅觉编码器，目标是教导模型在共享的表征空间中拉近匹配的气味和图像。由此产生的表征支持一系列下游任务，包括气味到图像的检索、场景和物体识别、材料分类以及细粒度的气味辨别。该模型使用两种类型的嗅觉输入进行训练：完整的原始传感器信号和一种被称为气味图谱的简化手工摘要——这是嗅觉研究中广泛使用的特征，通过比较采样期间的峰值电阻与环境基线期间的平均电阻，将每个传感器的响应压缩为单个数字。相比之下，在纽约市各处收集的原始输入包含来自Cyranose设备内部32个化学传感器的时间序列，记录了每个传感器的电阻如何随时间变化以响应气味。在数据集的整理过程中，这种未经处理的信号被直接输入神经网络，允许使用卷积或基于Transformer的骨干网络进行端到端学习。模型使用气味图谱和从纽约市各种环境中收集的原始输入进行训练，两种输入类型都通过对比学习进行了评估。跨模态检索跨模态检索的评估方式是将每个气味样本及其配对图像嵌入到一个共享的表征空间中，并测试是否能够仅基于嗅觉输入检索到正确的图像。排名由每个图像嵌入与查询气味在此空间中的接近程度决定，性能使用平均排名、中位数排名和多个阈值下的召回率来衡量：关于这些结果，作者指出：‘在所有指标上，使用气味图谱进行对比预训练的表现都优于随机猜测。然而，与架构无关，在原始嗅觉信号上训练嗅觉编码器相比气味图谱编码器带来了显著的改进。‘这显示了原始嗅觉数据中更丰富的信息，释放了视觉和嗅觉之间更强的跨模态关联。’作者还指出，检索结果显示出清晰的语义模式：‘我们模型的检索结果经常显示出语义分组。’一本书的气味唤起其他书籍的意象，树叶的气味唤起枝叶的意象。“这些结果表明，学习到的表征捕捉到了有意义的跨模态结构。”场景、物体与材料识别通过训练模型仅根据嗅觉数据来识别场景、物体和材料，评估了模型在没有视觉输入的情况下识别气味的能力；为此，使用了一个线性探针（在冻结的表征上训练的简单分类器）来评估学习到的气味嵌入中编码了多少信息。标签是使用 GPT-4o 从训练集中的配对图像中推导出来的——但在分类过程中仅使用了嗅觉信号。测试了几种编码器类型：一些随机初始化，一些从头开始训练，还有一些使用对比学习进行训练，以使气味和视觉在共享的表征空间中对齐，并对原始数据和气味图谱进行了评估：当使用原始嗅觉数据时，尤其是在使用跨模态监督训练的模型中，获得了显著更高的准确率。作者评论道**：“在原始感官输入上训练的模型也比使用手工制作的气味图谱特征训练的模型实现了更高的准确率。这些结果表明，从原始嗅觉信号进行深度学习明显优于手工制作的特征。”细粒度区分为了评估是否可以学习细粒度的气味区分，研究人员基于同一校园草坪上共存的两种草种建立了一个基准。在六个30分钟的采样过程中交替收集样本，得到256个示例。在嗅觉-视觉对比学习提取的特征上训练了一个线性分类器，并在一个包含42个样本的保留集上进行了评估：研究人员在此指出：“在原始嗅觉传感器信号（而非手工制作的特征）上训练可获得最高的准确率——超过了所有基于气味图谱的变体。“这些结果表明，嗅觉-视觉学习比使用气味图谱的学习保留了更细粒度的信息，并且视觉监督为利用这些信息提供了信号。”结论尽管气味合成问题在未来的很长一段时间内可能仍将是一个未解决的难题，但一个有效且经济实惠的、可在野外使用的气味分析系统却具有巨大的目前，相关设备属于小众且通常相当昂贵；因此，要在“嗅觉人工智能”检测领域取得真正进展，似乎需要一款具有远见、价格亲民的传感器，其精神应类似于 Raspberry PI。 * 作者文内引注已由我转换为超链接。** 请注意，源论文中还有更多插图（图8），但在该上下文中查看效果最佳。首次发布于2025年11月28日，星期五
Góc của Anderson1 tháng trước
By Martin Anderson

2020 bạn có thể làm điều đó một cách dễ dàng

ChatGPT和其他氛围编码工具在近4万场对决中接受了测试——结果输给了大型语言模型发明之前研究生编写的代码。 Trò chuyện LLMs, 如Trò chuyện GPT-5 và Claude)能体非常轻松地击败了AI辅助的版本。这两组智Bạn có thể làm được điều đó?代的学生创建。非AI智能体是2020年课程作业的一部分开发的,比ChatGPT的问世和LL M革命的开始早了两年；而新的智能体则由当前的学生在现有最新、最好的LLM辅助下创建。即使在游戏规则被操纵的情况下,氛围编码的解决方案也无法获胜,排名前五的位置始终被“原始”智能体占据。在一场包含38,304个挑战、涉及众多变量和环境的锦标赛中,大多数LLM智能体（40个中的33个)都被“非常简单”的基线智能体轻松击败。论文指出:“我们的工作表明,虽然最先进的LLM可以生成能够运行的代码（即没有语法错误),但生成的解决方案在战略规划、优化或多智能Bạn có thể làm được điều đó?衡。因此, 这项工作将代码生成的这一新前沿推到了聚光灯下,旨在促进基准测试,数据集和开源基线的发展,以强调推理驱动的代码合成。”设计的挑战是创造性地参与各种策略的拍卖,并安排将拍得物Bạn có thể làm điều đó?许多优势,例如干预其代码以提高性能——这是2 020年代的代码所不允许的福利。尽管如此,即使LLM也无法接受或使用它:“在我们的基准测试中,即使我们在上展示了一个好的解决方案, LLM仍然无法利用它。这一结果也引发了关于在复杂场景Một trong những công cụ hỗ trợ là một công cụ hỗ trợ có thể hỗ trợ bạn. Suy nghĩ, Gemini 2.5 Pro, Claude Opus 4.1 và DeepSeek R1*。这篇新论文题为《氛围编码能击败计算机科学研究生吗？关于市场驱动战略规划的LLM与人类编码锦标赛》,作者分别来自南安普顿大学,以及牛津大学和艾伦·图灵研究所。作者表示,该基准测试将很快发布。方法作者指出,该领域的传统测试侧重于具有明确定义二元解决方案（正确或不正确）的挑战,并通过单元测试进行验证。作者认为这不是探索LLM辅助代码局限性的理想方式,因此设计了一个更复杂的挑战场景,包含多个内部基准和里程碑,其中获胜是可能的,但绝不简单:作者研究中使用的拍卖、取货和交付问题（APDP）部分是自行选择的,因为可以获得瑞士大学2020年的学生作业资料库；这些作业旨AI来辅助开发的能力。因此,让现代学相同的任务简介,但为Một trong những công cụ hỗ trợ tốt nhất là者们的评估在一系列直接对决的锦标赛中,将40个由LLM编码的智能体与17个人类编码的智能体进行了比较。每场锦标赛使用了四种道路网络拓扑结构的不同组合,并采用循环赛配对方式每个智能体都会与其他所有对手对战两次:一次控制两家公司中的一家,每家公司的车辆规格不同。此设置使得每场锦标赛进行了3,192场比赛,总计38,304场比赛。每场比赛中,拍卖50个配送任务，这些任务由其取货点、送货点和重量定义并在模拟瑞士、法国、英国和荷兰的道路布局上随机抽取:学生智能体来自2020年的一门课程锦标赛。其中八个来自单败淘汰决赛中的顶尖表现者,另外四个则因其在与基准智能体的直接对决中表现强劲而被选中。基准略。N aive là một công ty có khả năng cung cấp dịch vụ tốt nhất. ExpCostFixedBid模拟10个随机任务,并出价平均边际成本；Honest计算将任务插入时间表的实际边际成本；ModelĐối thủ时间衰减的先验信息与实时成本估算及对手建模相结合——同样GPT-5 Suy nghĩ, Claude Opus 4.1, Gemini 2.5 Pro và DeepSeek R1构建的LLM编码智能体. 。其中两种策略使用了不同作者编写的静态提示, 第三种策略要求模型自我反思并修订其输GPT-4来综合一个新的提示,通过审查所有四种先前的方法。基础提示反映了原始的学生作业,描述了交付环境,并指示模型进行投标和规划以最大化利润,而不依赖高复杂度方法。所有L LM智能体都对弈和锦标赛设置中进行了测试,直到所有可观察到的错误都被修复。错误修复由LLM自身自主处理,通过向其提供错误信息进行提示。论文指出,常见的L LM.错误通常源于忽视明确的指令,或源于有缺陷的重新规划逻辑†:'我们发现的另一个常见问题(主要出现在Gemini,Claude和DeepSeek中,GPT中较少)是, LLM常常会持续无法修复一个错误。'例如,一个智能体会持续超时,尽管多次（例如5-15次)向LLM提示错误信息并接收更新后的代码版本。'对于这种情况（即L LM反复无法修复完全相同的错误）,我们找到的唯一解决方案是从头开始重新生成。总体而言, 我们观察到需要大量的人工努力才能获得无错误的代码。我们不得不生成更多的智能体,才得到我们评估的40个无错误智能体。'下面显示的结果总结了12场双循环锦40,000 đô la Mỹ: 智能体平均胜场数/锦标赛胜场数标准差/锦标赛平均负场数/锦标赛负场数标准差/锦标赛总胜场总负场胜率 Sinh viên 1 108.167 1.193 3.833...

bài viết