Anderson 视角

视线之外，脑海之外：解决AI视频最大的问题

Published March 27, 2026

Updated April 25, 2026

Martin Anderson

Detail from the first page of the March 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

即使是最好的AI视频生成器也存在慢性健忘的最大问题——中国的新研究现在正在解决这个挑战。

即使是最好的和最先进的AI视频生成系统也存在慢性健忘的最大问题：当摄像机从焦点移开并返回时，它将永远找不到最初的内容——角色会消失、改变外观和/或运动类型，背景也可能会改变。

这是因为基于扩散的生成系统具有有限的滚动窗口，并且它总是处理当前的内容；在真正的唯我主义中，视野之外的内容对于生成AI来说是不存在的——它从字面上被从内存中删除。

这在传统的CGI中从未是一个问题，传统的CGI可以随时参考和准确地重现一个主题，包括外观和运动：

传统的CGI网格和位图纹理可以随时被绘制到渲染中，提供一致的外观——这是AI方法很难实现的，因为没有等效的’平面参考’文件或相关文件集合。

这是因为CGI的组成元素，例如网格和纹理（见上图），以及运动文件和其他动态行为，可以独立地存储在磁盘上，并可以在任何时候被绘制到一个组合中。

在生成视频AI中，没有这样的’平面存储库’；它能接近这种功能的是LoRAs——专门训练的辅助文件，可以在消费设备上训练，允许新角色和特定的服装被’强制’进入视频：

点击播放。 AI视频的唯我主义问题可以通过使用LoRAs来一定程度上缓解——但结果可能会让人感到不知所措。

这不是一个理想的解决方案。首先，LoRAs与特定的基础模型版本（例如Wan2+或Hunyuan Video）绑定，并且需要在每次基础模型更改时重新创建。其次，LoRAs倾向于扭曲基础模型的权重，以便LoRA的训练身份被强加于场景中的所有角色。此外，微调方法对数据质量非常敏感。

准确的重现

现在，中国的一个新的学术/工业合作正在提供我所知道的过去三年来解决这个问题的第一个重要补救措施。该方法使用所谓的混合内存来保持摄像机外的角色和其直接环境在模型的潜在空间中保持活跃和准确，以便当我们的视点返回到它们时，效果是一致的：

点击播放。 来自新论文的项目网站，两个AI生成（WAN）角色退出帧并准确重新进入的示例。 来源

应该强调，这与实现跨不同镜头的一致性不同，这是一个正在进行的追求，在研究文献中仍然是一个正在进行的追求。

相反，解决的问题是没有商业或实验框架能够实现的——视觉一致的重新出现，即摄像机外的角色的以前的外观、运动和环境：

点击播放。 新项目网站提供的另外两个主要示例。

显然，这里起作用的原理也可以应用于其他领域，例如城市探索、POV驾驶或其他类型的非角色渲染。

也应该强调，这种新方法并没有解决或解决Runway Gen4和其他封闭源平台声称已经解决的问题，即在不同镜头之间重现角色；相反，它做了他们还没有成功做到的事情——在不需要角色始终对观众可见的情况下，保持角色和环境在内存中的一致性。

新工作包括通过Unreal Engine生成的专用数据集，以及用于唯我主义问题的自定义指标*，以及在WAN之上的定制生成框架。与现有的几个类似系统相比，作者声称取得了最先进的结果，并评论：

‘记忆机制已经成为推进世界模型的关键前沿，因为记忆容量决定了生成内容的空间和时间一致性。

‘具体来说，它是允许模型在视点转换或长期推理期间保留历史上下文的认知锚点。

‘没有强大的记忆，模拟的世界很快就会分解成断开的、混乱的帧。’

论文题为视线之外，但不在脑海之外：动态视频世界模型的混合内存，来自华中科技大学和快手科技的Kling团队的七位研究人员。

方法

新工作的核心是混合内存，它实现了“视野外的推断”——即在观众“看走”（或角色本身退出视野）时，保持角色及其上下文的保留。在这种情况下，框架需要执行时空解耦，即同时关注可见的生成和视野外的角色存在。

摄像机进出运动的示例。在这些实例中，摄像机的运动导致角色退出帧，但在多样化的样本中，我们也可以观察到角色自己暂时将自己推出屏幕。 来源

作者指出，在扩散潜在嵌入中，需要提取和使用的特征与其他特征和属性密切交织；并且尝试从中提取它们通常会导致主题“冻结”到背景中。因此，他们设计并策划了HM-World数据集**，专门用于训练混合内存：

来自论文的HM-World数据集的四个类别的样本。

集合是沿着四个维度构建的：主题轨迹、摄像机轨迹、场景和主题。

HM-World数据集的合成数据包括17个场景和49个主题，包括具有多样化外观的人和多种物种的动物。这些主题通过Unreal Engine以独特的运动动画和随机选择的轨迹组合到一个场景中。

作者指出，数据集中描绘了各种退出-进入事件，包括28个不同的摄像机轨迹，每个轨迹都有多个起点。

最终的集合包含59,225个视频片段，每个片段都由MiniCPM-V多模态大型语言模型（MLLM）注释。

研究人员指出，他们的集合与先前的数据集WorldScore；Context-As-Memory；Multi-Cam Video；和360° Motion相比具有统计优势：

现有数据集与HM-World数据集的比较，其中“动态主题”表示移动实体的存在，“主题退出-进入”表示包含主题离开和重新进入帧的片段，“主题姿势”指的是包含注释的3D姿势。

少有人走的路

假设有几个过去的帧和已知的摄像机路径，任务是预测未来视图，同时考虑到独立移动的主题可能会离开帧并在返回时保持一致性。这需要比保持稳定的背景更高的要求，因为模型必须保留移动主题的一致内部记录，即使在它们不可见的期间。

作者的混合动态检索注意力（HyDRA）方法通过引入专用的内存路径来解决这个问题，该路径将动态主题与静态场景表示分离，允许它们随时间保持一致，并在重新出现时保持一致的外观和运动：

HyDRA模型的概念架构。

HyDRA是在Wan2.1-T2V-1.3B之上构建的，核心的扩散管道基本保持不变，同时引入了一个修改后的变换器块，该块集成了动态检索注意力。这允许模型选择性地从过去的帧中回忆运动和外观线索，而不是依赖于固定或局部上下文。

此过程利用了一个改进的流匹配训练目标，而不是标准的扩散损失。

为了保持场景与摄像机运动一致，摄像机轨迹被注入为显式的条件信号，每个帧的姿势由旋转和平移定义，然后转换为紧凑的表示形式，捕捉视点如何随时间演化。

与先前的（Kling）ReCamMaster计划一致，结果由摄像机编码器解析，实现为多层感知器，然后广播并添加到扩散变换器特征中，允许模型在摄像机移动时保持一致的对象放置。

标记化

原始扩散潜在变量混合了主题运动、外观和背景成一个单一的交织表示，尝试直接从这个空间中检索可能会引入不相关的上下文，或者导致移动主题“融入”背景中。

HyDRA通过使用3D卷积的内存标记化器来处理这个问题，该标记化器同时处理空间和时间——而不是向前传递完整的潜在历史，它将它们压缩成紧凑的、运动感知的内存标记，这些标记保留了主题的外观和运动：

HyDRA的概述。左边，内存标记化器将过去的帧转换为紧凑的、运动感知的内存标记；右边，动态检索注意力评估当前查询与这些标记，检索最相关的标记，并使用它们在生成的帧中恢复一致的外观和运动。

这些标记形成了一个结构化的混合内存，过滤掉噪音同时保留了长距离的动态。传递给动态检索注意力模块，这些标记允许模型选择性地回忆摄像机外的主题，使它们重新出现时具有一致的外观、运动和上下文。

动态检索注意力

HyDRA的双内存机制还在框架中使用动态检索注意力，在一个不同的但互补的角色中。

内存标记化压缩了过去的潜在表示成结构化的、运动感知的标记，这些标记将动态主题与静态场景内容分离，减少了通常导致主题与背景交织的交织。这些标记形成了一个持续的内存库，而不是完整的帧历史。

动态检索注意力然后在生成过程中操作这个库，评估当前查询与存储的标记，并选择性地回忆与演化帧最相关的标记。这允许摄像机外的主题继续它们的潜在演化（即继续行走、奔跑，当你看不到它们时），并在返回视野时以一致的外观和运动重新出现，而不是重置或退化。

数据和测试

在测试中，基于Wan的HyDRA系统对77个上下文帧进行了编码和下采样，然后使用3D变分自编码器（VAE）进行解析，而上述内存标记化器使用3D卷积，核大小为2x4x4。

模型在HW-World上训练了10,000次迭代，使用32个（未指定）GPU，批量大小为32。

测试中使用了异常多的指标：除了通常的峰值信噪比（PSNR）、结构相似性指数（SSIM）和学习的感知相似性度量（LPIPS），作者还使用了主题一致性和背景一致性，来自VBench套件，以评估帧级别的一致性。

此外，他们设计了一个名为动态主题一致性（DSC）的自定义指标，使用YOLO V11的边界框，创建包含移动主题的裁剪区域，从中提取语义特征，然后计算它们的相似性。

HyDRA被与扩散强制变换器（DFoT）和上下文作为内存进行比较，使用Wan2.1-T2V-1.3B作为基线模型，并配备了摄像机编码器（以表示所有片段共同的主观视点）。所有模型都在HW-World上训练，并使用WorldPlay作为二次测试集合：

在初始的定量比较中，HyDRA超过了所有基线，提高了PSNR从18.696到20.357，SSIM从0.517到0.606。它还实现了最高的上下文和真实值Dice得分，分别为0.827和0.849，主题和背景一致性分别达到0.926和0.932：

与先前方法的初始定量比较结果。

DFoT达到17.693的PSNR，Context-as-Memory达到18.921，增益归因于内存标记化与动态检索注意力相结合：

将HyDRA与当前最先进的方法进行比较。

关于对WorldPlay的测试，作者指出：

‘我们的方法在所有指标上超过了WorldPlay，PSNR的差距显著，达到5.502。虽然WorldPlay在基于真实值的指标（例如PSNR为14.855，DSCGT为0.832）上表现较差，这是由于域分布差异和缺乏特定的微调，但它在基于上下文的指标上表现出令人惊讶的鲁棒性，达到DSCctx的0.822。’

‘这一观察不仅证实了广泛训练的模型具有公平的混合一致性，也间接验证了我们提出的DSC指标在反映动态主题一致性的合理性。 ‘

‘最终，这些令人印象深刻的结果凸显了我们模型的卓越能力，证明了它甚至优于已建立的商业模型。’

论文提供了为测试而进行的定性比较的静态表示：