人工智能
图像编辑使用高斯溅射

波兰和英国的研究人员之间的新合作提出了使用 高斯溅射 编辑图像的前景,通过暂时将图像的选定部分解释为 3D 空间,允许用户修改和操作图像的 3D 表示,然后应用转换。

要改变猫头的方向,相关部分通过高斯溅射移动到 3D 空间,然后由用户操作。修改然后应用。该过程与 Adobe 软件中的各种模态技术类似,锁定界面,直到完成当前复杂过程。来源:https://github.com/waczjoan/MiraGe/
由于高斯溅射元素暂时由三角形网格表示,并暂时进入“CGI 状态”,集成到该过程中的物理引擎可以解释自然运动,用于改变静态对象的状态或生成动画。

新 MiraGe 系统中集成的物理引擎可以执行物理运动的自然解释,用于动画或图像的静态修改。
该过程中没有使用生成性 AI,这意味着没有使用 潜在扩散模型(LDMs),与 Adobe 的 Firefly 系统 不同,后者是在 Adobe Stock(以前的 Fotolia)上训练的。
该系统 —— 称为 MiraGe —— 将选定部分解释为 3D 空间,并通过创建选定部分的 镜像 来推断几何形状,并近似可以体现在 Splat 中的 3D 坐标,然后解释图像为网格。
点击播放。 MiraGe 系统中已被修改或受到基于物理的变形的元素的其他示例。
作者将 MiraGe 系统与以前的方法进行了比较,并发现它在目标任务中实现了最先进的性能。
使用 zBrush 建模系统的用户将熟悉此过程,因为 zBrush 允许用户基本上 “展平” 3D 模型并添加 2D 详细信息,同时保留底层网格,并将新详细信息解释为其中的一部分 —— 一种“冻结”过程,是 MiraGe 方法的反面,后者更像 Firefly 或其他 Photoshop 风格的模态操作,例如变形或粗糙的 3D 解释。

参数化高斯溅射使 MiraGe 能够创建 2D 图像选定区域的高质量重构,并将软体物理应用于暂时的 3D 选定区域。
该论文指出:
‘[我们] 提出了一种模拟人类解释的模型。具体来说,我们的模型将 2D 图像视为人类查看照片或纸张一样,视为 3D 空间中的平面对象。 ‘
‘这种方法允许直观和灵活的图像编辑,捕捉人类感知的细微差别,同时实现复杂的转换。 ‘
该论文题为 MiraGe:使用高斯溅射编辑 2D 图像,来自克拉科夫 Jagiellonian 大学和剑桥大学的四位作者。该系统的全部代码已在 GitHub 上发布。
让我们来看看研究人员如何解决这个挑战。
方法
MiraGe 方法利用 高斯网格溅射(GaMeS)参数化,一种由包括两位新论文作者在内的团队开发的技术。GaMeS 允许高斯溅射被解释为传统的 CGI 网格,并受到标准范围的变形和修改技术的影响,这些技术是 CGI 社区在过去几十年中开发的。
MiraGe 解释“平面”高斯函数,在 2D 空间中,并使用 GaMeS 将内容“拉”到 GSplat 启用的 3D 空间中,暂时。

每个平面高斯函数表示为三角形云中的三个点,称为“三角形汤”,使得推断的图像开放给操作。来源:https://arxiv.org/pdf/2410.01521
我们可以在上面的图像左下角看到 MiraGe 创建了要解释的图像部分的“镜像”。
作者指出:
‘[我们] 采用了一种新方法,使用两个对立的摄像机沿 Y 轴对称排列在原点周围,并指向彼此。第一台摄像机负责重建原始图像,而第二台摄像机模拟镜像反射。照片被认为是一张半透明的描图纸,嵌入在 3D 空间中。反射可以通过水平翻转图像来有效地表示。这种镜像摄像机设置增强了生成反射的保真度,提供了一个强大的解决方案,以准确捕捉视觉元素。 ‘
‘一旦这种提取被实现,通常具有挑战性的透视调整变得可以通过直接在 3D 中编辑来访问。在下面的示例中,我们看到一个图像的选择,仅包括一个女人的一只手臂。在这种情况下,用户已经将手向下倾斜,方式合理,这将是通过简单地移动像素来完成的具有挑战性的任务。 ‘

MiraGe 编辑技术的示例。
尝试使用 Photoshop 中的 Firefly 生成工具执行此操作通常意味着手被合成、扩散想象的替换,打破了编辑的真实性。甚至更强大的系统,例如 ControlNet 辅助系统,用于稳定扩散和其他潜在扩散模型,例如 Flux,难以在图像到图像管道中实现此类编辑。
这种特定的追求一直被使用隐式神经表示(INRs)的方法所主导,例如 SIREN 和 WIRE。隐式和显式表示方法之间的区别在于,INRs 中的模型坐标不是直接可寻址的,INRs 使用 连续函数。
相比之下,高斯溅射提供了显式和可寻址的 X/Y/Z 笛卡尔坐标,尽管它使用高斯椭圆而不是 体素 或其他表示 3D 空间中内容的方法。
在 2D 空间中使用 GSplat 的想法已在 2024 年的中国学术合作 GaussianImage 中被提出,该合作提供了高斯溅射的 2D 版本,实现了 1000fps 的推理帧率。然而,该模型与图像编辑没有任何关联。
在 GaMeS 参数化提取选定区域后,图像使用 2018 年 CSAIL 论文 中首次概述的材料点方法(MPM)技术来重建。
在 MiraGe 中,在修改过程中,高斯溅射作为等效网格版本的指导代理,类似于 3DMM CGI 模型,通常被用作隐式神经渲染技术(如神经辐射场(NeRF))的编排方法。
在此过程中,二维对象被建模为 3D 空间,并且不受影响的图像部分对最终用户不可见,因此操作的上下文效果在过程完成之前不可见。
MiraGe 可以集成到流行的开源 3D 程序 Blender 中,后者现在 经常用于 AI 包含的工作流程,主要用于图像到图像目的。

在 Blender 中使用 MiraGe 的工作流程,涉及移动 2D 图像中人物的臂部。
作者提供了两种基于高斯溅射的变形方法 —— 无定形 和 石墨。
无定形方法直接使用 GaMeS 方法,并允许提取的 2D 选定区域在 3D 空间中自由移动,而石墨方法在初始化和训练期间将高斯函数约束到 2D 空间。
研究人员发现,虽然无定形方法可能比石墨更好地处理复杂形状,但“撕裂”或裂缝伪影更为明显,高斯函数的边缘与图像的未受影响部分对齐。
因此,他们开发了上述“镜像”系统:
‘[我们] 采用了一种新方法,使用两个对立的摄像机沿 Y 轴对称排列在原点周围,并指向彼此。第一台摄像机负责重建原始图像,而第二台摄像机模拟镜像反射。照片被认为是一张半透明的描图纸,嵌入在 3D 空间中。反射可以通过水平翻转图像来有效地表示。这种镜像摄像机设置增强了生成反射的保真度,提供了一个强大的解决方案,以准确捕捉视觉元素。 ‘
‘这种镜像摄像机设置增强了生成反射的保真度,提供了一个强大的解决方案,以准确捕捉视觉元素。 ‘
该论文指出,MiraGe 可以使用外部物理引擎,例如 Blender 中的物理引擎,或 Taichi_Elements 中的物理引擎。
数据和测试
对于 MiraGe 测试中使用的图像质量评估,使用了 信噪比(SNR)和 MS-SIM 指标。
使用的数据集是 Kodak Lossless True Color Image Suite 和 DIV2K 验证 集。这些数据集的分辨率适合与最接近的先前工作 Gaussian Image 进行比较。其他竞争框架包括 SIREN、WIRE、NVIDIA 的 Instant Neural Graphics Primitives(I-NGP)和 NeuRBF。
实验在 NVIDIA GEFORCE RTX 4070 笔记本电脑和 NVIDIA RTX 2080 上进行。

MiraGe 提供了最先进的结果,优于所选的先前框架,根据新论文中的结果。
关于这些结果,作者指出:
‘我们看到我们的提议在两个数据集上都优于以前的解决方案。根据两个指标衡量的质量显示出显著的改进,相比所有以前的方法。 ‘
结论
MiraGe 对 2D 高斯溅射的改编显然是一个初生的和尝试性的探索,这可能会成为使用扩散模型修改图像(即通过 Firefly 和其他 API 基础扩散方法,以及通过开放源码架构,如稳定扩散和 Flux)的变幻莫测和任性的替代方法。
虽然有许多扩散模型可以对图像进行小的修改,但 LDMs 由于其语义和经常“过度想象”的方法来应对基于文本的用户请求而受到限制。
因此,能够暂时将图像的一部分拉入 3D 空间,修改它,然后将其放回图像中,只使用源图像作为参考,这似乎是高斯溅射在未来可能擅长的任务。
* 论文中有一些混淆,提到“无定形-幻影”是最有效和最有能力的方法,尽管它倾向于产生不需要的高斯函数(伪影),同时认为“石墨-幻影”更灵活。似乎无定形-幻影获得了最好的细节,而石墨-幻影获得了最好的灵活性。由于两种方法都在论文中提出了它们的不同优势和劣势,作者的偏好(如果有的话)在此时不清楚。
首次发布于 2024 年 10 月 3 日












