Anderson 视角
使用高斯斑点编辑图像

波兰和英国的研究人员之间的一项新合作提出了使用 高斯斑点 编辑图像的可能性,通过暂时将图像的选定部分解释为 3D 空间,允许用户修改和操作 3D 表示,然后应用转换。

要改变猫头的方向,相关部分通过高斯斑点移动到 3D 空间,然后由用户操作。修改然后应用。该过程与 Adobe 软件中的各种模态技术类似,锁定界面直到完成当前复杂过程。 来源:https://github.com/waczjoan/MiraGe/
由于高斯斑点元素暂时由三角形网格表示,并暂时进入“CGI 状态”,集成到过程中的物理引擎可以解释自然运动,既可以改变静态对象的状态,也可以产生动画。

新 MiraGe 系统中的物理引擎可以对物理运动进行自然解释,既可以用于动画也可以用于图像的静态修改。
该过程中没有使用生成式 AI,这意味着没有 潜在扩散模型 (LDMs) 参与,不像 Adobe 的 Firefly 系统,后者是在 Adobe Stock (前身为 Fotolia) 上训练的。
系统 —— 被称为 MiraGe —— 将选定部分解释为 3D 空间,并通过创建选定部分的 镜像 推断几何形状,可以用高斯斑点表示,然后解释为网格。
点击播放。 进一步的例子展示了使用 MiraGe 系统的元素,它们要么被用户手动修改,要么受到基于物理的变形。
作者将 MiraGe 系统与以前的方法进行了比较,发现它在目标任务中实现了最先进的性能。
使用 zBrush 建模系统的用户将熟悉此过程,因为 zBrush 允许用户基本上 ‘展平’ 3D 模型并添加 2D 细节,同时保留底层网格,并将新细节解释为其中的一部分 —— 一种“冻结”过程,它是 MiraGe 方法的对立面,后者更像 Firefly 或其他 Photoshop 风格的模态操作,例如变形或粗糙的 3D 解释。

参数化的高斯斑点使 MiraGe 能够创建 2D 图像选定区域的高质量重构,并对暂时的 3D 选定区域应用软体物理。
论文指出:
‘[我们] 提出了一种通过模拟人类解释来编码 2D 图像的模型。具体来说,我们的模型将 2D 图像视为人类查看照片或纸张一样的平面物体,置于 3D 空间中。
‘这种方法使得图像编辑更为直观和灵活,捕捉到了人类感知的细微差别,同时实现了复杂的变换。’
新论文 题为 MiraGe:使用高斯斑点编辑 2D 图像,由四位作者共同完成,来自克拉科夫的雅盖隆大学和剑桥大学。该系统的全部代码已在 GitHub 上发布。
让我们来看看研究人员如何解决这个挑战。
方法
MiraGe 方法利用 高斯网格斑点 (GaMeS) 参数化,这是一种由包括两位新论文作者在内的团队开发的技术。GaMeS 允许高斯斑点被解释为传统的 CGI 网格,并受到标准的变形和修改技术的影响,这些技术是 CGI 社区在过去几十年中开发的。
MiraGe 解释 ‘平面’ 高斯函数,在 2D 空间中,并使用 GaMeS 将内容 ‘拉’ 到 GSplat 启用的 3D 空间中,暂时性地。

每个平面高斯函数都表示为三角形云中的三个点,称为 ‘三角形汤’,使得推断的图像对操作开放。 来源:https://arxiv.org/pdf/2410.01521
我们可以在上面的图像左下角看到 MiraGe 创建了要解释的图像部分的 ‘镜像’。
作者指出:
‘[我们] 采用了一种新颖的方法,使用两个对立的摄像机沿 Y 轴对称地对齐在原点周围,并相互指向。第一台摄像机的任务是重建原始图像,而第二台摄像机建模镜像反射。照片被概念化为嵌入 3D 空间背景中的半透明描图纸。反射可以通过水平翻转 [图像] 来有效地表示。这种镜像摄像机设置增强了生成反射的保真度,提供了准确捕捉视觉元素的强大解决方案。’
论文指出,一旦实现了这种提取,通常具有挑战性的视角调整就可以通过直接在 3D 中编辑来实现。在下面的示例中,我们看到一个只包含一个女人手臂的图像选定部分。在这种情况下,用户以一种合理的方式将手向下倾斜,这将是通过简单地移动像素来完成的具有挑战性的任务。

MiraGe 编辑技术的一个示例。
尝试使用 Photoshop 中的 Firefly 生成工具来完成此操作通常意味着手会被合成、扩散想象的替换,破坏编辑的真实性。甚至更强大的系统,例如 ControlNet 辅助系统,用于稳定扩散和其他潜在扩散模型,例如 Flux,在图像到图像管道中难以实现此类编辑。
这种特定追求一直被使用隐式神经表示 (INRs) 的方法所主导,例如 SIREN 和 WIRE。INRs 和显式表示方法之间的区别在于,模型的坐标在 INRs 中不是直接可寻址的,它们使用 连续函数。
相比之下,高斯斑点提供了显式和可寻址的 X/Y/Z 笛卡尔坐标,尽管它使用高斯椭圆而不是 体素 或其他在 3D 空间中表示内容的方法。
在 2D 空间中使用 GSplat 的想法最著名的呈现,作者指出,是 2024 年的中国学术合作 GaussianImage,它提供了高斯斑点的 2D 版本,实现了 1000fps 的推理帧率。然而,该模型与图像编辑没有关联。
在 GaMeS 参数化提取选定区域后,图像使用 2018 年 CSAIL 论文 中首次提出的材料点法 (MPM) 技术重建。
在 MiraGe 中,在修改过程中,高斯斑点作为等效网格版本的代理,存在于 3D 空间中,就像 3DMM CGI 模型 经常被用作隐式神经渲染技术(如神经辐射场 (NeRF))的编排方法一样。
在此过程中,二维物体在 3D 空间中建模,并且不受用户影响的图像部分对用户不可见,因此,直到过程完成,操作的上下文效果才会显现。
MiraGe 可以集成到流行的开源 3D 程序 Blender 中,后者现在 经常被用于 AI 包含的工作流中,主要用于图像到图像目的。

MiraGe 在 Blender 中的工作流,涉及 2D 图像中人物的手臂移动。
作者提供了两种基于高斯斑点的变形方法 —— Amorphous 和 Graphite。
Amorphous 方法直接使用 GaMeS 方法,并允许提取的 2D 选定区域在 3D 空间中自由移动,而 Graphite 方法在初始化和训练期间将高斯函数约束到 2D 空间中。
研究人员发现,虽然 Amorphous 方法可能处理复杂形状比 Graphite 更好,但 ‘撕裂’ 或裂缝伪影更为明显,在变形的边缘与图像的未受影响部分对齐的地方。
因此,他们开发了上述 ‘镜像’ 系统:
‘[我们] 采用了一种新颖的方法,使用两个对立的摄像机沿 Y 轴对称地对齐在原点周围,并相互指向。
‘第一台摄像机的任务是重建原始图像,而第二台摄像机建模镜像反射。照片被概念化为嵌入 3D 空间背景中的半透明描图纸。反射可以通过水平翻转 [图像] 来有效地表示。这种镜像摄像机设置增强了生成反射的保真度,提供了准确捕捉视觉元素的强大解决方案。’
论文指出,MiraGe 可以使用外部物理引擎,例如 Blender 中的物理引擎,或 Taichi_Elements 中的物理引擎。
数据和测试
在为 MiraGe 进行的测试中,用于图像质量评估的指标是 信噪比 (SNR) 和 MS-SIM。
使用的数据集是 Kodak Lossless True Color Image Suite 和 DIV2K 验证 集。这些数据集的分辨率适合与最接近的先前工作 Gaussian Image 进行比较。其他竞争框架包括 SIREN、WIRE、NVIDIA 的 Instant Neural Graphics Primitives (I-NGP) 和 NeuRBF。
实验在 NVIDIA GEFORCE RTX 4070 笔记本电脑和 NVIDIA RTX 2080 上进行。

根据新论文中的结果,MiraGe 提供了最先进的结果,与所选的先前框架相比。
关于这些结果,作者指出:
‘我们看到我们的提议在两个数据集上都优于以前的解决方案。根据两个指标衡量的质量显示出显著的改进,相比所有以前的方法。’
结论
MiraGe 对 2D 高斯斑点的改进显然是一个初步且尝试性的尝试,可能会成为一种有趣的替代方法,以避免使用扩散模型来修改图像(即通过 Firefly 和其他 API 基础的扩散方法,以及开放源代码架构,如稳定扩散和 Flux)。
虽然有许多扩散模型可以对图像进行小的更改,但 LDMs 由于其语义和通常 ‘过度想象’ 的方法来应对基于文本的用户请求而受到限制。
因此,能够暂时将图像的一部分拉入 3D 空间,操作它,然后将其放回图像中,同时仅使用源图像作为参考,这似乎是一项高斯斑点在未来可能擅长的任务。
* 论文中有一些混淆,因为它引用 ‘Amorphous-Mirage’ 是最有效和最有能力的方法,尽管它倾向于产生不需要的高斯函数(伪影),同时认为 ‘Graphite-Mirage’ 更加灵活。似乎 Amorphous-Mirage 获得了最好的细节,而 Graphite-Mirage 获得了最好的灵活性。由于两种方法都在论文中提出,并具有不同的优势和劣势,因此作者的偏好(如果有的话)不清楚。
首次发布于 2024 年 10 月 3 日












