当前位置：首页 > news >正文

云网站后台百度友情链接

news 2025/7/29 4:14:28

云网站后台,百度友情链接,php网站开发学习计划,作品怎么推广大家读完觉得有帮助记得及时关注和点赞！！！ 抽象生成模型通过减轻对密集多视图捕获的依赖，在新型视图合成 （NVS） 中获得了极大的关注。然而，现有方法通常属于传统范式，即生成模型首…

大家读完觉得有帮助记得及时关注和点赞！！！

抽象

生成模型通过减轻对密集多视图捕获的依赖，在新型视图合成（NVS）中获得了极大的关注。然而，现有方法通常属于传统范式，即生成模型首先完成 2D 中的缺失区域，然后使用 3D 恢复技术来重建场景，这通常会导致表面过于光滑和几何扭曲，因为生成模型难以仅从 RGB 数据推断 3D 结构。在本文中，我们提出了 SceneCompleter，这是一种新颖的框架，通过密集的 3D 场景完成实现 3D 一致的生成式小说视图合成。 SceneCompleter 通过两个关键组件实现视觉连贯性和 3D 一致的生成场景完成：

（1）几何外观双流扩散模型，在 RGBD 空间中联合合成新视图;

（2）一个场景嵌入器，用于对参考图像中更全面的场景理解进行编码。

通过有效地融合结构和结构信息，我们的方法在不同数据集的生成式新视图合成中表现出卓越的连贯性和合理性。项目页面： https://chen-wl20.github.io/SceneCompleter/

图 1：SceneCompleter 探索了用于生成式小说视图合成的 3D 场景完成。通过联合对几何体和外观进行建模，并将几何体信息整合到生成过程中，SceneCompleter 实现了几何一致且视觉上引人注目的新颖视图合成。使用 SceneCompleter，我们可以迭代完成 3D 场景，确保准确还原外观和结构。

1介绍

由于新型视图合成（NVS）在虚拟现实中的广泛应用，它在计算机视觉中受到了极大的关注[4]、3D 内容创建[19,18,15]、自动驾驶[20,9,1,36]甚至更多。核心挑战在于从有限的视图中推断 3D 结构和外观，同时生成合理且视觉上连贯的新视图。尽管使用强大的可微分 3D 表示取得了可喜的结果[21,11]，基于优化的方法依赖于密集的多视图输入来动态搜索 3D 结构，这在效率和实际应用方面都提出了挑战。

最近，基于回归的方法[2,3]探索了前馈新颖的视图合成，直接从稀疏视图中回归像素对齐的 3D 表示参数。尽管通过从大规模训练数据中学习的场景先验显示了附近视点的良好结果，但该问题的病态性质导致这些方法在应用于其他视点时会产生不令人满意的伪影和不切实际的几何图形。由 Zero-1-to-3 开创[18]研究[5,35,15]已经开始探索使用强大的生成模型进行生成式新颖的视图合成。这些方法通常涉及使用图像或视频生成模型合成新视图[7,26,23,33]，然后从生成的视图中估计 3D 结构以进行下游重建。然而，在像素空间中执行新颖的视图合成的隐含性质使得这些方法难以推断 3D 结构，从而导致几何变形。例如，在图 1 所示的大厅的投影不完整视图中，2D 生成模型可能会在缺失区域填充过于光滑的椅背，同时忽略扶手。这可能是因为椅子的扶手比靠背占用的面积小得多，从而导致模型在缺失的区域内插值椅背的外观。然而，在 3D 空间中，椅子扶手的小面积具有更大的几何意义，为新颖的视图合成提供了 3D 线索。

在本文中，我们介绍了 SceneCompleter，这是一个新颖的框架，它利用密集的 3D 场景完成来实现几何一致的生成式新颖视图合成。核心见解是，几何信息在生成式新视图合成中至关重要，因为模型需要推断场景的 3D 结构并推断以生成缺失区域。因此，同时对几何和外观进行建模对于生成式新视图合成至关重要。具体来说，我们首先使用强大的立体重建模型 Dust3R 从参考视图中提取几何和外观线索[30].然后，我们设计了一个几何外观双流扩散模型，在 3D 几何外观空间中执行生成式新视图合成(一个,G).通过联合对几何图形和外观进行建模，这种方法可以生成几何上合理的新视图。此外，我们引入了一个 Scene Embedder，它将来自参考视图的整体场景信息编码以指导生成，这在解决大角度视点变化的高度病态问题中起着至关重要的作用。在恢复完成的几何形状和外观后，我们提出了一种简单而有效的对齐策略，将完成的 3D 结构与原始结构无缝集成，确保更连贯和准确的重建。广泛的实验表明，我们的方法能够在多个数据集中实现零样本新颖视图合成，同时具有外观和几何一致性。

2相关工作

基于回归的 Novel View Synthesis。Novel View Synthesis （NVS）中的传统方法依赖于密集的多视图图像作为输入，以优化的方式学习目标场景的 3D 表示[21,8,22]，效率低下，在实际场景中的适用性有限。利用 3D Gaussian 的快速渲染速度[11]、一系列作品[2,3,32]已转向一种新的基于回归的管道，该管道从大型数据集中提取场景先验。这些方法直接从稀疏输入视图中回归像素对齐的 3D 高斯参数，在合成靠近参考视图的新视图时表现出出色的插值结果和高效率。但是，这种方法的病态性质在处理较大的视点变化时会导致重大问题，从而导致不切实际的结果。在本文中，我们通过使用生成模型来完成稀疏视图中缺失的 3D 结构，从而探索生成式新视图合成，从而即使在视点变化较大的情况下也能实现逼真的新视图合成。

生成小说视图合成。随着生成模型的快速发展[7,25]以及他们令人印象深刻的结果，利用这些模型来综合新的观点为缺失视点的挑战提供了自然的解决方案。由 Zero-1-to-3 开创[18]，研究人员已经开始探索生成模型[27,19,17]对于新颖的视图合成，将其构建为条件生成任务。但是，这些方法主要侧重于用于下游 3D 内容创建的对象级新颖视图合成。MotionCtrl 键[31]和 CameraCtrl[6]通过视频生成模型合成新颖的视图，将参考图像和相机轨迹作为输入来生成一系列新颖的视图视频，从而扩展了这一想法。然而，由于图像本身缺乏比例信息，该模型难以学习准确的相机轨迹，因此难以生成透视校正的新视图。最近，ViewCrafter[35]和 ReconX[16]通过利用视频生成进行新颖的视图合成解决了这一限制。他们采用强大的预训练立体重建模型，在生成之前将参考视图投影到目标视图上，从本质上解决了比例问题。但是，他们仍然专注于 2D 图像完成，而忽略了几何线索，这可能会导致 3D 结构不一致。在本文中，我们通过联合建模几何和外观来实现密集的 3D 场景完成，从而探索 3D 生成式新颖视图合成，从而实现 3D 一致的新颖视图合成。

密集的 3D 场景重建。基于强大的 3D 点图表示，Dust3R[30]开启了密集 3D 场景重建的趋势，而无需依赖传统的相机模型。随后，Mast3R[13]进一步为每个像素对齐点引入局部功能，以实现更好的性能。这些工作在从多个输入重建密集场景时需要后处理和全局对齐，因为它们只能在两个视图之间建立空间匹配。为了克服这个问题，Spann3r[29]和 Fast3r[34]通过维护过去帧的空间记忆或进一步扩展原始网络，直接从多个图像实现密集的 3D 场景重建。然而，这些作品只是以一种区分性的方式运作，根据尽可能多的视觉输入密集地重建场景。在本文中，我们引导这个密集的重建网络为生成式 3D 场景完成提供统一的几何线索，进而实现最终的新颖视图合成。

3建议的方法

图 2：SceneCompleter 的框架。我们首先使用无约束立体重建方法从参考视图中提取几何外观线索。然后，我们采用几何外观双流扩散模型在 3D 空间中生成新视图，以提取的几何外观线索为条件。生成 3D 小说视图后，我们将合成的几何图形与原始 3D 结构对齐，以实现 3D 场景完成。值得注意的是，可以迭代此过程以逐步生成更大的 3D 场景。

在本节中，我们将介绍 SceneCompleter，这是一个新颖的框架，它利用密集的 3D 场景完成来实现几何一致的生成式小说视图合成。我们首先在第 3.1 节中概述了 SceneCompleter 背后的动机。然后，我们在 Section 3.2 中描述了 Geometry-Appearance Clue Extraction 过程。接下来，我们在 Section 3.3 中介绍了 Geometry-Appearance Dual-Stream Diffusion 模块，在 Section 3.4 中介绍了 Scene Embedder 模块。最后，我们在 Section 3.5 中介绍了 Geometry Alignment 和 Scene Completion 策略。图 2 说明了我们的框架概述。

3.1我们的 SceneCompleter 的动机

Novel View Synthesis （NVS）的目标是重建一组目标视图{我我}我=1N在相应的摄像机姿势{P我}我=1N给定一组有限的输入视图{我我}我=1M带姿势{P我}我=1M哪里M=1,2,3,….从根本上说，这需要恢复 3D 场景(一个,G)，同时满足摄像机姿势和图像约束，其中一个表示外观，G表示几何图形。当M较小，尤其是M=1，使其自然适合于最近的方法中采用的条件生成建模方法[35,16].但是，这些方法主要侧重于完成一个，强调 RGB 完成，同时努力推断底层 3D 结构。因此，它们经常生成不切实际的几何图形和视觉上不一致的渲染，如图 1 所示。为此，我们将问题重新表述为密集的 3D 场景完成任务，其中一个和G共同完成。这使模型能够更好地推断底层 3D 结构，从而产生更合理的新视图综合。

3.2几何外观线索提取

3D 几何构造。联合建模(一个,G)，我们首先需要从参考视图重建 3D 结构，这为后续的条件生成提供了几何线索。具体来说，我们利用了强大的无约束立体 3D 重建方法 Dust3R[30]构建我们的 3D 几何线索。给定输入图像{我我}我=1N，Dust3R 首先构造一个连通图G⁢(V,E)，其中N图像形成顶点V和每条边e=(n,m)∈E表示图像我n和我m分享一些视觉内容。然后，它估计每对图像的点图并执行全局对齐以获得最终的点图{X我}我=1N.

几何线索提取。最直观的想法是使用点图作为几何线索。然而，出现了两个关键挑战。首先，点图的结构是非结构化和隐式的，这与 RGB 图像不同，这使得模型难以建立和学习它们之间的对应关系。其次，使用点图作为几何线索会带来对齐坐标系的挑战，这使其后续应用变得复杂。为了应对这些挑战，我们选择深度作为更合适的几何线索，因为深度图没有坐标系问题，并且在视觉上类似于 RGB 图像，使对应关系更容易学习。因此，对于一个新颖的观点我我中，我们使用 camera 参数将点贴图投影到深度贴图中K我,R我和T我如下：

哪里p我z表示投影点的 z 坐标。生成的深度图d作为 Geometry Cue，然后用于后续处理。

3.3几何外观双流扩散

我们的目标是实现密集的 3D 场景完成，而关键挑战在于如何整合几何体G进入完成过程。为了应对这一挑战，我们设计了一个深度编码器-解码器，将深度图映射到潜在空间，并将其与 Geometry-Appearance 双流 U-Net 相结合，以同时完成潜在空间中的外观和几何信息。我们的模型建立在 Stable Diffusion 2 的基础上[25]，在大规模 LAION-5B 上进行预训练[28]数据集，利用其对自然图像的强大先验。

深度编码器和解码器。将深度和图像编码到潜在空间中的一种简单方法是修改扩散模型的变分自动编码器（VAE）的通道维度。然而，这破坏了预训练扩散模型为自然图像学习的强大先验。相反，我们采用两个独立的 VAE 来独立编码深度和图像。对于深度 VAE，我们将深度图复制 3 次并堆叠起来，以满足 VAE 的三通道输入要求。为了解决图像和深度图之间的数值比例差异问题，我们应用了仿射不变深度归一化，公式化为：

哪里d和dn表示归一化前后的深度图，以及d2和d98分别表示深度图的第 2 个和第 98 个百分位值。由 Marigold 演示[10]，这种处理使原始 VAE 能够几乎无损地重建深度。因此，我们利用两个权重共享的 VAE 分别对深度和图像进行编码和解码，而无需进行任何微调：

哪里zd和z我分别是 depth 和 image 的潜在代码，而ℰ和𝒟是编码器和解码器。d^和我^是重建的深度和图像。

几何外观去噪 Unet。实现几何和外观的同时完成(一个,G)，我们在图像和深度的 3D 空间中执行生成。具体来说，我们在 RGBD 空间中应用前向扩散过程，并预测 RGBD 空间中的噪声。我们首先将图像和深度潜在代码连接起来z我和zd获取z0.在添加噪声的过程中，我们将噪声添加到z0如下：

哪里ε∼𝒩⁢(0,我),αt^:=∏s=1t(1−βs)和{β1,…,βT}是流程的超差调度T步骤。变量t∈{1,…,T}表示干扰步骤。对于不完整的外观和几何线索我p和dp，我们使用相应的编码器ℰ将它们转换为各自的 latent 表示z我,p,zd,p，然后用zt作为生成过程的条件。值得注意的是，我们将部分图像和深度的有效掩码插入潜在空间，以指导模型生成缺失的区域。因此，在相反的过程中，U-Net 的目标是预测噪声ε^，条件zc={z我,p,zd,p,z我,m,zd,m},z0和t哪里{…}表示串联作，而z我,m,zd,m表示相应的潜在有效掩码。 .训练损失ℒ的公式如下：

3.4场景嵌入器

基于几何外观双流扩散，我们的 SceneCompleter 可以推断出合理的 3D 结构(一个,G)来自不完整的几何图形和外观线索。然而，对于大角度视点变化，这个问题仍然非常不合理。为了解决这个问题，我们设计了一个场景嵌入器，它将来自参考视图的信息编码到整个过程中，为 3D 场景完成提供全局场景上下文，从而改进缺失区域的生成。如图 1 所示，Scene Embedder 的核心是使用可学习的场景嵌入来编码场景的全局信息。具体来说，我们首先提取参考视图特征f裁判使用预先训练的 CLIP 图像编码器。然后，我们的可学习场景嵌入fEMB与这些功能交互以获取场景信息。这个过程可以描述为：

哪里Wq,Wk和Wv分别是 query、key 和 value 投影。场景信息f现场然后在 U-Net 的交叉注意力交互中使用，将全局场景信息纳入生成过程。

图 3：Tanks-and-Temples 上零镜头新视图合成的定性比较[12]，房地产10K[37]、DL3DV-10K[14]、CO3D[24]数据。我们的 SceneCompleter 实现了更逼真和 3D 一致的新颖视图合成。表 1：Tanks-and-Temples 上零镜头新视图合成的定量比较[12]，房地产10K[37]、DL3DV-10K[14]和 CO3D[24]数据。我们的 SceneCompleter 在大多数图像质量和姿势精度指标上都优于基线。

数据	易于设置					硬凝
方法	LPIPS 公司↓	PSNR↑	SSIM↑	R距离 ↓	T距离 ↓	LPIPS 公司↓	PSNR↑	SSIM↑	R距离 ↓	T距离 ↓
坦克和寺庙
Dust3R 系列[30]	0.478	16.26	0.506	0.173	1.021	0.527	14.74	0.368	0.498	1.125
MotionCtrl 键[31]	0.415	16.55	0.498	0.222	0.992	0.464	15.52	0.437	0.578	1.384
ViewCrafter[35]	0.217	20.67	0.668	0.213	0.853	0.273	18.50	0.554	0.514	1.200
我们	0.207	21.43	0.700	0.163	0.828	0.247	19.80	0.555	0.496	1.037
房地产10K
Dust3R 系列[30]	0.689	12.55	0.496	0.046	0.174	0.661	12.31	0.490	0.047	0.169
MotionCtrl 键[31]	0.102	22.88	0.810	0.116	1.937	0.117	22.56	0.808	0.031	1.051
ViewCrafter[35]	0.141	22.43	0.807	0.021	0.134	0.161	22.01	0.802	0.030	0.149
我们	0.121	26.03	0.867	0.035	0.121	0.118	25.94	0.868	0.031	0.143
DL3DV-10K 系列
Dust3R 系列[30]	0.660	13.63	0.429	0.828	1.181	0.741	10.05	0.488	0.819	0.785
MotionCtrl 键[31]	0.540	16.74	0.657	0.412	1.107	0.585	14.90	0.462	0.822	0.951
ViewCrafter[35]	0.346	22.91	0.697	2.215	1.098	0.426	18.49	0.472	0.821	0.951
我们	0.192	24.38	0.789	0.369	0.456	0.271	21.25	0.660	0.368	0.640
Co3d 公司
Dust3R 系列[30]	0.555	13.40	0.284	0.163	1.363	0.595	8.67	0.257	2.334	1.779
MotionCtrl 键[31]	0.531	11.03	0.147	0.171	1.214	0.394	11.64	0.178	2.607	0.968
ViewCrafter[35]	0.399	15.14	0.263	0.178	1.197	0.548	14.54	0.121	2.610	0.968
我们	0.378	17.45	0.326	0.168	0.607	0.374	15.07	0.306	2.330	0.607

3.5几何对齐和 3D 场景完成

由于我们在 3D 场景完成期间应用了仿射不变归一化，因此有必要将完成的场景与原始几何体对齐。这种对齐可以通过匹配不完整的深度线索来实现dp替换为预测的深度d^.具体来说，我们使用有效的深度遮罩Mdp定位相应的预测深度d^p，然后应用最小二乘拟合以对齐dp跟d^p. 计算 scale 和 offset 的优化是：

此过程将计算缩放和偏移，然后用于恢复场景中的缺失区域。最终对齐深度d^一致的生成方式如下：

获取d^一致，我们可以将其还原为 3D 点图𝐗^我使用照相机参数K我,R我和T我如下：

哪里𝐩~我表示像素齐次坐标。

4实验

在本节中，我们对零镜头新颖的视图综合进行了实验，以证明所提出的方法的有效性。我们提供定量和定性结果，并提供消融来分析我们的 SceneCompleter。实验表明，我们的方法在多个数据集中都显示出外观和几何的一致性。

4.1实现细节

我们的模型建立在 Stable Diffusion v2 之上[25].关注 ViewCrafter[35]，我们使用 DL3DV-10K 训练模型[14]和 RealEstate-10K[37]数据。由于这两个数据集不提供校准的深度或其他几何信息，因此我们使用 Dust3R[30]来构建我们的训练数据。具体来说，我们从场景中随机采样了具有不同步幅（1、2、4、8）的 5 帧，模拟不同的视点变化。然后将这 5 帧组合成一个小场景。对于每组五帧，我们使用 Dust3R 来估计它们相应的深度、摄像机姿态和内在函数。在训练过程中，对于每张图像，我们将 5 帧中的 1 帧随机投影到当前帧上，将其用作输入，而当前帧则用作约束（包括投影当前帧本身以解决模糊问题）。我们训练模型进行 50k 次迭代，有效批次大小为 32，学习率为 3e-5。

4.2Zero-shot Novel View 合成比较

数据集和指标我们在零镜头 DL3DV-10K 上评估了模型的生成式新颖视图合成[14]、房地产-10K[37]测试集和分布外数据集Tanks-and-Temples[12]和 Co3D[24].我们选择基于回归的方法 Dust3R、基于 2D 生成的方法 MotionCtrl 和 ViewCrafter 作为我们的基线。对于 2D 指标，我们使用 PSNR、SSIM 和 LPIPS 进行评估。对于 3D 指标，我们计算摄像机旋转距离R距离和平移距离T距离如下：

哪里𝐑根我和𝐑燃气轮机我分别是 Predicted 和 Ground Truth 旋转矩阵，而𝐓根我和𝐓燃气轮机我分别是 Predicted 和 Ground Truth 平移向量。

定性比较。图 3 显示了我们方法的定性比较结果。Dust3R 系列[30]作为一种基于回归的方法，缺乏生成功能，导致新视图生成中缺少区域。MotionCtrl 键[31]另一方面，它基于单个图像和相机轨迹合成新颖的视图。但是，图像本身缺乏比例信息，导致照相机轨迹的比例与图像比例不匹配，从而难以控制新的视点。如图 3 所示，MotionCtrl 通常表现出最小的相机视点变化，从而导致不准确的新视图合成。对于 ViewCrafter[35]将参考视图投影到新颖视图上，并依靠视频生成模型完成整体图像，直接使用相机投影获得不完整的条件图像，自然避免了缩放问题。但是，由于仅依赖 RGB 输入而没有 3D 信息，ViewCrafter 有时难以理解场景关系，从而导致场景结果不正确或添加或删除场景内容。例如，在第二行中，生成的 3D 结构看起来不一致，而在倒数第二行中，一个额外的酒瓶被错误地添加到表格中，与其他视点冲突。我们的 SceneCompleter 可同时对几何体和外观进行建模，受益于结构引导，确保卓越的 3D 一致性。此外，我们的 Scene Embedder 对全局场景信息进行编码，使我们的模型能够有效地完成较大的缺失区域，同时保持与原始结构的一致性，即使在摄像机视点发生重大变化的情况下也是如此。

图 4：对几何线索和 Scene Embedder 的消融。结果表明，几何线索在新奇视图合成中起着决定性的作用，而 Scene Embedder 编码的场景信息对于细节恢复至关重要。

定量比较。表 1 显示了我们的定量比较实验，其中我们考虑了 2D 外观和 3D 结构指标。此外，我们将数据集分为简单集和困难集，以便进行更精细的比较。在 2D 指标方面，我们的模型在 PSNR 和 SSIM 方面优于所有其他模型，这主要是由于我们对几何和外观的联合建模，从而在新颖的视图合成中产生更一致和逼真的结构。此外，在大多数情况下（除了一种情况），我们获得了最好的 LPIPS 分数，这表明我们的模型不仅生成了高质量和几何一致的结构，而且还在新颖的视图合成中产生了视觉上逼真的外观。在 3D 指标方面，我们的方法始终优于基于 2D 的生成方法，这要归功于将几何信息纳入生成过程，从而确保了更一致的结构。但是，我们的 3D 指标有时略微落后于基于回归的方法 Dust3R。这可能是由于在生成过程中在缺失区域中填充了一些细节，这可能会影响 3D 指标的计算。

4.33D 场景完成

图 5：3D 场景完成可视化。我们的 SceneCompleter 可以迭代优化 3D 场景。

我们在图 5 中展示了 3D 场景完成结果。我们从左到右迭代更新和提炼场景信息，逐步完善完成度。如图所示，利用我们对几何和外观的联合建模，以及我们简单而有效的对齐策略，我们的模型实现了迭代和连贯的 3D 场景完成，同时保留了原始 3D 结构，从而实现了单图像 3D 场景生成。值得注意的是，如图 5（d）所示，我们的模型不仅适应相机平移，还适应相机旋转，展示了其强大的鲁棒性。

4.4实验分析

表 2：对几何线索和 Scene Embedder 进行定量消融。结果表明，几何线索和 Scene Embedder 在最终结果中都起着至关重要的作用。

数据	测试集
方法	LPIPS 公司↓	PSNR↑	SSIM↑	R距离 ↓	T距离 ↓
三硝基甲苯
无深度	0.727	18.82	0.431	2.805	0.920
无 SE	0.305	21.66	0.798	2.802	0.896
满	0.275	23.19	0.826	2.790	0.752
Re10K
无深度	0.726	10.92	0.224	0.592	1.246
无 SE	0.404	15.44	0.484	0.373	1.000
满	0.391	15.56	0.510	0.369	0.752
DL3DV 系列
无深度	0.810	14.83	0.128	1.993	0.960
无 SE	0.459	18.28	0.456	2.086	0.948
满	0.387	19.97	0.506	1.785	0.824
Co3D
无深度	0.586	18.20	0.277	0.387	0.794
无 SE	0.341	18.18	0.373	0.111	0.287
满	0.328	19.11	0.420	0.101	0.287

在本节中，我们系统地进行消融研究以验证我们设计的有效性。具体来说，我们专注于两个关键组件：几何和外观的联合建模，确保 3D 场景完成期间的结构一致性，以及全局场景嵌入器，它提供全面的场景理解以提高完成质量，尤其是在缺少大面积场景时。

定性结果。图 4 显示了我们的定性消融研究。从图中，我们观察到以下关键点：1）同时对几何进行建模对于准确的几何结构预测至关重要。例如，在第二行中，完成后的图像仍包含大量杂色，这可能是由于缺少平面的深度信息。此外，在第二列中，缺少几何结构信息会导致缺失区域出现不合理的浮动阴影，这在深度图中更加明显，因为不正确。2）场景嵌入器编码的全局场景信息在处理精细细节方面起着至关重要的作用。例如，在第一列中，横梁在结构上出现变形，失去了锋利的边缘，而在第四行中，自行车的投影信息显得混乱。当场景信息可用时，模型可以准确地推断自行车的结构，但在没有场景信息的情况下，它会生成不正确的结构。

定量结果。表 2 显示了我们的定量消融研究的结果。正如所观察到的，在去除深度指导后，2D 和 3D 指标都会减少，LPIPS 和 SSIM 会显著下降。这凸显了几何建模对于实现合理和结构化的图像完成的重要性。此外，当 Scene Embedder 被消融时，2D 和 3D 指标都显示出一些下降，这与我们的定性分析一致，我们观察到 Scene Embedder 帮助模型更有效地处理详细信息。

5结论

在本文中，我们提出了 SceneCompleter，这是一种通过密集 3D 场景完成实现 3D 一致生成新颖视图合成的新框架。我们的核心见解是，通过在生成式新视图合成中同时对几何和外观进行建模，该模型可以更有效地推断 3D 结构，从而实现更连贯和一致的新视图合成。具体来说，我们首先利用强大的立体重建模型 Dust3R[30]以从参考视图中提取几何和外观线索。然后，这些线索被传递到几何-外观双流扩散中，在 3D 几何-外观空间中执行去噪(一个,G)基于条件几何体和外观线索。此外，我们设计了一个 Scene Embedder 来从场景中提取全局信息进行生成，这在处理视点的较大变化或填充混乱的缺失区域时尤为重要。在去噪并获得完整的 3D 场景后，我们将其与原始 3D 场景对齐，并将填充的区域恢复到原始 3D 结构中，从而得到更完整的 3D 模型。由于几何和外观的同步建模，大量实验表明，我们的方法实现了高质量和几何一致的零镜头生成新视图合成。