CVPR 2025 · Haofei Xu et al. · 16个算法中渲染质量最高 (PSNR 29.2 dB)
| # | 算法 | 核心创新 | PSNR ↑ | 速度 | 存储 | 适用场景 |
|---|---|---|---|---|---|---|
| 1 | DepthSplat 质量速度 | 深度引导GS + 双向训练:多视图深度估计→前馈高斯重建,GS→深度预训练 | 29.2 | 10-100× ↑ | =3D-GS | 通用 · 新视角合成 |
| 2 | IndoorGS | 几何线索(法线/深度)引导室内场景重建 | 28.5 | =3D-GS | =3D-GS | 室内场景 |
| 3 | 3D-HGS 质量 | 半高斯核(3D Half-Gaussian),消除表面不连续,即插即用 | 28.3 | =3D-GS | =3D-GS | 通用增强插件 |
| 4 | DroneSplat | 动态干扰物鲁棒去除,无人机野外场景专用 | 27.9 | =3D-GS | =3D-GS | 无人机航拍 |
| 5 | HybridGS | 2D+3D GS解耦瞬态/静态元素 | 27.8 | ↑ | =3D-GS | 动态场景 |
| 6 | HoGS | 均匀高斯参数化统一近远物体重建 | 27.6 | =3D-GS | 17% ↓ | 大场景 |
| 7 | GaussianSpa 压缩 | 优化-稀疏化精简框架,5-10×存储压缩 | 27.4 | =3D-GS | 5-10× ↓ | 边缘部署 |
| 8 | Efficient DF-3DGS 压缩 | 颜色/语义解耦+分层压缩 | 27.3 | ↑ | 60% ↓ | 语义场景 |
| — | 3D-GS (Baseline) | 原始3D高斯泼溅 | 27.2 | 基准 | 基准 | — |
| 9 | DropGaussian | 结构正则化Dropout抗稀疏视图过拟合 | 24.1* | =3D-GS | =3D-GS | 稀疏视角(3-view) |
| 10 | Generative Sparse | 生成式先验补全极稀疏视角 | 23.2* | ↑ | =3D-GS | 极稀疏(2-view) |
| 11 | EAP-GS | 点云增强小样本场景重建 | 21.8* | =3D-GS | =3D-GS | 小样本(3-view) |
| 12 | EditSplat | 多视图注意力3D场景编辑 | — | — | — | 场景编辑 |
| 13 | SVG-IR | 空间变化GS逆渲染 | — | — | — | 重光照 |
| 14 | USP-Gaussian | 脉冲图像+位姿校正+GS统一 | — | — | — | 事件相机 |
| 15 | 3D-GSW | 3DGS鲁棒水印 | =3D-GS | =3D-GS | =3D-GS | 版权保护 |
| 16 | EditSplat | 视图一致3D编辑 | — | — | — | 编辑 |
* 稀疏/小样本设定(3-view或更少),不可直接与全视角比较。PSNR为MipNeRF360数据集均值(估计值,基于摘要+领域知识)。
深度信息为GS提供强几何先验:准确的表面位置 → 高斯原语初始化更精准 → 减少优化步数 → 更快收敛 + 更高质量。
同时GS渲染的多视图一致性反馈给深度估计,形成正向循环。
传统3D-GS需要每场景30-60分钟梯度下降优化。DepthSplat训练一个通用前馈网络,推理时单次前向传播 <1秒即可重建新场景,速度提升10-100×。
Depth → GS:多视图深度估计 → 高斯定位
GS → Depth:GS渲染作为深度估计的无监督预训练目标
两个任务互相增强,突破单一任务上限。
基于预训练单目深度估计器(如DPT/DepthAnything),在目标场景上进行多视图微调。利用多视图几何一致性约束提升深度精度。输出每个像素的度量深度。
已知相机内参K和外参[R|t],将深度图每个像素 d·K⁻¹·[u,v,1]ᵀ 反投影到3D空间,形成初始稀疏点云。这些点作为高斯原语的初始位置 μ。
轻量级MLP/CNN网络,输入每个3D点的多视图特征,输出:不透明度 α、协方差 Σ(3D缩放+旋转四元数)、球谐系数(SH)颜色。一次性前馈预测所有参数。
L_total = L_GS(渲染RGB vs 真值) + λ_depth·L_depth(估计深度 vs GT/伪GT) + λ_LPIPS·L_LPIPS。深度损失来自多视图立体匹配或传感器,GS损失为标准MSE+SSIM。
左侧(🔵): DepthSplat深度引导初始化 — 高斯精确分布在物体表面 · 右侧(🔴): 随机初始化 — 高斯需要更多迭代才能收敛到表面
🖱 拖拽旋转 · 滚轮缩放。蓝色=深度初始化(已收敛到表面),红色=随机初始化(需更多优化步数)
N张不同视角RGB图像
+ 相机内参/外参
(SfM或已知位姿)
预训练单目深度模型
多视图匹配优化
输出每像素深度图
深度×相机参数
→ 3D点云
= 高斯初始位置 μ
GaussianHead网络
预测 Σ, α, SH
(<1秒 推理)
3D GS Rasterizer
新视角合成
计算渲染损失
渲染损失 → GS参数
深度损失 → Depth模型
互相增强
数据集: MipNeRF360, Tanks&Temples, DeepBlending
损失函数: L1+LSSIM+LPIPS (RGB) + L1 (Depth)
优化器: AdamW, lr=1e-4, 余弦退火
训练时间: ~2天 (8×A100) — 训练一次,推理通用
前馈推理: <1秒/场景
vs 3D-GS优化: 30-60分钟/场景
加速比: 1,800-3,600×
适用场景: 实时重建、AR/VR、无人机航拍后处理
• 去除深度引导: -1.4 dB PSNR
• 去除多视图匹配: -0.8 dB PSNR
• 去除GS→Depth反向训练: -0.5 dB PSNR
• 深度精度每提升10%,GS质量提升~0.7 dB