GSplat多GPU训练中的性能问题分析与解决方案

2025-06-28 07:14:24作者：羿妍玫Ivan

问题背景

在3D高斯泼溅(3D Gaussian Splatting)领域，GSplat是一个重要的开源实现。近期有用户报告在使用GSplat进行多GPU训练时遇到了性能显著下降的问题，表现为训练后的渲染质量指标(PSNR、SSIM、LPIPS)明显低于单GPU训练结果。

问题现象

用户在使用GSplat 1.3.0版本进行多GPU训练时发现以下现象：

在多GPU训练模式下，每个GPU会生成独立的检查点文件(如ckpt_14999_rank0.pt和ckpt_14999_rank1.pt)
直接使用单个检查点文件进行评估时，得到的渲染质量指标显著低于预期
在多个不同数据集(Truck、Dozer等)上都复现了相同问题
单GPU训练模式下指标表现正常

问题根源分析

经过技术分析，这个问题源于GSplat在多GPU训练时的数据分布机制：

数据分布特性：在多GPU训练时，整个场景的高斯点云会被自动分配到不同的GPU上，每个GPU只保存和优化自己负责的那部分高斯点
检查点机制：训练过程中，每个GPU独立保存检查点文件，而不是合并后的完整场景
评估方式：直接使用单个检查点文件评估时，只能加载部分场景数据，导致渲染不完整、质量下降

解决方案

针对这个问题，开发者提供了两种解决方案：

方案一：训练时启用评估

在训练命令中设置--eval_steps参数，让训练过程自动执行评估：

python3 gsplat/examples/simple_trainer.py default --eval_steps 1000 ...

这种方式会在训练过程中定期执行完整场景的评估，得到准确的指标结果。

方案二：手动合并检查点

训练完成后，可以编写脚本将多个GPU的检查点合并为一个完整场景，再进行评估。核心代码逻辑如下：

# 加载所有rank的检查点
checkpoints = []
for rank in range(world_size):
    ckpt_path = f"ckpt_14999_rank{rank}.pt"
    checkpoints.append(torch.load(ckpt_path))

# 合并高斯点云参数
merged_params = {}
for key in checkpoints[0].keys():
    merged_params[key] = torch.cat([ckpt[key] for ckpt in checkpoints])

# 保存合并后的检查点
torch.save(merged_params, "merged_checkpoint.pt")

然后使用合并后的检查点进行评估：

python3 gsplat/examples/simple_trainer.py default --ckpt merged_checkpoint.pt ...

技术建议

训练策略选择：对于小型场景，单GPU训练可能更为简单高效；大型场景才需要考虑多GPU训练
资源监控：训练过程中应监控GPU内存使用情况，合理设置高斯点数量上限
评估频率：根据训练时长合理设置--eval_steps，平衡训练效率和评估需求
版本兼容性：注意不同版本间的行为差异，特别是多GPU支持方面的改进

总结

GSplat的多GPU训练机制通过分布式处理提高了大规模场景的训练效率，但需要特别注意检查点的处理方式。理解其数据分布原理后，通过合理的评估设置或检查点合并，可以确保获得准确的渲染质量评估结果。这一问题的解决不仅提升了工具的使用体验，也加深了我们对分布式3D重建技术的理解。

gsplat

CUDA accelerated rasterization of gaussian splatting

项目地址：https://gitcode.com/GitHub_Trending/gs/gsplat

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

986