BEVFusion项目中的模型训练与精度问题解析

2025-06-30 22:55:52作者：俞予舒Fleming

模型加载与训练过程中的关键问题

在BEVFusion项目的模型训练过程中，开发者经常会遇到模型加载不匹配的问题。具体表现为当使用lidar-only-det.pth预训练模型时，系统会提示"模型与加载的状态字典不完全匹配"的警告信息。这实际上是一个预期中的现象，而非真正的错误。

这个警告产生的原因是BEVFusion的完整检测模型包含相机分支，而lidar-only-det.pth仅包含激光雷达部分。相机分支实际上是通过swint-nuimages-pretrained.pth单独加载的。因此，这种不匹配警告可以安全忽略，不会影响后续训练过程。

许多开发者在复现BEVFusion论文结果时，常常遇到训练精度不足的问题。根据实践经验，以下是几个关键因素：

训练轮数不足：仅训练3个epoch时，模型尚未充分拟合数据，此时NDS指标约为0.46是正常现象。完整训练需要6-7个epoch才能达到论文中0.7288的NDS指标。
训练策略：必须严格按照作者建议的训练顺序：
- 首先训练激光雷达模型得到lidar-only-det.pth
- 然后结合swint-nuimages-pretrained.pth训练完整模型
硬件配置：虽然单卡A100可以完成训练，但多卡并行训练能显著加快速度。CUDA版本建议使用11.1或11.3。