TRELLIS项目中训练SLAT VAE模型时出现NaN问题的分析与解决

2025-05-25 06:25:08作者：伍希望

问题背景

在使用TRELLIS项目中的SLAT VAE模型进行训练时，开发者遇到了一个常见但棘手的问题：在第一个训练迭代后，模型参数全部变成了NaN（非数字）值。这种情况通常表明训练过程中出现了数值不稳定问题，特别是在使用混合精度训练时更为常见。

问题现象分析

从训练日志中可以观察到几个关键现象：

梯度计算阶段，大部分参数的梯度值非常小（接近0），但仍在合理范围内
参数更新后，几乎所有使用float16精度的参数都变成了NaN
唯一保持正常的参数(out_layer)使用的是float32精度

这表明问题很可能与混合精度训练中的数值稳定性有关，特别是当使用float16精度时。

根本原因

经过分析，这个问题主要由以下几个因素共同导致：

float16精度限制：float16的数值范围远小于float32，在梯度更新时容易产生下溢或上溢
AdamW优化器的数值特性：AdamW优化器在计算动量和方差时，可能会放大数值不稳定性
学习率设置：初始学习率1e-4对于某些参数可能过大，导致更新步长过大

解决方案

针对这个问题，可以采取以下几种解决方案：

使用更高的数值精度：
- 将模型转换为float32精度训练
- 或者使用混合精度训练时，确保关键操作保持float32精度
调整优化器参数：
- 增加AdamW优化器的eps参数（如设为1e-4或更高）
- 启用amsgrad选项，可以改善数值稳定性
梯度裁剪：
- 在反向传播后应用梯度裁剪，防止梯度爆炸
学习率调整：
- 降低初始学习率
- 使用学习率预热策略
损失函数调整：
- 检查损失函数计算，确保没有数值不稳定操作
- 对损失值添加小的epsilon防止除零错误

实际应用建议

对于TRELLIS项目中的SLAT VAE模型训练，推荐采用以下配置：

optimizer = torch.optim.AdamW(
    model.parameters(),
    lr=1e-4,
    eps=1e-4,       # 增加epsilon值
    amsgrad=True    # 启用AMSGrad变体
)

# 或者使用混合精度训练时
scaler = torch.cuda.amp.GradScaler()  # 自动处理梯度缩放