Modelscope项目中模型微调时出现NaN/Inf问题的分析与解决

2025-05-29 04:41:28作者：虞亚竹Luna

问题背景

在使用Modelscope项目中的Qwen-1.8B大语言模型进行微调训练时，开发者遇到了一个常见但棘手的问题：模型权重中出现NaN（非数字）或Inf（无穷大）值。这种情况通常发生在深度学习模型的训练过程中，特别是在微调大型语言模型时。

问题现象

在微调过程中，系统检测到模型transformer层的多个组件（如注意力机制和MLP层）的权重参数出现了NaN或Inf值。具体表现为：

训练过程中控制台输出警告信息，提示在transformer.h.21到transformer.h.23层的多个权重矩阵中发现了异常值
在推理阶段尝试生成文本时，系统抛出RuntimeError，提示概率张量包含非法值（inf、nan或负数）

根本原因分析

经过技术分析，这类问题通常由以下几个因素导致：

数值不稳定：在大型语言模型中，特别是使用低精度（如FP16）训练时，容易出现数值上溢或下溢
学习率设置不当：过大的学习率会导致参数更新步长过大，使权重值"爆炸"到非法范围
梯度爆炸：在深度网络中，反向传播时梯度可能呈指数增长，最终导致参数更新异常
数据预处理问题：输入数据中包含异常值或未正确归一化

解决方案

针对这一问题，我们推荐以下解决方案：

1. 调整训练超参数

降低学习率是最直接有效的解决方案。对于Qwen这类大型模型，初始学习率建议设置在1e-5到5e-5范围内，而非原代码中的1e-4。同时可以启用梯度裁剪：

args = TrainingArguments(
    learning_rate=5e-5,  # 降低学习率
    max_grad_norm=1.0,  # 添加梯度裁剪
    ...
)

2. 启用混合精度训练

使用自动混合精度(AMP)训练可以有效减少数值不稳定性：

args = TrainingArguments(
    fp16=True,  # 启用FP16混合精度
    ...
)

3. 添加权重监控

在训练过程中实时监控权重变化，可以及早发现问题：

# 在训练循环中添加权重检查
for name, param in model.named_parameters():
    if torch.isnan(param).any() or torch.isinf(param).any():
        print(f"异常参数: {name}")
        break

4. 数据预处理优化

确保输入数据经过适当处理：

检查tokenizer是否正确处理了特殊token
验证输入序列长度是否在合理范围内
确保标签掩码正确设置

预防措施

为避免类似问题再次发生，建议：

在训练初期使用较小的学习率进行热身(warmup)
定期保存模型检查点，以便在出现问题时可以回退
使用更稳定的优化器，如AdamW而非原生Adam
对模型输出进行数值稳定性检查

总结

在Modelscope项目中使用大型语言模型进行微调时，数值稳定性是需要特别关注的问题。通过合理配置训练参数、启用适当的技术手段（如混合精度训练和梯度裁剪），以及加强训练过程监控，可以有效预防和解决NaN/Inf问题。这些经验不仅适用于Qwen系列模型，对于其他大型语言模型的微调工作同样具有参考价值。

modelscope

ModelScope: bring the notion of Model-as-a-Service to life.

项目地址：https://gitcode.com/GitHub_Trending/mo/modelscope

登录后查看全文