CogVideo模型训练中Loss值出现NaN问题的分析与解决

2025-05-21 03:49:56作者：申梦珏Efrain

问题现象

在使用CogVideo项目进行SFT(监督微调)训练时，部分训练步骤中出现了Loss值变为NaN(非数值)的情况。从训练日志中可以观察到，随着训练的进行，Loss值开始出现波动，最终在某些步骤中变为NaN，同时伴随着梯度缩放因子(gradient scaling factor)的自动调整。

问题分析

学习率设置

从训练配置文件中可以看到，CogVideo项目对于SFT训练推荐的学习率范围是1E-5量级。然而在实际训练中，学习率被设置为0.001(1E-3)，这明显高于推荐值。过高的学习率会导致参数更新步长过大，可能使模型参数进入不稳定的区域，从而产生数值溢出，表现为Loss值变为NaN。

梯度缩放机制

DeepSpeed框架的梯度缩放机制(Loss scaler)在检测到数值溢出时，会自动降低缩放因子(从65536降到32768，再到16384)。这表明训练过程中确实出现了数值不稳定的情况。虽然这种机制可以暂时缓解问题，但如果根本原因(如学习率过高)不解决，最终仍会导致训练失败。

训练稳定性

从日志中可以看到，当Loss值变为NaN时，训练会自动跳过该步骤的梯度更新和优化器步骤。这种保护机制虽然可以防止训练完全崩溃，但频繁跳过步骤会影响训练效率和最终模型质量。

解决方案

调整学习率

根据项目文档建议，对于SFT训练应将学习率设置为1E-5量级。建议修改训练配置文件中的学习率参数：

lr: 0.00001  # 从0.001调整为0.00001

梯度裁剪

在优化器配置中添加梯度裁剪(gradient clipping)可以防止梯度爆炸：

optimizer:
  type: adam
  params:
    lr: 0.00001
    weight_decay: 0.01
    grad_clip: 1.0  # 添加梯度裁剪阈值

训练监控

建议在训练过程中密切监控以下指标：

Loss值的变化趋势
梯度缩放因子的变化
参数更新的幅度

最佳实践

学习率预热：使用学习率预热策略，开始时使用较小的学习率，逐步增加到目标值。
混合精度训练：确保正确配置了混合精度训练参数，特别是对于不同硬件平台。
数据检查：验证训练数据中是否包含异常值或损坏的样本。
模型初始化：检查模型参数初始化是否合理，避免初始值过大。

通过以上调整，可以有效解决CogVideo训练过程中出现的Loss值NaN问题，提高训练稳定性和模型质量。

CogVideo

text and image to video generation: CogVideoX (2024) and CogVideo (ICLR 2023)

项目地址：https://gitcode.com/GitHub_Trending/co/CogVideo

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.26 K

692