LLaMA-Factory项目中保存checkpoint后loss突降为0的问题分析与解决方案

2025-05-02 04:00:16作者：戚魁泉Nursing

问题现象

在使用LLaMA-Factory项目进行大模型训练时，部分用户反馈在保存checkpoint后，下一个训练步骤的loss值会突然降为0。这种现象不仅影响训练过程的监控，也可能暗示着模型训练过程中存在潜在问题。

问题根源分析

经过技术团队深入排查，发现问题与DeepSpeed配置中的通信优化参数有关。具体来说：

通信重叠机制：DeepSpeed默认启用了overlap_comm参数（设置为true），该设计初衷是为了提高训练效率，通过重叠计算和通信操作来减少整体训练时间。
保存检查点时的冲突：当模型保存checkpoint时，这种通信重叠机制可能与保存操作产生冲突，导致梯度计算或损失值记录出现异常。
数值表现：这种冲突在训练日志中最直观的表现就是保存checkpoint后的下一个step中，loss值突然变为0，这显然不符合正常的训练曲线变化规律。

解决方案

针对这一问题，推荐采用以下配置调整：

{
    "train_micro_batch_size_per_gpu": "auto",
    "gradient_accumulation_steps": "auto",
    "optimizer": {
        "type": "AdamW",
        "params": {
            "lr": "auto",
            "betas": "auto",
            "eps": "auto",
            "weight_decay": "auto"
        }
    },
    "overlap_comm": false,  # 关键修改点
    "fp16": {
        "enabled": "auto"
    }
}

技术原理详解

通信重叠机制：在分布式训练中，节点间的梯度同步是耗时的操作。overlap_comm设置为true时，DeepSpeed会尝试在前向传播完成前就开始梯度同步的准备工作，以节省时间。
检查点保存机制：保存模型检查点需要确保所有计算和通信操作都已完成，以获取一致的模型状态。当通信重叠启用时，可能会与保存操作产生竞争条件。
稳定性与性能权衡：关闭通信重叠虽然可能略微降低训练速度（通常在5%以内），但能显著提高训练过程的稳定性，特别是在需要频繁保存检查点的场景下。