ChatGLM3单机多卡LoRA微调常见问题与解决方案

2025-05-16 06:34:08作者：曹令琨Iris

概述

在使用ChatGLM3进行单机多卡LoRA微调时，开发者可能会遇到一些典型的技术问题。本文将详细分析这些问题并提供解决方案，帮助开发者顺利完成模型微调任务。

常见问题分析

1. DeepSpeed配置缺失问题

当使用官方提供的多卡运行命令时，系统可能会提示缺少DeepSpeed选项。这是因为DeepSpeed配置路径需要设置为绝对路径才能被正确识别。

解决方案：

确保在配置文件中将DeepSpeed相关配置改为绝对路径
检查DeepSpeed是否已正确安装

2. 运行时参数重复标记错误

在多卡训练过程中，可能会遇到"Expected to mark a variable ready only once"的运行时错误。这种错误通常由以下原因导致：

在forward函数外使用了模块参数
在多个重入反向传递中重复使用参数
同一参数被多次标记为就绪状态

错误示例：

RuntimeError: Expected to mark a variable ready only once...
Parameter at index 55 with name base_model.model.transformer.encoder.layers.27.self_attention.query_key_value.lora_B.default.weight has been marked as ready twice.

解决方案

1. 单卡运行方案

对于只想使用单卡运行的用户，可以使用以下命令格式：

CUDA_VISIBLE_DEVICES=1 python finetune_hf.py data/AdvertiseGen_fix /path/to/chatglm3-6b configs/ptuning_v2.yaml

2. 多卡运行正确配置

要实现单机多卡LoRA微调，推荐使用以下命令格式：

OMP_NUM_THREADS=1 torchrun --standalone --nnodes=1 --nproc_per_node=8 finetune_hf.py data/AdvertiseGen_fix /path/to/chatglm3-6b configs/sft.yaml configs/ds_zero_3.json

关键参数说明：

--nproc_per_node=8：指定使用的GPU数量
OMP_NUM_THREADS=1：设置OpenMP线程数以优化性能
确保DeepSpeed配置文件(ds_zero_3.json)使用绝对路径

3. 静态图设置解决方案

对于参数重复标记的问题，可以尝试以下方法：

检查模型代码，确保所有参数使用都在forward函数内
避免在多个checkpoint函数中重复使用相同参数
考虑使用_set_static_graph()作为临时解决方案（如果模型图在训练循环中不变）

最佳实践建议

环境检查：
- 确认CUDA环境配置正确
- 检查DeepSpeed和PyTorch版本兼容性
- 确保所有依赖库已正确安装
路径配置：
- 所有配置文件都应使用绝对路径
- 检查数据路径和模型路径的访问权限
资源分配：
- 根据GPU显存大小合理设置batch size
- 监控GPU使用情况，避免显存溢出
调试技巧：
- 先使用单卡模式验证脚本正确性
- 逐步增加GPU数量进行测试
- 查看日志文件定位具体错误位置

总结

ChatGLM3的LoRA微调在多卡环境下可能会遇到配置和运行时问题，通过正确设置DeepSpeed路径、合理分配计算资源以及遵循参数使用规范，可以有效解决这些问题。建议开发者先进行小规模测试，确认配置无误后再进行大规模训练，以提高开发效率和资源利用率。

ChatGLM3

ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型

项目地址：https://gitcode.com/gh_mirrors/ch/ChatGLM3

登录后查看全文