Modelscope/SWIFT项目中的多卡训练保存检查点问题解析

2025-05-31 19:54:17作者：裴锟轩Denise

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-R1, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, Phi4, ...) (AAAI 2025).

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

问题现象

在使用Modelscope/SWIFT项目进行多卡训练时，当尝试保存模型检查点到指定目录时，系统报出"Directory not empty"错误。具体表现为在transformers 4.49.0.dev0版本下，使用4卡训练qwen2.5-vl-3B模型时，保存检查点过程中出现OSError: [Errno 39]错误。

错误分析

该错误发生在模型训练过程中保存检查点的环节，系统试图将一个临时检查点目录重命名为正式检查点目录时，发现目标目录非空。这种问题在多卡分布式训练场景下尤为常见，主要原因包括：

多进程竞争条件：在多卡训练环境下，多个进程可能同时尝试操作同一目录，导致文件系统状态不一致。
文件系统同步延迟：分布式系统中，各节点对文件系统的视图可能存在短暂不一致。
检查点保存机制：transformers库在保存检查点时采用的临时目录重命名策略在某些环境下不够健壮。

解决方案

针对这一问题，有以下几种可行的解决方案：

添加--save_only_model参数：在训练命令中添加此参数可以简化保存过程，只保存模型本身而非完整检查点，避免复杂的目录操作。
升级transformers版本：该问题在较新版本的transformers中可能已经修复，建议尝试升级到稳定版本。
修改保存策略：可以自定义检查点保存逻辑，采用更稳健的文件操作方式，如先确保目录完全删除再创建。
增加重试机制：在保存检查点的代码中增加错误处理和重试逻辑，应对短暂的目录状态不一致。

最佳实践建议

对于使用Modelscope/SWIFT进行多卡训练的用户，建议：

在训练命令中始终包含--save_only_model参数，除非确实需要完整检查点。
定期关注transformers库的更新，及时升级到稳定版本。
在分布式训练环境中，确保所有节点对共享存储有相同的访问权限和视图。
对于关键训练任务，实现自定义的检查点保存回调，增加错误处理和日志记录。

通过以上措施，可以有效避免在多卡训练过程中遇到的检查点保存问题，确保训练过程的稳定性和可靠性。

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-R1, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, Phi4, ...) (AAAI 2025).

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter