Modelscope/SWIFT框架下解决单机多卡训练内存不足问题

2025-05-31 05:34:44作者：盛欣凯Ernestine

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-R1, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, Phi4, ...) (AAAI 2025).

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

问题背景

在使用Modelscope/SWIFT框架进行大模型训练时，开发者经常遇到单卡训练正常但多卡训练失败的情况。特别是在使用DeepSpeed的offload功能时，系统会抛出SIGTERM信号终止进程，并显示"ChildFailedError"错误。这种现象通常与系统资源限制有关，特别是内存管理方面的问题。

问题现象分析

当开发者尝试使用DeepSpeed的zero3_offload策略进行多卡训练时，系统会显示以下关键错误信息：

进程被SIGTERM信号终止
报错"torch.distributed.elastic.multiprocessing.errors.ChildFailedError"
参数显示"Total persistent parameters: 333312 in 141 params"

这些现象表明训练过程在初始化阶段就遇到了资源限制问题，导致分布式训练无法正常启动。

根本原因

经过技术分析，这个问题主要由两个因素导致：

系统内存不足：DeepSpeed的offload功能需要将部分模型参数卸载到CPU内存，当系统可用内存不足时，会导致进程被强制终止。
内存锁定限制：Linux系统的"max locked memory"参数(通过ulimit -l查看)设置过低(如64KB)，无法满足分布式训练的内存锁定需求。这个参数控制着进程可以锁定的内存量，对于GPU训练尤为重要。

解决方案

方法一：增加系统可用内存

对于Docker环境，可以通过以下方式调整内存限制：

增加Docker容器的内存分配
减少同时运行的容器数量
优化训练参数，如减小batch size

方法二：调整系统内存锁定限制

临时解决方案(当前会话有效)：

ulimit -l unlimited

永久解决方案(需要root权限)：

编辑/etc/security/limits.conf文件
添加或修改以下内容：

* soft memlock unlimited
* hard memlock unlimited

重新登录使配置生效

方法三：优化训练配置

减少per_device_train_batch_size
降低gradient_accumulation_steps
尝试不使用offload功能(如改用zero2策略)
确保dataloader_num_workers设置合理

预防措施

在训练前检查系统资源：

free -h
nvidia-smi
ulimit -a

使用资源监控工具实时观察训练过程中的资源使用情况
对于大型模型，建议先在单卡小批量数据上测试，确认资源足够后再扩展到多卡

总结

Modelscope/SWIFT框架下多卡训练失败通常源于系统资源限制。通过合理配置系统参数、优化训练设置和确保足够的内存资源，可以有效解决这类问题。对于深度学习开发者来说，理解系统资源管理机制和训练框架的内存需求是保证训练稳定性的关键。

swift

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

434

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989

Modelscope/SWIFT框架下解决单机多卡训练内存不足问题

问题背景

问题现象分析

根本原因

解决方案

方法一：增加系统可用内存

方法二：调整系统内存锁定限制

方法三：优化训练配置

预防措施

总结

热门内容推荐

最新内容推荐

项目优选

Modelscope/SWIFT框架下解决单机多卡训练内存不足问题

问题背景

问题现象分析

根本原因

解决方案

方法一：增加系统可用内存

方法二：调整系统内存锁定限制

方法三：优化训练配置

预防措施

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选