Swift项目v3.2.1版本发布：GRPO训练优化与模型支持升级

2025-06-08 12:25:29作者：曹令琨Iris

魔搭大模型训练推理工具箱，支持LLaMA、千问、ChatGLM、BaiChuan等多种模型及LoRA等多种训练方式(The LLM training/inference framework of ModelScope community, Support various models like LLaMA, Qwen, Baichuan, ChatGLM and others, and training methods like LoRA, ResTuning, NEFTune, etc.)

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

Swift是一个专注于高效模型训练与推理的开源项目，旨在为研究人员和开发者提供便捷的大模型训练工具链。在最新发布的v3.2.1版本中，Swift团队重点优化了GRPO训练框架，并扩展了对多个大语言模型的支持，显著提升了训练效率和资源利用率。

GRPO训练框架的重大改进

本次版本更新中，GRPO训练框架获得了多项关键性增强，使其能够更好地支持大规模模型的训练任务。

首先，GRPO现在全面支持vLLM的tensor parallel模式，这一特性使得模型能够更高效地利用多GPU资源进行并行计算。通过张量并行技术，模型参数被分割到不同的GPU上，每个GPU只需处理部分计算，从而显著降低了单个设备的显存需求。

更值得注意的是，GRPO框架现在支持优化器和模型的协同卸载（co-locate offload）技术。这项创新允许系统在显存不足时，将部分计算任务智能地转移到CPU内存中，同时保持训练过程的连续性。配合分批权重导入和LoRA合并技术，这些优化使得72B参数量级的大模型训练能够在仅四张A100 GPU上运行，大大降低了大规模模型训练的门槛。

针对代码训练场景，GRPO新增了代码ORM（对象关系映射）支持。这一功能为代码数据的训练提供了更结构化的处理方式，能够更好地捕捉代码中的逻辑关系和上下文信息，显著提升了代码生成和理解任务的效果。

新增模型支持

v3.2.1版本扩展了对多个前沿大语言模型的支持：

Qwen/QwQ-32B系列模型：这是一组高性能的中英双语大模型，在32B参数规模下展现出强大的语言理解和生成能力。新版本不仅支持基础模型，还提供了对AWQ量化版本的支持，使模型能够在资源受限的环境中高效运行。
inclusionAI/Ling-lite系列：这是一组轻量级但性能优异的语言模型，特别适合在计算资源有限的情况下部署使用。Swift团队对这些模型进行了深度优化，确保其在各种硬件配置下都能发挥最佳性能。