告别碎片化训练：Verl框架中FSDP分片模型与HuggingFace Safetensors无缝转换方案

2026-02-04 04:32:03作者：傅爽业Veleda

在大语言模型训练中，随着模型参数规模呈指数级增长，如何高效管理分布式训练中的模型分片成为关键挑战。FSDP（Fully Sharded Data Parallel，完全分片数据并行）技术通过将模型参数、梯度和优化器状态跨设备分片，有效解决了单GPU内存瓶颈问题。然而，当需要将训练后的FSDP分片模型导出为HuggingFace生态广泛支持的Safetensors格式时，开发者常常面临分片合并、参数对齐和格式转换的复杂流程。本文将详细介绍如何利用Verl框架提供的工具链，实现FSDP分片模型到Safetensors格式的一键转换，帮助算法工程师快速部署训练成果。

FSDP分片模型的存储挑战

FSDP作为PyTorch生态中主流的分布式训练技术，其核心原理是将模型参数按指定维度（通常是0维）切分到多个GPU设备上。在训练过程中，每个GPU仅保存部分参数的副本，通过通信原语在需要时聚合梯度。这种机制虽然显著提升了内存效率，但也导致训练 checkpoint 呈现碎片化存储特征。在Verl框架的训练流程中，FSDP模型通常存储为类似model_world_size_8_rank_0.pt的分片文件集合（如scripts/legacy_model_merger.py所示），其中包含每个rank的本地参数分片和分布式张量（DTensor）元数据。

这种分片存储格式带来两个主要挑战：首先，无法直接被HuggingFace Transformers等推理框架加载；其次，分布式张量的设备网格信息（device mesh）和分片策略（placement）需要精确解析才能正确合并参数。Verl框架通过legacy_model_merger.py工具解决了这些问题，该工具能够自动识别FSDP分片文件、解析设备网格配置，并按原始维度合并参数。

转换工具链与核心原理

Verl框架提供的legacy_model_merger.py是实现FSDP到Safetensors转换的核心工具，其工作流程主要包含四个阶段：

1. 分片文件识别与元数据解析

工具首先通过文件名模式（如model_world_size_(\d+)_rank_0.pt）识别FSDP集群规模（world size），并从rank 0的checkpoint中提取设备网格信息。如代码所示：

def _get_world_size(self) -> int:
    for filename in os.listdir(self.config.local_dir):
        match = re.match(r"model_world_size_(\d+)_rank_0\.pt", filename)
        if match:
            return int(match.group(1))
    raise FileNotFoundError(
        f"Could not determine world size. No file matching 'model_world_size_(\d+)_rank_0.pt' found in {self.config.local_dir}"
    )

对于使用PyTorch 2.0+ DTensor的场景，工具会从张量元数据中解析设备网格形状（mesh shape）和维度名称（如('fsdp',)或('ddp', 'fsdp')），为后续合并提供依据。

2. 分布式张量合并策略

根据FSDP的分片规则，工具采用不同策略合并参数：

复制放置（Replicate）：直接取任意rank的副本（如LayerNorm参数）
分片放置（Shard）：按原分片维度拼接张量（如线性层权重）
部分放置（Partial）：暂不支持，会抛出 NotImplementedError

核心合并逻辑在_merge_by_placement方法中实现：

def _merge_by_placement(self, tensors: list[torch.Tensor], placement: Placement) -> torch.Tensor:
    if placement.is_replicate():
        return tensors[0]
    elif placement.is_partial():
        raise NotImplementedError("Partial placement is not supported yet")
    elif placement.is_shard():
        return torch.cat(tensors, dim=placement.dim).contiguous()
    raise NotImplementedError(f"Unsupported placement: {placement}")

3. Safetensors格式导出

合并后的状态字典（state_dict）通过HuggingFace Transformers的save_pretrained方法导出为Safetensors格式。该过程会自动处理张量数据类型转换（默认bfloat16）和元数据生成，确保与HuggingFace生态兼容：

def save_hf_model_and_tokenizer(self, state_dict: dict[str, torch.Tensor]):
    auto_model_class = self.get_transformers_auto_model_class()
    with init_empty_weights():
        model = auto_model_class.from_config(self.model_config, torch_dtype=torch.bfloat16)
    model.to_empty(device="cpu")
    model = self.patch_model_generation_config(model)
    model.save_pretrained(self.config.target_dir, state_dict=state_dict)

4. 完整性校验机制

工具提供可选的校验模式，通过比对合并后的模型与原始HuggingFace模型的参数形状和数值精度，确保转换正确性：

def _test_state_dict(self, state_dict: dict[str, torch.Tensor]):
    hf_model = auto_model_class.from_pretrained(self.config.test_hf_dir, torch_dtype=torch.bfloat16)
    hf_state_dict = hf_model.state_dict()
    # 校验参数完整性和一致性
    for key in hf_model_keys:
        assert hf_state_dict[key].shape == state_dict[key].shape, f"Shape mismatch for {key}"
        torch.testing.assert_close(hf_state_dict[key], state_dict[key], atol=1e-6, rtol=1e-6)

实操指南：从FSDP Checkpoint到Safetensors

以下是使用Verl框架工具链完成转换的详细步骤，以Qwen2-7B模型在8卡FSDP训练场景为例：

1. 准备工作

确保已安装Verl框架依赖：

pip install -r requirements.txt

2. 执行转换命令

使用legacy_model_merger.py执行合并，指定FSDP checkpoint目录和目标路径：

python scripts/legacy_model_merger.py merge \
    --backend fsdp \
    --local_dir checkpoints/verl_fsdp_gsm8k_examples/qwen2_5_0b5_fsdp_saveload/global_step_1/actor \
    --target_dir ./merged_qwen2_7b_safetensors \
    --hf_model_config_path ./pretrained/qwen2-7b

关键参数说明：

--backend fsdp：指定后端类型为FSDP
--local_dir：FSDP分片文件所在目录
--target_dir：Safetensors格式模型输出目录
--hf_model_config_path：原始HuggingFace模型配置路径

3. 验证转换结果

转换完成后，可通过以下代码验证模型加载：

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    "./merged_qwen2_7b_safetensors",
    torch_dtype="auto",
    device_map="auto"
)
print(f"成功加载模型，参数规模: {model.num_parameters()/1e9:.2f}B")

高级优化与最佳实践

内存优化技巧

对于70B以上超大规模模型，直接合并可能导致内存溢出。建议采用以下策略：

分阶段合并：先合并低秩参数（如LoRA适配器），再处理主体模型
CPU内存限制：设置--low_cpu_mem_usage=True启用内存高效加载
分布式合并：使用torch.distributed在多节点上并行合并

性能调优参数

参数	说明	推荐值
`--torch_dtype`	输出张量数据类型	`bfloat16`（平衡精度与存储）
`--max_shard_size`	分片大小限制	`10GB`（适配大多数GPU内存）
`--safe_serialization`	安全序列化模式	`True`（防止数据损坏）

常见问题解决方案

Q1: 合并时出现"DTensor没有device_mesh"错误？

A1: 这通常是由于使用旧版PyTorch导致的，建议升级到PyTorch 2.5+并确保FSDP启用use_orig_params=False。

Q2: 转换后的模型推理速度变慢？

A2: 检查是否启用了torch.compile优化，可通过以下方式修复：

model = AutoModelForCausalLM.from_pretrained(..., torch_dtype=torch.bfloat16)
model = torch.compile(model, mode="max-autotune")

总结与生态集成

Verl框架的FSDP到Safetensors转换工具链，通过自动化分片识别、智能参数合并和格式适配，解决了分布式训练模型的部署难题。该方案已在Qwen、DeepSeek等主流大模型上验证，支持从0.5B到70B+全参数规模转换。转换后的Safetensors模型可直接用于：

低延迟推理服务（如vllm部署）
模型微调（如LoRA适配器训练）
多模态任务集成（如examples/multi_modal_example.rst）

随着大语言模型训练范式的演进，Verl框架将持续优化转换工具链，计划在未来版本中支持：

增量合并（仅更新变化的分片）
量化感知转换（直接导出INT4/INT8模型）
跨框架兼容（支持Megatron-LM到Safetensors转换）

通过本文介绍的方法，开发者可以高效打通分布式训练到生产部署的最后一公里，充分释放FSDP训练模型的应用价值。完整技术细节可参考官方文档advance/checkpoint.rst，如有问题可在GitHub Issues提交反馈。

verl

verl: Volcano Engine Reinforcement Learning for LLMs

项目地址：https://gitcode.com/GitHub_Trending/ve/verl

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

告别碎片化训练：Verl框架中FSDP分片模型与HuggingFace Safetensors无缝转换方案

FSDP分片模型的存储挑战

转换工具链与核心原理

1. 分片文件识别与元数据解析

2. 分布式张量合并策略

3. Safetensors格式导出

4. 完整性校验机制

实操指南：从FSDP Checkpoint到Safetensors

1. 准备工作

2. 执行转换命令

3. 验证转换结果

高级优化与最佳实践

内存优化技巧

性能调优参数

常见问题解决方案

Q1: 合并时出现"DTensor没有device_mesh"错误？

Q2: 转换后的模型推理速度变慢？

总结与生态集成

热门内容推荐

最新内容推荐

项目优选

告别碎片化训练：Verl框架中FSDP分片模型与HuggingFace Safetensors无缝转换方案

FSDP分片模型的存储挑战

转换工具链与核心原理

1. 分片文件识别与元数据解析

2. 分布式张量合并策略

3. Safetensors格式导出

4. 完整性校验机制

实操指南：从FSDP Checkpoint到Safetensors

1. 准备工作

2. 执行转换命令

3. 验证转换结果

高级优化与最佳实践

内存优化技巧

性能调优参数

常见问题解决方案

Q1: 合并时出现"DTensor没有device_mesh"错误？

Q2: 转换后的模型推理速度变慢？

总结与生态集成

相关内容推荐

热门内容推荐

最新内容推荐

项目优选