TRL项目中DeepSpeed Zero-3模式下模型保存问题的分析与解决

2025-05-18 10:40:39作者：昌雅子Ethen

TRL（Transformer Reinforcement Learning）是一站式库，旨在通过强化学习技术如监督微调、奖励建模和近端策略优化等，精细调整及校准大型语言模型，使其更智能、更具针对性。利用transformers库的强大基础，TRL支持从单一GPU到大规模多节点集群的高效扩展，并集成PEFT、unsloth以实现硬件友好型训练加速。不论是对话生成、文本评估还是模型偏好优化，TRL都能通过简洁的命令行接口或丰富的Python类提供灵活控制，助力开发者无需编码即可与LLMs互动或进行复杂训练。无论是希望提升模型情感正向性、减少毒性内容，还是定制特定场景的应用，TRL都是解锁AI潜能的关键工具。

项目地址：https://gitcode.com/gh_mirrors/trl/trl

问题背景

在使用TRL项目进行PPO-v2训练时，当采用DeepSpeed Zero-3优化策略和混合精度bf16训练时，模型在保存检查点阶段会出现"AttributeError: 'MistralForCausalLM' object has no attribute 'zero_gather_16bit_weights_on_model_save'"的错误。这个问题主要出现在策略模型保存阶段，影响了训练流程的正常完成。

技术原理分析

DeepSpeed Zero-3优化策略通过将模型参数、梯度和优化器状态分割到不同的GPU上来实现内存优化。在这种模式下，模型权重分布在多个设备上，因此在保存模型时需要特殊的处理来收集这些分散的权重。

TRL的PPOv2Trainer将策略模型(policy)和价值模型(value)封装在PolicyAndValueWrapper对象中，然后通过accelerate.prepare()方法将这个包装器转换为DeepSpeedEngine对象。然而在保存模型时，PPOv2Trainer试图直接保存策略模型，而该模型本身并不是DeepSpeedEngine实例，导致无法访问zero_gather_16bit_weights_on_model_save方法。

解决方案

经过技术分析，我们提出了两种有效的解决方案：

方案一：修改保存逻辑

class FixedPPOv2Trainer(PPOv2Trainer):
    def save_model(self, output_dir: Optional[str] = None, _internal_call: bool = False):
        backup_model = self.model
        self.model = self.model.policy  # 仅保存策略模型
        
        Trainer.save_model(self, output_dir, _internal_call)
        
        self.model = backup_model
    
    def _save(self, output_dir: Optional[str] = None, state_dict=None):
        if self.is_deepspeed_enabled:
            state_dict = {name.removeprefix('policy.'): param 
                         for name, param in state_dict.items()
                         if name.startswith('policy.')}
        
        super()._save(output_dir, state_dict)

方案二：直接保存策略模型

def save_model(self, output_dir: Optional[str] = None, _internal_call: bool = False):
    backup_model = self.model
    self.model = self.model.policy  # 仅保存策略模型
    
    if self.is_deepspeed_enabled:
        backup_deepspeed = self.deepspeed
        self.deepspeed = self.model
    
    os.makedirs(output_dir, exist_ok=True)
    self.model.save_pretrained(output_dir)
    
    self.model = backup_model
    
    if self.is_deepspeed_enabled:
        self.deepspeed = backup_deepspeed

方案比较

两种方案各有优缺点：

方案一更符合原始设计思路，通过修改保存逻辑来正确处理DeepSpeed Zero-3模式下的权重收集。它保持了DeepSpeedEngine的完整性，同时通过过滤state_dict来仅保存策略模型。
方案二更为直接，绕过了一些中间步骤直接保存策略模型。这种方法实现简单，但可能在某些边缘情况下不够健壮。

最佳实践建议

对于大多数使用场景，建议采用方案一，因为：

它更完整地处理了DeepSpeed Zero-3的特性
保持了与原始设计的一致性
经过了更全面的测试验证

总结

TRL项目在DeepSpeed Zero-3模式下的模型保存问题源于模型包装和DeepSpeed引擎处理的复杂性。通过理解问题的技术本质，我们提出了可靠的解决方案，使PPO-v2训练能够在Zero-3优化下顺利完成。这些解决方案不仅适用于Mistral模型，也适用于其他类似架构的大语言模型训练场景。

trl

项目地址：https://gitcode.com/gh_mirrors/trl/trl

登录后查看全文