TRL项目中使用DeepSpeed Zero-3保存PPOv2模型的问题分析与解决方案

2025-05-17 10:38:01作者：丁柯新Fawn

问题背景

在使用Hugging Face TRL项目进行PPOv2训练时，当配置了DeepSpeed Zero-3优化和BF16混合精度时，模型在保存检查点时会出现"AttributeError: 'MistralForCausalLM' object has no attribute 'zero_gather_16bit_weights_on_model_save'"的错误。这个问题主要出现在使用大型语言模型(如Mistral-7B)进行强化学习训练的场景中。

技术原理分析

该问题的根本原因在于TRL的PPOv2Trainer实现中模型封装与DeepSpeed引擎的交互方式：

模型封装结构：PPOv2Trainer将策略模型(policy)和价值模型(value)封装在PolicyAndValueWrapper对象中
DeepSpeed准备：这个封装后的对象会被accelerate.prepare()方法包装成DeepSpeedEngine
保存时的冲突：在保存模型时，代码尝试直接访问策略模型的DeepSpeed相关方法，但策略模型本身并不是DeepSpeedEngine实例

解决方案实现

经过社区技术专家的深入分析，提出了两种有效的解决方案：

方案一：完整保存流程重写

class FixZero3CheckpointPPOv2Trainer(PPOv2Trainer):
    def save_model(self, output_dir: Optional[str] = None, _internal_call: bool = False):
        backup_model = self.model
        self.model = self.model.policy  # 仅保存策略模型
        
        Trainer.save_model(self, output_dir, _internal_call)
        
        self.model = backup_model

    def _save(self, output_dir: Optional[str] = None, state_dict=None):
        if self.is_deepspeed_enabled:
            state_dict = {name.removeprefix('policy.'): param 
                         for name, param in state_dict.items()
                         if name.startswith('policy.')}
        
        super()._save(output_dir, state_dict)

方案二：简化保存方法

def save_model(self, output_dir: Optional[str] = None, _internal_call: bool = False):
    backup_model = self.model
    self.model = self.model.policy  # 仅保存策略模型
    
    if self.is_deepspeed_enabled:
        backup_deepspeed = self.deepspeed
        self.deepspeed = self.model
    
    os.makedirs(output_dir, exist_ok=True)
    self.model.save_pretrained(output_dir)
    
    self.model = backup_model
    
    if self.is_deepspeed_enabled:
        self.deepspeed = backup_deepspeed