OpenRLHF项目中奖励模型输出维度问题的技术解析

2025-06-02 16:50:46作者：毕习沙Eudora

引言

在OpenRLHF项目中，开发者在使用奖励模型(Reward Model)进行PPO训练时，可能会遇到一个关键的技术细节问题：奖励模型的输出维度(out_features)默认为2，而实际项目中期望的维度应该是1。这个问题看似简单，却涉及到Hugging Face模型加载机制和自定义模型架构的深层技术细节。

问题现象

当开发者使用Hugging Face的AutoModelForSequenceClassification.from_pretrained()方法加载OpenRLHF项目中的奖励模型时，模型最后的线性层(score)输出维度会显示为2：

(score): Linear(in_features=4096, out_features=2, bias=False)

而根据OpenRLHF项目的源代码设计，奖励模型的输出层应该是一个单值输出：

setattr(self, value_head_prefix, nn.Linear(config.hidden_size, 1, bias=False))

技术原理分析

Hugging Face模型加载机制

Hugging Face的AutoModelForSequenceClassification类会根据模型配置文件(config.json)中的architectures字段来决定如何构建模型。当遇到标准架构名称(如MistralForSequenceClassification)时，会按照标准方式加载；当遇到自定义架构名称(如RewardModel)时，会回退到默认行为。

两种配置方式的差异

标准序列分类配置：
- 配置文件明确指定了architectures为标准的分类模型
- 包含id2label和label2id字段
- 输出维度由标签数量决定
自定义奖励模型配置：
- 使用自定义架构名称RewardModel
- 包含OpenRLHF特有的value_head_prefix字段
- 缺少明确的标签数量定义

默认行为的影响

当Hugging Face无法识别自定义架构时，会：

回退到标准序列分类模型
默认使用num_labels=2(二元分类)
忽略自定义的配置字段

解决方案

正确的加载方式是在调用from_pretrained时显式指定num_labels=1：

reward_model = AutoModelForSequenceClassification.from_pretrained(
    reward_model_path,
    num_labels=1,  # 强制使用单输出头
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    use_cache=False,
)