OpenRLHF项目中训练Yi-34B-Chat模型时遇到的Tokenizer问题解析

2025-06-03 23:59:02作者：庞队千Virginia

在基于OpenRLHF框架进行Yi-34B-Chat模型的DPO（Direct Preference Optimization）训练过程中，开发者可能会遇到一个典型的数组越界错误。该错误表现为在模型训练初期即抛出"Array out of bounds"异常，具体错误信息显示为"Assertion srcIndex < srcSelectDimSize failed"。

问题现象

当使用train_dpo_llama_34b.sh脚本对Yi-34B-Chat模型进行DPO训练时，系统会报出以下关键错误：

核心断言失败：srcIndex < srcSelectDimSize
错误发生在数据处理阶段
即使用户未修改任何Tokenizer相关代码，问题依然出现

问题根源

经过技术分析，该问题的根本原因在于HuggingFace Tokenizer的快速模式（fast mode）与Yi系列模型的兼容性问题。Yi-34B-Chat模型使用的特殊Tokenizer在快速模式下可能会产生不兼容的索引处理方式，导致在数据加载阶段出现数组越界。

解决方案

OpenRLHF项目组提供了两种等效的解决方案：

代码修改方案：在openrlhf/utils/utils.py文件中，修改Tokenizer的初始化参数：

tokenizer = AutoTokenizer.from_pretrained(
    pretrain, 
    trust_remote_code=True, 
    use_fast=False,  # 关键修改
    **sp_tokens
)

命令行参数方案：在运行train_dpo.py脚本时添加禁用快速Tokenizer的参数：
```
--disable_fast_tokenizer
```

验证与效果

应用上述解决方案后：

模型训练可以正常启动
不再出现数组越界错误
训练过程中的loss曲线显示正常（初期loss值在0.6左右波动属于正常现象）

技术建议

对于大模型训练中的Tokenizer相关问题，建议开发者：

优先考虑禁用快速Tokenizer模式，特别是使用非主流模型架构时
注意观察训练初期的accuracy均值（acc mean）而非仅关注loss值
对于Yi系列等国产大模型，需要特别注意其特殊的Tokenizer实现可能带来的兼容性问题

该问题的解决体现了OpenRLHF框架良好的可扩展性，能够通过简单的配置调整适配不同架构的大模型训练需求。

OpenRLHF

A Ray-based High-performance RLHF framework (for large models)

项目地址：https://gitcode.com/gh_mirrors/op/OpenRLHF

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.13 K

271