MedicalGPT项目中的Tokenizer填充问题解析与解决方案

2025-06-18 12:02:09作者：乔或婵

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO、GRPO。

项目地址：https://gitcode.com/gh_mirrors/me/MedicalGPT

问题背景

在使用MedicalGPT项目进行预训练时，开发者可能会遇到一个常见的错误：当尝试对数据集进行tokenize处理时，程序报错提示"tokenizer does not have a padding token"。这个错误表明当前使用的tokenizer缺少必要的填充标记(pad token)，而数据处理流程又需要这个标记来完成序列的填充对齐操作。

错误原因分析

该问题的根本原因在于tokenizer配置不完整。在自然语言处理任务中，特别是使用Transformer架构的模型中，tokenizer需要处理不同长度的文本序列。为了将这些序列批量处理(batch processing)，通常需要将所有序列填充(padding)到相同长度。这就需要tokenizer明确指定一个特殊的填充标记(pad token)。

错误信息中明确指出："Asking to pad but the tokenizer does not have a padding token"，说明程序试图进行填充操作，但tokenizer没有配置相应的填充标记。

解决方案

针对这个问题，有两种标准的解决方法：

使用现有的特殊标记作为填充标记
如果tokenizer已经有结束标记(eos_token)，可以将其同时用作填充标记：
```
tokenizer.pad_token = tokenizer.eos_token
```
添加新的填充标记
如果需要专门的填充标记，可以添加一个新的特殊标记：
```
tokenizer.add_special_tokens({'pad_token': '[PAD]'})
```

技术细节

在MedicalGPT项目中，这个问题通常出现在数据处理阶段，特别是在调用raw_datasets.map()方法应用tokenize函数时。当启用多进程处理(num_proc>1)时，这个问题会以多进程错误的形式表现出来。

从技术实现角度看，Hugging Face的tokenizer在进行批量编码(batch_encode_plus)时，会根据配置的填充策略(padding_strategy)来处理序列。如果配置了填充但未指定填充标记，就会抛出这个错误。

最佳实践建议

检查基础模型
首先确认使用的基础模型是否本身就定义了pad_token。不同预训练模型的tokenizer配置可能不同。
统一处理方式
在整个项目中保持tokenizer填充标记处理方式的一致性，避免在不同阶段使用不同的填充策略。
考虑模型特性
对于GPT类模型，通常使用eos_token作为pad_token是合理的选择，因为这类模型通常是自回归的。
错误处理
在代码中添加对tokenizer配置的检查，可以在程序启动时就发现问题，而不是在数据处理中途才报错。

总结

在MedicalGPT等基于Transformer的项目中，正确配置tokenizer是确保模型训练顺利进行的基础。填充标记的缺失虽然是一个看似简单的问题，但会导致整个训练流程中断。理解tokenizer的工作原理和配置要求，能够帮助开发者快速定位和解决这类问题，确保项目的顺利推进。

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO、GRPO。

项目地址：https://gitcode.com/gh_mirrors/me/MedicalGPT

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。