深入解析HuggingFace Tokenizers中扩展词汇表时的空格丢失问题

2025-05-24 23:01:49作者：裴麒琰

背景介绍

在使用HuggingFace Tokenizers库时，开发者经常会遇到需要扩展预训练模型词汇表的情况。本文将以Mistral-7B模型为例，深入分析在扩展词汇表时出现的空格丢失问题及其解决方案。

问题现象

当开发者尝试将外部词汇表(如SentencePiece训练的词汇表)添加到Mistral分词器中时，解码后的文本会出现空格丢失现象。具体表现为：

原始文本："నేను బాగున్నాను. మీరు ఏలా ఉన్నారు?"
解码后文本："నేనుబాగున్నాను.మీరుఏలాఉన్నారు?"

有趣的是，当手动添加少量自定义token时，这种问题不会出现。

根本原因分析

经过深入研究，我们发现这个问题主要与token的规范化(normalization)处理有关：

当从外部词汇表添加token时，这些token可能已经被规范化处理，导致分词器无法正确识别空格边界
手动添加的token由于没有经过规范化处理，保留了原始的空格信息
Mistral分词器内部对空格有特殊处理逻辑，规范化后的token可能干扰了这一逻辑

解决方案

针对这一问题，我们推荐以下解决方案：

方案一：禁用token规范化

在添加新token时，明确指定不进行规范化处理：

from transformers import AddedToken, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("mistralai/mistral-7b-v0.1", legacy=False)
tokenizer.add_tokens([AddedToken("<new_token>", normalized=False)])

方案二：使用最新版Transformers

确保使用最新版本的Transformers库，其中包含了针对此类问题的修复：

pip install git+https://github.com/huggingface/transformers.git

方案三：训练新的分词器

对于大规模词汇表扩展，建议直接训练新的分词器：

from transformers import AutoTokenizer
from datasets import load_dataset

tokenizer = AutoTokenizer.from_pretrained("mistralai/mistral-7b-v0.1")
dataset = load_dataset("your_dataset")
new_tokenizer = tokenizer.train_new_from_iterator(dataset, vocab_size=8000)