HuggingFace Tokenizers项目：如何将SentencePiece Unigram模型转换为HuggingFace格式

2025-05-24 10:19:56作者：房伟宁

背景介绍

在自然语言处理领域，Tokenizer（分词器）是将文本转换为模型可处理数字序列的关键组件。HuggingFace的Transformers库已成为NLP领域的事实标准，而与之配套的Tokenizers库则提供了高效的分词实现。然而，当用户需要使用自定义训练的SentencePiece Unigram模型时，如何将其转换为HuggingFace兼容格式却是一个常见痛点。

SentencePiece与HuggingFace Tokenizer的差异

SentencePiece是Google开发的分词工具，支持BPE和Unigram两种算法。它生成的模型通常包含.model和.vocab两个文件。而HuggingFace的Tokenizer系统采用不同的内部结构，需要特定的转换才能兼容。

转换方案详解

方案一：使用内置转换工具

HuggingFace提供了转换工具，可以将SentencePiece模型转换为HuggingFace格式。核心思路是：

创建一个虚拟Tokenizer类包装SentencePiece模型
使用SPMConverter进行格式转换

from transformers import SPMConverter

class DummyTokenizer:
    def __init__(self, model_path="tokenizer.model"):
        self.vocab_file = model_path

class ToTokenizers(SPMConverter):
    def __init__(self, model_path="tokenizer.model"):
        super().__init__()
        self.original_tokenizer = DummyTokenizer(model_path)

converter_tokenizer = ToTokenizers("path_to_your_file").converted()

方案二：针对特定模型的转换

对于T5等特定模型，可以使用更直接的转换方式：

from transformers import T5Tokenizer, PreTrainedTokenizerFast, convert_slow_tokenizer

tokenizer = PreTrainedTokenizerFast(
    tokenizer_object=convert_slow_tokenizer.convert_slow_tokenizer(
        T5Tokenizer("tokenizer.model", legacy=False)
    )
)