DeepKE项目中Llama3-8B模型推理时的Tokenizer加载问题解析

2025-06-17 03:14:34作者：蔡怀权

问题背景

在DeepKE项目中使用Llama3-8B-Instruct模型进行推理时，开发人员遇到了一个关于Tokenizer加载的典型问题。当尝试通过修改后的infer_llama3_8B_instruct测试脚本运行模型时，系统抛出了一个类型错误，提示"not a string"。

错误现象分析

错误发生在Tokenizer加载阶段，具体表现为：

系统尝试加载LlamaTokenizer时，检测到实际加载的是PreTrainedTokenizerFast类型
在加载SentencePiece处理器时，传入的参数类型不符合预期
最终抛出TypeError: not a string异常

技术原理

这个问题本质上源于Hugging Face Transformers库中LlamaTokenizer的实现方式与新版本Llama3模型的兼容性问题。Llama3模型使用了不同的Tokenizer实现方式，特别是：

Llama3采用了基于SentencePiece的Tokenizer
新版本模型默认使用PreTrainedTokenizerFast而非传统的LlamaTokenizer
在加载过程中，参数传递路径出现了类型不匹配

解决方案

经过分析，可以通过以下方式解决这个问题：

对于Llama3模型，使用AutoTokenizer替代特定的LlamaTokenizer
修改模型加载逻辑，区分不同版本的Llama模型

具体实现是在项目的general_utils.py文件中，修改get_model_tokenizer_trainer函数，为Llama3模型单独指定使用AutoTokenizer：

def get_model_tokenizer_trainer(model_name):
    if model_name == 'llama':
        return LlamaForCausalLM, LlamaTokenizer, Trainer
    elif model_name == 'llama3':
        return LlamaForCausalLM, AutoTokenizer, Trainer

深入理解

这个问题的出现反映了深度学习框架和模型版本迭代过程中常见的兼容性挑战。Llama3作为新一代模型，其Tokenizer实现已经发生了变化，而项目中原有的代码是基于旧版Llama模型设计的。AutoTokenizer的设计初衷就是为了解决这类模型特定Tokenizer的兼容性问题，它能够自动选择适合当前模型的Tokenizer实现。