DeepKE-LLM微调Zhixi模型时的Tokenizer加载问题解析

2025-06-17 11:19:30作者：邓越浪Henry

在使用DeepKE-LLM框架对Zhixi模型进行微调时，开发者可能会遇到分布式训练失败和Tokenizer加载错误的问题。本文将深入分析这些问题的成因，并提供详细的解决方案。

问题现象

当尝试使用DeepKE-LLM框架微调Zhixi模型时，系统会抛出以下两类错误：

分布式训练失败：Torch的分布式弹性多进程API报告子进程退出代码为1，表明训练过程中出现了未捕获的异常。
Tokenizer加载错误：更详细的错误日志显示，问题根源在于Tokenizer初始化时缺少必要的unk_token参数。

问题根源分析

经过技术分析，这些问题主要源于以下几个方面：

Tokenizer配置不完整：Zhixi模型使用的Tokenizer需要明确指定未知词标记(unk_token)，而原始代码中未提供这一必要参数。
错误处理机制：分布式训练环境下，子进程的错误信息可能无法完整传递到主进程，导致表面错误信息不够具体。

解决方案

要解决这些问题，需要对DeepKE-LLM的模型加载代码进行以下修改：

修改Tokenizer加载逻辑：在src/model/loader.py文件的第53行附近，修改Tokenizer的加载代码，显式添加unk_token参数：

tokenizer = AutoTokenizer.from_pretrained(
    model_args.model_name_or_path,
    trust_remote_code=model_args.trust_remote_code,
    unk_token="<unk>"  # 新增的关键参数
)

验证修改效果：修改后重新运行训练脚本，系统应能正常加载Tokenizer并开始训练过程。

技术原理深入

unk_token的作用：在自然语言处理中，unk_token(未知词标记)用于表示词汇表中不存在的单词。对于某些特定的中文模型如Zhixi，明确指定这一标记是必要的，因为：
- 确保模型能正确处理训练数据中的生僻词
- 维持模型输出的一致性和稳定性
- 避免因缺失默认unk_token而导致的初始化错误
分布式训练错误处理： PyTorch的分布式训练框架(torchrun)会将训练任务分配到多个进程执行。当子进程出现错误时，主进程通常只能收到简单的错误代码。要获取更详细的错误信息，开发者可以：
- 在子进程代码中添加更完善的异常捕获和日志记录
- 使用PyTorch提供的错误回溯功能

最佳实践建议

模型初始化检查：在使用任何预训练模型前，建议先独立测试Tokenizer的加载和使用，确保所有必要参数都已正确配置。
分布式调试技巧：
- 先使用单GPU模式验证代码正确性
- 逐步增加GPU数量进行测试
- 使用try-except块捕获并记录详细的错误信息
参数完整性检查：对于不同的预训练模型，应当查阅其官方文档，确认所有必需的初始化参数都已提供。

总结

通过本文的分析和解决方案，开发者可以顺利解决DeepKE-LLM框架下微调Zhixi模型时的Tokenizer加载问题。这一案例也提醒我们，在使用大型语言模型时，必须仔细检查模型的所有初始化要求，特别是在分布式训练环境下，完善的错误处理和日志记录机制尤为重要。

DeepKE

[EMNLP 2022] An Open Toolkit for Knowledge Graph Extraction and Construction

项目地址：https://gitcode.com/gh_mirrors/de/DeepKE

登录后查看全文