MedicalGPT项目中的ChatGLM模型与Transformers版本兼容性问题解析

2025-06-18 22:55:44作者：戚魁泉Nursing

在使用MedicalGPT项目中的ChatGLM-6B底座模型时，开发者可能会遇到一些与Transformers库版本相关的兼容性问题。本文将详细分析这些问题的成因，并提供有效的解决方案。

问题现象

当运行MedicalGPT项目的gradio_demo.py脚本时，使用ChatGLM-6B模型可能会遇到以下两种典型错误：

AttributeError: 'ChatGLMTokenizer' object has no attribute 'sp_tokenizer'
ImportError: cannot import name 'repeat_kv' from 'transformers.models.llama.modeling_llama'

这些错误通常发生在使用较新版本的Transformers库(4.28.1以上版本)时，表明库与国产大模型之间存在兼容性问题。

问题根源分析

这些兼容性问题主要源于以下几个方面：

Transformers库更新机制：Hugging Face的Transformers库持续更新，有时会引入破坏性变更，导致与特定模型的兼容性问题。
国产模型特殊性：ChatGLM等国产大模型在实现细节上与标准Transformers模型存在差异，特别是tokenizer部分的实现方式不同。
依赖关系冲突：当项目中同时存在对Transformers不同版本的要求时，容易出现版本冲突。

解决方案

针对上述问题，开发者可以采取以下几种解决方案：

方案一：降级Transformers版本

最直接的解决方案是将Transformers库降级到已知兼容的版本：

pip install transformers==4.28.1

这个版本已知与ChatGLM-6B模型兼容，可以避免大部分tokenizer相关的问题。

方案二：手动修改模型代码

对于希望使用最新版Transformers的开发者，可以手动修改模型代码：

找到ChatGLM模型的tokenizer实现文件
参照相关修改指南调整tokenizer的实现方式
确保修改后的tokenizer与新版Transformers兼容

这种方法需要开发者对模型代码有一定了解，但可以保持库的最新状态。

方案三：使用ChatGLM3模型

值得注意的是，较新的ChatGLM3模型已经解决了与新版Transformers的兼容性问题。如果项目允许，升级到ChatGLM3可以一劳永逸地解决这些问题。

最佳实践建议

版本管理：在项目中明确记录和固定所有依赖库的版本，特别是Transformers这样的核心库。
环境隔离：使用虚拟环境或容器技术隔离不同项目的运行环境，避免版本冲突。
持续关注更新：定期检查模型和库的更新日志，了解潜在的兼容性变化。
测试验证：在升级关键库版本前，进行充分的测试验证，确保不影响现有功能。

总结

MedicalGPT项目中ChatGLM模型与Transformers库的兼容性问题反映了深度学习生态系统中版本管理的复杂性。通过理解问题本质并采取适当的解决方案，开发者可以顺利克服这些技术障碍。对于长期项目，建议考虑迁移到已解决兼容性问题的ChatGLM3模型，以获得更好的开发体验和维护性。

MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO、GRPO。

项目地址：https://gitcode.com/gh_mirrors/me/MedicalGPT

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

452

422

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

MedicalGPT项目中的ChatGLM模型与Transformers版本兼容性问题解析

问题现象

问题根源分析