ChatGLM3项目中的Tokenizer兼容性问题分析与解决方案

2025-05-16 01:37:39作者：傅爽业Veleda

问题背景

ChatGLM3作为当前热门的开源大语言模型项目，近期在升级transformers库至4.45.0版本后，用户反馈出现了TypeError: ChatGLMTokenizer._pad() got an unexpected keyword argument 'padding_side'的错误。这一问题不仅影响了ChatGLM3-6b模型，也波及了GLM4和GLM2-6b等系列模型。

问题根源分析

该问题的本质在于transformers库4.45.0版本对tokenizer的padding机制进行了调整，新增了padding_side参数，而ChatGLM系列模型的tokenizer实现尚未同步更新。具体表现为：

transformers 4.45.0版本引入了新的padding参数规范
ChatGLMTokenizer的_pad()方法未适配新参数
当调用tokenizer进行文本处理时，参数传递不匹配导致异常

影响范围

这一问题具有以下特点：

影响模型：ChatGLM3-6b、ChatGLM2-6b、GLM4等系列模型
影响环境：transformers版本≥4.45.0
典型错误场景：模型加载、文本生成、tokenizer调用等操作

解决方案

临时解决方案

目前可行的解决方案有以下几种：

降级transformers版本
- 推荐版本：4.44.2或4.40.2
- 执行命令：
```
pip uninstall transformers -y
pip install transformers==4.44.2
```

手动修改tokenizer代码

修改ChatGLMTokenizer._pad()方法，添加padding_side参数处理

参考实现：

def _pad(self, *args, **kwargs):
    padding_side = kwargs.pop("padding_side", None)
    # 原有实现代码

等待官方更新
- 项目团队已确认问题，计划在节后投入人力解决

版本选择建议

针对不同使用场景，建议：

仅使用ChatGLM系列模型：降级至4.44.2版本
同时需要新特性模型(如phi3)：使用4.42版本
开发环境：可考虑手动修改tokenizer代码

技术深度解析

从技术实现角度看，这个问题反映了深度学习框架生态中常见的接口兼容性挑战。transformers库作为HuggingFace生态的核心组件，其API演进需要考虑数千种不同模型的兼容性。ChatGLM系列作为国产优秀模型代表，其tokenizer实现采用了自定义方案，在快速迭代过程中容易出现此类接口适配问题。

更深层次地，这涉及到tokenizer标准化的问题。padding_side参数用于控制填充方向(左/右)，对于不同架构的模型(如自回归模型和编码器-解码器模型)有不同的最佳实践。transformers库试图统一这一行为，而模型实现需要相应调整。