解决Self-LLM项目中ChatGLM3微调保存模型失败问题分析

2025-05-15 11:27:50作者：卓艾滢Kingsley

“自我驱动的开源大模型教程——《自我LLM》项目，是通往AI前沿大门的钥匙。这是一份精心设计给国内学习者的礼物，特别是对开源大模型满怀热情的新手。通过AutoDL平台，我们为梦想触碰未来科技的学子、研究者铺设了一条清晰路径，涵盖从环境搭建设备，到国内外热门模型如LLaMA、ChatGLM的实战部署，直至深水区的微调技术，如LoRA与ptuning。不论是渴望低成本应用大模型的创新者，还是希冀定制化私有模型的探索者，《自我LLM》都是你的理想起点。我们携手共建，降低门槛，让每一位爱好者都能在开源精神下，解锁大模型的无限可能，共筑梦想中的AI世界。”

项目地址：https://gitcode.com/GitHub_Trending/se/self-llm

在Self-LLM项目中使用ChatGLM3进行微调时，许多开发者遇到了模型保存失败的问题，错误提示为"TypeError: Object of type set is not JSON serializable"。这个问题看似简单，但背后涉及到模型版本兼容性、参数序列化机制等深层次的技术细节。

问题现象与背景

当开发者尝试使用Hugging Face的Trainer对ChatGLM3进行微调后保存模型时，系统会抛出JSON序列化错误。具体表现为在训练过程中或训练完成后调用save_model()或save_pretrained()方法时失败。这一问题在设置gradient_checkpointing=True时尤为明显，但即使不启用该选项，最终保存时仍会出现同样错误。

错误原因深度分析

经过技术团队的深入排查，发现问题根源在于ChatGLM3模型的最新版本与PEFT(Parameter-Efficient Fine-Tuning)库的兼容性问题。具体表现为：

JSON序列化失败：模型配置中包含Python的set类型数据，而JSON标准不支持直接序列化集合类型
版本兼容性问题：ChatGLM团队在Hugging Face模型库中更新了模型实现，新版本的内部脚本与PEFT库的适配出现断层
梯度检查点冲突：当启用gradient_checkpointing时，会触发"element 0 of tensors does not require grad"错误，这需要通过调用enable_input_require_grads()方法临时解决

解决方案与实践建议

针对这一问题，技术团队提供了多层次的解决方案：

使用稳定版本模型：
- 从ModelScope平台获取较老版本的ChatGLM3模型，这些版本与PEFT库的兼容性更好
- 等待技术团队提供经过验证的AutoDL镜像，其中包含稳定版本的模型实现
技术变通方案：
- 对于必须使用最新版本的情况，可以尝试手动修改模型配置，将set类型转换为list
- 在get_peft_model调用前显式启用输入梯度要求(model.enable_input_require_grads())
长期建议：
- 关注ChatGLM官方团队的更新，等待他们对PEFT适配问题的修复
- 理解本教程的核心目标是掌握Hugging Face微调流程和PEFT使用方法，而非特定模型的内部实现