GLM-4模型微调后调用失败的解决方案

2025-06-03 17:29:30作者：仰钰奇

问题背景

在使用THUDM/GLM-4开源项目时，许多开发者尝试对glm-4-9b-chat模型进行LoRA微调后，在调用微调后的模型时遇到了识别问题。具体表现为当尝试通过openai_api_server.py或vllm_cli_demo.py加载微调后的模型时，系统无法识别模型类型，抛出"Unrecognized model"错误。

问题分析

该问题主要源于以下几个技术点：

模型配置文件缺失：微调后的模型checkpoint目录中缺少完整的config.json文件，或者其中的model_type字段未被正确设置。
版本兼容性问题：transformers和vllm库的版本不匹配可能导致对模型配置的解析出现偏差。
路径识别问题：当使用相对路径或非标准路径加载模型时，某些库可能无法正确处理模型配置。

解决方案

方案一：版本降级（推荐）

经过验证，使用以下版本组合可以解决该问题：

vllm==0.6.1.post2
transformers==0.44.0

这是目前最稳定的解决方案，适用于大多数微调场景。

方案二：手动修复模型配置

如果希望保持最新版本，可以尝试以下步骤：

从原始THUDM/glm-4-9b-chat模型中复制config.json文件
将其放入微调后的checkpoint目录
确保config.json中包含正确的model_type字段

方案三：绝对路径加载

尝试使用绝对路径而非相对路径加载模型，确保所有依赖文件都能被正确找到：

MODEL_PATH = os.path.abspath('../finetune_demo/output/checkpoint-12000')

最佳实践建议

环境隔离：为GLM-4项目创建专用的conda或venv环境，避免与其他项目的依赖冲突。
版本锁定：在requirements.txt中明确指定库版本，特别是vllm和transformers。
模型验证：微调完成后，先使用transformers直接加载模型进行简单测试，确认模型可以正常加载后再尝试API调用。
日志记录：在加载模型时添加详细的日志输出，帮助定位问题所在。

技术原理

该问题的本质在于transformers库的AutoConfig机制。当加载模型时，transformers会首先尝试从config.json中读取model_type字段，如果找不到则会尝试通过模型路径名匹配已知模型类型。在GLM-4的微调场景中，由于checkpoint目录结构可能不完整，导致这一机制失效。

通过版本降级有效的根本原因是，较新版本的transformers对模型配置的验证更加严格，而旧版本在这方面的容错性更好。这也提醒我们在使用大型语言模型时，保持整个工具链版本的一致性非常重要。

GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文