GLM-4模型INT4量化导出与推理问题解析

2025-06-03 22:15:14作者：仰钰奇

问题背景

在使用GLM-4-9B-chat大语言模型进行INT4量化导出时，开发者可能会遇到一个典型的错误场景：成功导出INT4量化模型后，在尝试使用官方示例trans_cli_demo.py进行推理时，系统抛出"ValueError: too many values to unpack (expected 2)"异常。这个问题源于量化导出与模型推理环节的不兼容性，需要从技术层面深入分析。

问题本质分析

该错误发生在模型生成阶段，具体在_update_model_kwargs_for_generation方法中。核心问题是模型输出的缓存结构与预期不符，导致解包失败。当使用load_in_4bit=True参数导出INT4量化模型时，模型的内部结构会发生以下变化：

权重矩阵从FP16/BF16精度转换为INT4格式
模型内部会添加量化/反量化层
缓存机制可能因量化而调整

解决方案

经过验证，最直接的解决方法是升级transformers库到4.42或更高版本。新版本针对量化模型的缓存处理机制进行了优化，能够正确识别和处理INT4量化模型的输出结构。

技术实现细节

量化导出过程：使用AutoModelForCausalLM.from_pretrained时指定load_in_4bit=True，HuggingFace会自动应用最佳量化策略
版本兼容性：transformers 4.42+版本对以下方面进行了改进：
- 量化模型缓存结构的标准化处理
- 更鲁棒的张量解包机制
- 对混合精度推理的更好支持
推理流程优化：新版库能正确处理量化模型特有的：
- 权重反量化过程
- 中间激活值的精度转换
- 缓存key-value对的特殊结构