GLM-4模型推理过程中"too many values to unpack"错误分析与解决方案

2025-06-03 10:31:31作者：鲍丁臣Ursa

在部署和使用THUDM/GLM-4大语言模型进行推理时，许多开发者近期遇到了一个共同的错误："ValueError: too many values to unpack (expected 2)"。这个错误出现在模型生成文本的过程中，特别是在调用model.generate()方法时。本文将深入分析这个问题的根源，并提供详细的解决方案。

问题现象

当开发者尝试使用GLM-4模型进行文本生成时，系统会在modeling_chatglm.py文件的_update_model_kwargs_for_generation方法中抛出异常。具体错误发生在以下代码段：

cache_name, cache = self._extract_past_from_model_output(
    outputs, standardize_cache_format=standardize_cache_format
)

错误提示表明，程序期望接收两个返回值，但实际上接收到的值数量不匹配。值得注意的是，这个问题并非一直存在，而是在近期突然出现的，即使环境配置和代码没有变化也会发生。

问题根源

经过分析，这个问题与Hugging Face Transformers库的版本兼容性有关。GLM-4模型在近期进行了更新，对模型内部的状态管理机制进行了调整，导致与某些版本的Transformers库不兼容。具体来说：

_extract_past_from_model_output方法的返回值结构发生了变化
新旧版本的Transformers库对模型状态的处理方式存在差异
模型缓存机制(cache)的格式要求发生了变化

解决方案

要解决这个问题，开发者可以采取以下步骤：

1. 升级Transformers库版本

将Hugging Face Transformers库升级到4.42.4或更高版本：

pip install transformers==4.42.4

2. 重新加载模型

升级库后，需要重新加载GLM-4模型：

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("THUDM/GLM-4-9b-chat", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("THUDM/GLM-4-9b-chat", trust_remote_code=True)

3. 检查CUDA环境

确保CUDA环境与PyTorch版本兼容。推荐使用以下配置：

CUDA 12.1
PyTorch 2.3.0+

4. 完整示例代码

以下是修正后的完整推理代码示例：

query = "你好"
device = "cuda" if torch.cuda.is_available() else "cpu"

inputs = tokenizer.apply_chat_template(
    [{"role": "user", "content": query}],
    add_generation_prompt=True,
    tokenize=True,
    return_tensors="pt",
    return_dict=True
).to(device)

gen_kwargs = {
    "max_length": 2500,
    "do_sample": True,
    "top_k": 1
}

with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

torch.cuda.empty_cache()