GLM-4模型生成过程中ValueError错误的解决方案

2025-06-03 12:54:56作者：伍霜盼Ellen

问题背景

在使用GLM-4模型进行文本生成时，开发者可能会遇到一个常见的错误："ValueError: too many values to unpack (expected 2)"。这个错误通常发生在模型生成阶段，特别是在处理键值缓存(kv_cache)时。

错误分析

该错误的根本原因是模型内部在尝试解包键值缓存时，预期得到两个值(cache_k和cache_v)，但实际返回的数据结构不符合这个预期。这通常发生在以下情况：

模型版本与transformers库版本不匹配
模型内部实现发生了变化但本地代码未更新
键值缓存的格式发生了变化

解决方案

方法一：更新依赖库

最直接的解决方案是确保使用最新版本的transformers库和相关依赖：

pip install transformers==4.40 accelerate

安装完成后，需要重启Python内核以确保所有更改生效。

方法二：更新模型实现文件

如果更新依赖库后问题仍然存在，可以手动更新modeling_chatglm.py文件：

从官方仓库获取最新版本的modeling_chatglm.py
替换本地缓存中的旧版本文件

方法三：检查模型加载方式

确保使用正确的模型加载方式：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "THUDM/glm-4v-9b",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)

最佳实践

为了避免类似问题，建议：

始终使用官方推荐的库版本组合
在开始项目前清除缓存并重新下载模型
定期检查模型仓库的更新日志
使用虚拟环境管理项目依赖

技术原理

GLM-4模型在生成文本时使用了一种特殊的注意力机制，需要维护键值缓存来存储历史信息。当模型内部实现发生变化而本地代码未同步时，就会导致缓存解包失败。更新相关文件可以确保缓存处理逻辑与模型预期一致。

通过遵循上述解决方案，开发者可以顺利解决这个错误，继续使用GLM-4模型进行文本生成任务。

GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

181

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

429

130