GLM-4-9B-Chat-1M模型在LongBench-Chat基准测试中的复现实践

2025-06-03 18:36:36作者：傅爽业Veleda

背景介绍

GLM-4-9B-Chat-1M是清华大学知识工程组（KEG）开发的大规模预训练语言模型，特别针对长上下文理解任务进行了优化。该模型在LongBench-Chat基准测试中取得了7.82分的优异成绩，但社区用户在实际复现过程中遇到了挑战。

复现挑战分析

在模型评估过程中，用户主要遇到了两个关键问题：

评估脚本适配问题：原始评估脚本未正确识别GLM系列模型的chat模板，导致评估分数偏低（5.46分）
推理参数配置问题：使用vLLM后端推理时，虽然分数有所提升（7.22分），但仍与官方报告存在差距

解决方案详解

评估脚本适配

核心问题在于评估脚本中的模型识别逻辑。原始代码仅匹配"chatglm"关键词，而GLM-4系列模型使用"glm"作为标识。修改评估脚本中的条件判断后，模型能够正确应用chat模板，评估分数提升至7.42分，接近官方报告水平。

关键参数配置

通过分析，我们发现影响评估结果的关键因素包括：

温度参数（temperature）：建议设置为0.95
停止token设置：需包含[151329, 151336, 151338]
最大模型长度：设置为120000以支持长上下文

技术要点总结

模型适配：对于GLM系列新模型，需注意命名规范变化对评估脚本的影响
评估一致性：GPT-4作为评估器存在一定随机性，7.42分与7.82分的差异在合理范围内
推理优化：使用vLLM后端时，需确保参数配置与官方推荐一致

实践建议

对于希望在LongBench-Chat基准上复现GLM-4-9B-Chat-1M性能的研究者，建议：

使用官方推荐的评估脚本
仔细检查模型标识匹配逻辑
保持推理参数与官方配置一致
多次运行取平均值以降低评估波动

通过以上实践，研究者可以更准确地评估模型在长上下文任务中的真实性能。

GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

pytorch

Ascend Extension for PyTorch

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。

openYuanrong runtime：openYuanrong 多语言运行时提供函数分布式编程，支持 Python、Java、C++ 语言，实现类单机编程高性能分布式运行。

565

111

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

469

5.97 K

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

563

209