CodeGeeX4模型在BigCodeBench基准测试中的性能复现与分析

2025-07-06 21:22:43作者：俞予舒Fleming

CodeGeeX4-ALL-9B, a versatile model for all AI software development scenarios, including code completion, code interpreter, web search, function calling, repository-level Q&A and much more.

项目地址：https://gitcode.com/gh_mirrors/co/CodeGeeX4

背景介绍

CodeGeeX4作为清华大学知识工程组(KEG)开发的大规模代码生成模型，在BigCodeBench代码生成基准测试中展现了优异的性能表现。近期有开发者尝试复现该模型在BigCodeBench上的评测结果，发现与官方报告存在细微差异，这引发了关于模型使用方式和评测设置的深入探讨。

评测结果差异分析

在初始复现过程中，开发者观察到两个关键指标：

Complete模式得分：49.0（与官方48.9接近）
Instruct模式得分：38.9（低于官方40.4）

经过与开发团队的沟通，发现差异主要来源于以下因素：

提示模板差异：CodeGeeX4默认使用中文系统提示词，而初始复现可能使用了英文模板
解码策略：官方评测采用greedy解码（temperature=0），而非采样方法
提示词结构：中文提示需要在指令后添加"\n根据描述，完成代码\n"的特殊格式

技术细节解析

CodeGeeX4的对话模板采用特殊标记结构：

<|system|>
[系统提示内容]
<|user|>
[用户指令]
<|assistant|>
[模型响应]

对于BigCodeBench评测，关键的技术要点包括：

系统提示：包含模型身份定义和能力描述
任务指令：需要严格遵循基准测试的输入格式要求
代码补全：要求模型从指定的导入语句开始完成函数实现

最佳实践建议

基于此次复现经验，我们总结出使用CodeGeeX4进行基准测试的推荐做法：

语言选择：优先使用中文系统提示词以获得最佳性能
解码设置：评测时应当使用确定性解码策略（temperature=0）
提示工程：严格遵循"根据描述，完成代码"的指令格式
环境一致性：确保评测环境与官方设置一致，包括随机种子等

结论与展望

通过细致的参数调整和提示工程，最终复现结果与官方报告仅存在0.4%的微小差异（40.0 vs 40.4），验证了CodeGeeX4模型性能的可靠性。这一案例也凸显了大型语言模型评测中细节设置的重要性，为后续的模型比较和性能分析提供了有价值的参考。

未来工作可以进一步探索：

不同语言提示对模型性能的影响机制
解码策略与任务类型的适配关系
更全面的鲁棒性测试方案

CodeGeeX4

CodeGeeX4-ALL-9B, a versatile model for all AI software development scenarios, including code completion, code interpreter, web search, function calling, repository-level Q&A and much more.

项目地址：https://gitcode.com/gh_mirrors/co/CodeGeeX4

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch