GLM-4项目中的函数调用评测差异分析

2025-06-03 18:07:25作者：羿妍玫Ivan

在大型语言模型的应用中，函数调用能力是一个关键指标，它直接影响模型在实际应用中的表现。近期，GLM-4项目在Berkeley Function-Calling Leaderboard上的评测结果与官方汇报结果存在显著差异，这一现象引起了技术社区的关注。

评测结果差异现象

Berkeley Function-Calling Leaderboard最新数据显示，GLM-4在工具调用方面的表现与THUDM官方汇报结果不一致。具体表现为：官方评测结果明显优于伯克利评测平台的结果。这种差异引发了关于评测方法和实现方式的深入讨论。

差异原因分析

经过技术团队调查，发现这种差异主要源于并行函数调用(parallel function call)的实现方式不同：

GLM-4的实现方式：
- 采用交替生成函数调用和观察结果的模式
- 每个函数调用后立即跟随对应的观察结果
- 这种模式更接近实际交互场景
伯克利评测平台的实现方式：
- 首先生成所有函数调用
- 然后一次性获取所有观察结果
- 这种模式更侧重批量处理能力

技术实现细节

在GLM-4中，并行函数调用的建模采用以下结构：

<|assistant|>
function_call_1
<|observation|>
observation_1
<|assistant|>
function_call_2
<|observation|>
observation_2

而伯克利评测平台则采用：

<|assistant|>
function_call_1
<|assistant|>
function_call_2
<|observation|>
observation_1
<|observation|>
observation_2

解决方案与未来改进

为了确保评测结果的一致性，技术团队提出了以下解决方案：

在评测阶段，每生成一个函数调用后，需要模型生成一个虚拟观察结果，以继续后续的函数调用生成
将生成的函数调用列表作为最终答案进行评分
未来版本中，GLM-4的并行调用建模方式将与伯克利评测平台对齐

对开发者的建议

对于使用GLM-4进行函数调用开发的工程师，需要注意：

了解不同评测平台的方法论差异
根据实际应用场景选择合适的调用模式
关注项目更新，及时调整实现方式以适应标准评测

这种实现方式的差异提醒我们，在评估大型语言模型性能时，不仅需要关注最终得分，还需要理解评测方法背后的设计理念和技术细节，才能做出准确的性能判断和应用决策。

GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。