Modelscope/Evalscope v0.16.3版本发布：函数调用评测能力升级

2025-07-06 09:52:57作者：吴年前Myrtle

Evalscope作为Modelscope生态中的重要评测工具，专注于为各类AI模型提供全面、客观的性能评估。本次发布的v0.16.3版本在函数调用评测能力方面进行了重要升级，同时完善了多项评测功能，为开发者提供了更强大的模型评估手段。

核心功能升级：BFCL-v3评测基准

本次更新的亮点是新增了对BFCL-v3评测基准的支持。BFCL（Benchmark for Function Calling Language models）是专门用于评估语言模型函数调用能力的基准测试套件。v3版本在以下几个方面进行了增强：

对于开发者而言，使用BFCL-v3可以：

除了新增BFCL-v3支持外，本次更新还对评测系统的多个方面进行了优化：

评测稳定性提升：
- 修复了super gpqa评测中的错误
- 优化了并行评测时的资源分配逻辑，当数据集索引数小于并行数时能自动调整
- 改进了流式请求参数的处理机制
模型控制增强：
- 新增repetition penalty参数支持，帮助控制模型输出的重复性
- 确保logit注册流程的稳定性
- 完善了跨编码器参数处理
评测结果展示：
- 新增整体指标日志功能，便于开发者快速把握模型整体表现
- 优化needle评测的分数展示参数

为帮助开发者更好地使用Evalscope，本次更新同步完善了多项文档：

在技术实现层面，本次更新体现了几个值得关注的设计思路：

对于正在使用或考虑使用Evalscope的开发者，建议：

本次更新标志着Evalscope在专业化评测方向又迈出了坚实一步，特别是在函数调用这类专业场景的评估能力上。随着AI模型应用场景的不断扩展，这类细分的评测能力将变得越来越重要。

登录后查看全文