Evalscope v0.13.2发布：新增三大评测基准与性能优化

2025-07-06 08:16:08作者：董斯意

Evalscope是一个专注于大语言模型评估的开源框架，它提供了标准化的评测流程和丰富的评估指标，帮助研究人员和开发者全面了解模型性能。最新发布的v0.13.2版本带来了多项重要更新，特别是在评测基准支持方面有了显著增强。

评测基准扩展

本次更新最引人注目的是新增了对三个重要评测基准的支持：

MMLU_Redux：这是MMLU基准的改进版本，专注于评估模型在多学科知识理解和应用方面的能力。它覆盖了57个不同学科领域的问题，从基础数学到专业医学知识，能够全面测试模型的知识广度和深度。
AlpacaEval：一个专门用于评估对话模型性能的基准。它通过构建真实对话场景，评估模型在自然语言交互中的流畅性、连贯性和实用性，特别适合评估聊天机器人等应用型模型。
ArenaHard：这是一个高难度的评估基准，专门设计来测试模型在复杂场景下的表现。它包含需要多步推理、知识整合和创造性思维的任务，能够有效区分不同模型的真实能力水平。

这些新增的评测基准大大扩展了Evalscope的应用范围，使研究人员能够从更多维度评估模型性能。

除了新增评测基准外，v0.13.2版本还包含多项功能优化：

general_qa增强：现在支持设置system字段，这为评估提供了更大的灵活性。system字段可以用来设定评估场景或添加额外上下文，使评估结果更加贴近实际应用场景。
性能测试工具改进：evalscope perf工具现在与vLLM官方benchmarking保持对齐，并支持extra_args参数。这一改进使得性能测试更加准确和灵活，用户可以更精确地控制测试条件，获得更有参考价值的性能数据。
依赖项精简：移除了多余的依赖项，使安装包更加轻量化，减少了潜在的依赖冲突问题。
问题修复：解决了RAGEval报错的问题，提高了工具的稳定性和可靠性。