EvalScope v0.13.2 版本评测能力升级与技术解析

2025-07-06 18:28:29作者：田桥桑Industrious

EvalScope 是一个专注于大语言模型评测的开源框架，旨在为研究人员和开发者提供高效、全面的模型评估工具。本次发布的 v0.13.2 版本带来了多项重要更新，特别是在评测基准支持、性能优化和功能完善方面有显著提升。

评测基准扩展

本次更新最引人注目的是新增了对三个重要评测基准的支持：

MMLU_Redux：这是对经典MMLU基准的改进版本，专注于评估模型在多个学科领域的知识掌握程度。相比原版，Redux版本在题目设计和评分标准上进行了优化，能更准确地反映模型的实际知识水平。
AlpacaEval：这是一个专门用于评估对话模型能力的基准测试。它通过模拟真实对话场景，考察模型在连贯性、相关性和实用性等方面的表现，特别适合评估聊天机器人类型的模型。
ArenaHard：作为难度较高的评测基准，ArenaHard专门设计来挑战模型的极限能力，包含了一系列需要复杂推理和深入理解的任务，适合评估高端模型的真实水平。

这些新增的评测基准覆盖了从基础知识到高级推理的多个维度，为模型评估提供了更全面的视角。

在功能层面，本次更新带来了几个关键改进：

general_qa系统字段支持：现在可以在general_qa评测中设置system字段，这为评测过程提供了更大的灵活性。开发者可以通过system提示词来引导模型的回答方向，或者模拟特定的对话场景，使得评测更加贴近实际应用需求。
性能评测工具增强：evalscope perf工具现在与vLLM官方benchmarking标准对齐，并支持extra_args参数。这一改进使得性能测试更加标准化，同时提供了更多自定义选项，方便开发者根据具体需求调整测试参数。
依赖项精简：移除了项目中的冗余依赖项，这不仅减小了安装包体积，也降低了潜在的依赖冲突风险，提升了框架的整体稳定性。