Evalscope v0.12.0发布：模型推理效率评测能力全面升级

2025-07-06 22:12:21作者：裘旻烁

Evalscope是一个专注于大模型评测的开源框架，它提供了标准化的评测流程和丰富的评测指标，帮助开发者和研究人员全面评估语言模型的能力。作为ModelScope生态中的重要组成部分，Evalscope持续为社区提供专业、可靠的模型评测解决方案。

思考效率评测：模型推理过程的新维度

本次发布的v0.12.0版本中，Evalscope引入了一项创新性的评测能力——模型思考效率评估。这项功能基于前沿研究，能够量化分析模型在推理过程中的效率表现。

思考效率评测主要关注两个关键方面：过度思考(Overthinking)和思考不足(Underthinking)。过度思考指模型在已经得出正确答案后仍继续生成冗余内容，导致计算资源浪费；思考不足则是指模型在未充分推理的情况下就过早输出结果，可能影响回答质量。

Evalscope通过精心设计的评测方法，能够精确捕捉模型在这些方面的表现。评测过程中，系统会记录模型在每个推理步骤中的中间状态，分析其思考路径的有效性。这项功能为模型优化提供了新的视角，特别是在计算资源有限的实际应用场景中尤为重要。

新增评测基准支持

v0.12.0版本扩展了对专业评测基准的支持，新增了三个重要的推理相关数据集：

AIME25是一个专注于医学领域推理能力的评测集，包含各类医学场景下的复杂推理问题，能够全面检验模型在专业领域的逻辑思维能力。

MuSR评测集则针对多步推理能力设计，包含需要多轮思考才能解决的复杂问题，特别适合评估模型的长程推理和思维连贯性。

ProcessBench关注模型解决问题的过程质量，不仅评估最终答案的正确性，还会考察推理步骤的合理性和完整性。这对于需要透明推理过程的应用场景尤为重要。

这些新增的评测基准覆盖了从通用到专业领域的不同推理需求，为用户提供了更全面的模型能力评估工具。

评测体验优化

本次更新还包含多项实用功能改进，显著提升了评测体验：

流式评测模式(Stream Mode)的引入使得大规模评测更加高效，特别是在处理长文本或复杂推理任务时，能够实时获取部分结果，提高评测过程的交互性。

请求超时设置功能让用户可以根据任务复杂度灵活配置等待时间，避免因网络或模型响应问题导致的评测中断，特别适合不稳定环境下的评测需求。

对MPS设备的支持扩展了本地评测的硬件选择，使Mac用户能够充分利用苹果芯片的加速能力进行高效的本地模型评测。

这些改进不仅提升了评测的灵活性，也使得Evalscope能够适应更多样化的使用场景和硬件环境。

技术实现细节

在思考效率评测的实现上，Evalscope采用了创新的中间状态分析方法。系统会在模型推理过程中插入特定的检查点，记录模型在各个阶段的置信度和思考路径。通过分析这些中间结果与最终答案的关系，系统能够精确量化模型的思考效率。

对于新增评测基准的支持，团队进行了严格的数据预处理和质量控制，确保评测结果的可靠性和可比性。每个数据集都配备了详细的评测说明和标准化处理流程，方便用户理解和使用。

性能优化方面，新版本改进了底层计算图的构建方式，减少了评测过程中的内存开销，特别是在处理长序列时的效率提升明显。同时，评测任务的调度算法也得到优化，能够更好地利用多设备并行计算能力。

应用前景与展望

Evalscope v0.12.0的发布标志着模型评测从单纯的结果正确性评估，向包括推理过程质量在内的多维度评估转变。这种转变对于实际应用场景尤为重要，因为在很多关键领域，不仅需要模型给出正确答案，还需要其推理过程透明、高效。

思考效率评测特别适合以下场景：实时对话系统需要快速响应，医疗诊断辅助要求谨慎推理，金融分析工具需要平衡速度与准确性。在这些场景中，了解模型的思考效率可以帮助开发者更好地优化和部署模型。

未来，Evalscope计划进一步扩展评测维度，包括对模型能耗、推理速度等更多实际部署相关指标的评估，为社区提供更全面的模型选择和应用指导。

llmuses

A streamlined and customizable framework for efficient large model (LLM, VLM, AIGC) evaluation and performance benchmarking.

项目地址：https://gitcode.com/gh_mirrors/ll/llmuses

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

Python

2.25 K

677