EvalScope v0.14.0发布：模型评测能力全面升级

2025-07-06 10:53:49作者：曹令琨Iris

EvalScope是一个专注于大模型评测的开源工具库，旨在为研究人员和开发者提供全面、可靠的模型评估能力。本次发布的v0.14.0版本带来了多项重要更新，特别是在可视化、API兼容性和评测集支持方面有显著提升。

可视化能力增强

新版本集成了SwanLab可视化工具，为模型压测结果提供了直观的图形化展示。这一改进使得研究人员能够更清晰地观察模型在不同压力条件下的性能表现，包括响应时间、吞吐量等关键指标的变化趋势。可视化功能特别适合需要长期监控模型性能的场景，帮助用户快速定位性能瓶颈。

模型压测功能扩展

v0.14.0版本在模型压测方面有两个重要更新：

新增了对/v1/completions端点的压测支持，这使得工具能够覆盖更广泛的模型服务场景。该端点常用于生成式任务的评测，如文本补全、代码生成等。
增加了对embedding API服务的性能评测能力。embedding作为大模型应用中的基础组件，其性能直接影响下游任务的表现。新功能可以评估embedding服务在不同负载下的响应时间和稳定性。

兼容性与评测集更新

本次更新确保了与langchain 0.3版本的兼容性，这对于使用最新langchain框架构建应用的用户尤为重要。同时，新增了对Maritime Bench航运测评集的支持，扩展了工具在特定垂直领域的评估能力。

问题修复与优化

版本修复了多选题解析中的一些边界情况，提高了评测结果的准确性。此外，还对自动分词器等组件进行了优化，提升了整体评测流程的稳定性。

EvalScope v0.14.0的这些改进，使得它在大模型评测领域的功能更加全面，特别是在可视化分析和特定领域评估方面有了长足进步。对于需要进行系统化模型评估的研究团队和开发者而言，这个版本提供了更加强大和易用的工具支持。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

昇腾LLM分布式训练框架

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started