OpenCompass中使用VLLM进行模型评估时任务卡顿问题分析与解决方案

2025-06-08 14:14:49作者：尤峻淳Whitney

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

问题背景

在使用OpenCompass进行大规模语言模型评估时，许多开发者选择VLLM作为推理后端以获得更高效的推理性能。然而，在实际使用过程中，当评估任务被自动切分为多个子任务时，系统经常会在第一个子任务完成后卡住，无法继续执行后续任务。相比之下，使用HuggingFaceCausalLM后端则不会出现这个问题。

问题现象

当配置文件中使用VLLM作为模型后端时，OpenCompass会将大型评估数据集自动切分为多个子任务。典型的现象是：

第一个子任务能够正常完成评估
系统输出"Calling ray.init() again after it has already been called"信息
评估流程在此处卡住，无法继续执行后续子任务

根本原因分析

经过深入分析，这个问题主要源于Ray框架的初始化机制与VLLM的工作方式：

Ray框架单例特性：Ray设计为单例模式，整个进程中只能有一个Ray实例运行。当VLLM尝试在已经初始化的Ray环境下再次初始化时，会产生冲突。
任务切分后的重复初始化：OpenCompass对每个切分后的子任务都会创建一个新的评估实例，而VLLM在每个实例中都会尝试初始化Ray。
资源管理冲突：VLLM使用Ray进行分布式计算资源管理，而重复初始化会导致资源分配混乱。

临时解决方案

目前社区提供了几种临时解决方案：

方案一：增大分区大小

通过设置--max-partition-size参数为一个较大的值，减少或避免数据集被切分：

python run.py configs/eval_config.py --max-partition-size 100000

优点：简单直接，不需要修改代码缺点：对于非常大的数据集可能不适用，内存消耗会增加

方案二：修改VLLM初始化逻辑

在opencompass/models/vllm.py中添加Ray实例检查与关闭逻辑：

import ray
if ray.is_initialized():
    self.logger.info('Shutting down existing Ray instance')
    ray.shutdown()

优点：解决了重复初始化问题缺点：每个子任务都需要重新初始化Ray和模型，导致额外开销

更优解决方案探讨

针对这个问题的更完善解决方案应该考虑以下几个方面：

全局Ray实例管理：在OpenCompass框架层面统一管理Ray实例的生命周期，而不是在每个子任务中单独处理。
模型实例复用：实现评估过程中模型实例的复用机制，避免重复加载模型带来的性能损耗。
任务调度优化：改进任务调度策略，对于使用VLLM后端的评估任务采用不同的切分和执行策略。

最佳实践建议

基于当前情况，建议开发者：

对于中小规模评估任务，优先使用方案一增大分区大小
对于必须切分的大规模评估，采用方案二并接受一定的性能损耗
关注OpenCompass官方更新，等待框架层面的完整解决方案

技术展望

随着VLLM在OpenCompass中的集成越来越成熟，预计未来版本会提供：

更智能的任务切分策略
原生的Ray实例管理机制
对分布式评估的更完善支持

这些改进将使得开发者能够更顺畅地利用VLLM的高性能特性进行大规模语言模型评估。

opencompass

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

271

OpenCompass中使用VLLM进行模型评估时任务卡顿问题分析与解决方案

问题背景

问题现象

根本原因分析

临时解决方案

方案一：增大分区大小

方案二：修改VLLM初始化逻辑

更优解决方案探讨

最佳实践建议

技术展望

热门内容推荐

项目优选