OpenCompass 评估任务中"无预测结果"问题分析与解决

2025-06-08 16:02:32作者：段琳惟

问题背景

在使用OpenCompass进行模型评估时，用户在执行python run.py configs/eval_api_demo.py命令后遇到了"No predictions found"的错误提示。这个问题通常发生在模型评估阶段，系统无法获取到预期的预测输出结果。

错误现象

主要错误表现包括：

控制台输出警告信息："Parameter 'function'... couldn't be hashed properly"
数据集映射操作完成后，系统报错："Task [qwen2-7b-instruct-vllm/demo_gsm8k]: No predictions found"
当尝试使用--debug参数时，进一步暴露出VLLM安装问题

根本原因分析

经过深入分析，该问题主要由以下几个因素导致：

VLLM环境配置问题：系统检测到VLLM未正确安装或版本不兼容，特别是与PyTorch 2.4.1存在兼容性问题。
序列化警告：transformers库在处理数据集时遇到函数序列化问题，虽然这不是直接导致预测失败的原因，但可能影响缓存机制。
模型加载失败：由于VLLM环境问题，导致模型无法正确加载，进而无法生成预测结果。

解决方案

1. 解决VLLM依赖问题

核心问题在于VLLM的安装和版本兼容性。建议采取以下步骤：

# 首先创建干净的Python环境
conda create -n opencompass python=3.10
conda activate opencompass

# 安装指定版本的PyTorch
pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2

# 安装兼容的VLLM版本
pip install vllm

2. 验证环境配置

安装完成后，建议运行简单测试脚本验证VLLM是否正常工作：

from vllm import LLM

llm = LLM(model="gpt2")  # 测试小模型
output = llm.generate("Hello, world!")
print(output)

3. 重新运行评估任务

环境配置正确后，再次尝试运行评估命令：

python run.py configs/eval_api_demo.py

技术细节解析

VLLM与PyTorch版本兼容性：
- VLLM对PyTorch版本有严格要求，特别是2.1.x系列
- 新版本PyTorch(如2.4.1)可能引入不兼容的API变更
预测结果生成机制：
- OpenCompass通过VLLM加载模型后生成预测
- 模型加载失败会导致无法生成任何预测结果
- 系统检测到空结果时抛出"No predictions found"错误
序列化警告的影响：
- 虽然不影响主要功能，但可能导致重复计算
- 可以通过实现可序列化的处理函数来消除警告