OpenCompass 评估过程中"无预测结果"问题分析与解决

2025-06-08 02:43:21作者：董斯意

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

问题现象

在使用OpenCompass进行模型评估时，部分用户遇到了"Task [模型名称/数据集]: No predictions found"的错误提示。该问题主要出现在使用HuggingFace模型(如phi-2)进行推理评估时，系统无法找到预测结果文件，导致评估流程中断。

问题原因分析

经过技术排查，该问题主要由以下几个因素导致：

Faiss依赖缺失：OpenCompass在评估过程中需要使用Faiss库进行向量相似度计算，但部分用户环境中未正确安装Faiss或其GPU版本。
日志文件检查不足：当评估过程出现异常时，关键错误信息往往记录在临时日志文件中，但用户可能未及时查看这些日志。
环境配置不完整：虽然OpenCompass提供了基础依赖列表，但某些特定评估场景需要额外的依赖支持。

解决方案

1. 安装Faiss库

根据评估环境选择安装适合的Faiss版本：

# 对于GPU环境
pip install faiss-gpu

# 对于CPU环境
pip install faiss-cpu

2. 检查临时日志

评估过程中的详细日志存储在tmp目录下，当遇到问题时应该：

# 查看最新日志
ls -lht tmp/

# 查看具体日志内容
cat tmp/最新日志文件名.log

3. 完整环境配置建议

除了基础依赖外，建议确保以下组件已正确安装：

CUDA/cuDNN（GPU评估必需）
对应版本的PyTorch
transformers库最新版本
评估数据集相关依赖

最佳实践建议

预检查环境：在运行评估前，建议先执行环境检查脚本或手动验证关键依赖。
分步调试：对于复杂评估任务，可分步执行：
- 先单独运行数据准备阶段
- 然后进行模型推理
- 最后执行评估
资源监控：评估过程中监控GPU显存和系统内存使用情况，避免因资源不足导致静默失败。

技术原理深入

OpenCompass的评估流程分为几个关键阶段：

数据加载阶段：将原始数据集转换为模型可接受的格式
模型推理阶段：调用模型生成预测结果
结果评估阶段：将预测结果与标准答案比对

"无预测结果"错误通常发生在第二阶段到第三阶段的过渡，表明系统成功完成了模型推理，但未能正确保存或读取预测结果文件。这可能是由于：

文件权限问题导致无法写入
存储空间不足
中间过程异常终止
依赖库功能缺失

通过系统化的排查和完整的环境配置，可以有效避免此类问题的发生。

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库