OpenCompass评估Llama3-8B和Qwen2-7B模型时准确率为0的问题分析

2025-06-08 14:07:54作者：郁楠烈Hubert

opencompass - OpenCompass是一个用于评估大型语言模型的工具，提供分布式评估、多样化评估范式和模块化设计。

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

在大型语言模型评估工具OpenCompass的使用过程中，部分用户遇到了一个典型问题：当使用生成模式(gen)评估Llama3-8B和Qwen2-7B等基础模型时，结果显示准确率为0%。本文将深入分析这一现象的原因，并提供正确的评估方法。

问题现象

用户在使用OpenCompass评估Llama3-8B和Qwen2-7B等基础模型时，特别是针对commonsense_qa数据集，发现评估结果中的准确率显示为0%。类似地，在评估truthfulqa数据集时，还会遇到关于truth_model未设置的错误提示。

根本原因分析

经过技术分析，这一问题主要源于两个关键因素：

评估模式选择不当：基础模型(Base Model)不适合直接使用生成模式(gen)进行评估。生成模式通常适用于经过指令微调(Instruction-tuned)的模型，而基础模型更适合使用困惑度(perplexity, ppl)评估方法。
数据集评估方法不匹配：对于多选类问题数据集(如commonsense_qa)，基础模型应该使用困惑度评估而非生成评估。生成评估更适合开放式问答场景。

解决方案

针对这一问题，OpenCompass官方给出了明确的解决方案：

使用困惑度评估模式：对于基础模型，推荐使用ppl模式进行评估多选类问题。正确的命令格式如下：

python -u run.py --datasets commonsenseqa_ppl --hf-num-gpus 1 --hf-type base --hf-path meta-llama/Meta-Llama-3-8B --debug --model-kwargs device_map='auto' trust_remote_code=True --batch-size 8

评估结果验证：使用正确的评估模式后，Llama3-8B在commonsense_qa数据集上的评估结果可达70.19%的准确率，这与预期性能相符。

技术建议

模型类型与评估方法匹配：在使用OpenCompass进行评估时，必须注意模型类型(base/chat)与评估方法(gen/ppl)的匹配关系。基础模型应优先考虑ppl评估。
数据集特性考量：不同数据集的设计目标不同，评估方法也应相应调整。多选类数据集通常更适合ppl评估，而开放式问答数据集则可以考虑gen评估。
错误排查：当遇到评估结果为0%或预测结果为空时，首先应检查评估模式是否与模型类型匹配，其次确认数据集配置是否正确。

总结

OpenCompass作为专业的语言模型评估工具，其评估结果的准确性高度依赖于评估配置的正确性。本文分析的准确率为0%的问题，本质上是一个配置问题而非工具或模型本身的问题。通过正确理解模型特性和评估方法的关系，用户可以获取更准确的模型性能评估结果。

对于基础模型的评估，困惑度方法(ppl)通常能提供更稳定和可靠的评估结果，特别是在多选类问题的评估场景中。这一方法通过计算模型对各选项的困惑度来判断其选择倾向，避免了生成模式可能带来的格式解析问题。

opencompass - OpenCompass是一个用于评估大型语言模型的工具，提供分布式评估、多样化评估范式和模块化设计。

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

登录后查看全文

最新内容推荐

Solidcam后处理文件下载与使用完全指南：提升CNC编程效率的必备资源基于Matlab的等几何分析IGA软件包：工程计算与几何建模的完美融合开源电子设计自动化利器：KiCad EDA全方位使用指南深入解析Windows内核模式驱动管理器：系统驱动管理的终极利器基恩士LJ-X8000A开发版SDK样本程序全面指南 - 工业激光轮廓仪开发利器 OMNeT++中文使用手册：网络仿真的终极指南与实用教程咖啡豆识别数据集：AI目标检测在咖啡质量控制中的革命性应用瀚高迁移工具migration-4.1.4：企业级数据库迁移的智能解决方案昆仑通态MCGS与台达VFD-M变频器通讯程序详解：工业自动化控制完美解决方案 Python开发者的macOS终极指南：VSCode安装配置全攻略

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库