OpenCompass 评估大模型时遇到的OOM问题分析与解决方案

2025-06-08 10:56:20作者：盛欣凯Ernestine

问题背景

在使用OpenCompass对Qwen2-72B-Instruct模型进行MMLU基准测试时，评估过程中出现了CUDA内存不足(OOM)的问题。这个问题在评估"high_school_european_history"子集时尤为明显，系统尝试分配1.42GiB内存时失败，而此时GPU1上仅有1.26GiB空闲内存。

问题分析

从错误日志可以看出几个关键点：

内存使用情况：两块80GiB显存的GPU中，GPU1已经使用了77.87GiB，其中PyTorch分配了74.22GiB，还有3.15GiB是PyTorch保留但未分配的。
评估过程：评估已经成功完成了多个MMLU子集（如computer_security、microeconomics、law等），但在评估high_school_european_history时失败。
内存管理：错误信息建议设置PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True来避免内存碎片问题。

根本原因

批量大小过大：OpenCompass默认的batch size为8，对于72B参数的大模型来说，这个批量大小可能导致显存需求过高。
内存碎片：长时间运行的评估过程可能导致显存碎片化，即使总空闲显存足够，也可能无法分配连续的大块内存。
模型规模：Qwen2-72B-Instruct作为720亿参数的大模型，单次推理就需要大量显存，特别是在处理较长的输入序列时。

解决方案

1. 调整批量大小

最直接的解决方案是减小批量大小。可以通过修改配置文件或命令行参数来设置更小的batch size，例如：

# 在配置中设置
infer_cfg = dict(
    batch_size=4,  # 或更小
    ...
)

2. 优化内存管理

可以尝试以下内存优化策略：

设置环境变量来减少内存碎片：

export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True

在评估间隙手动清理显存：

import torch
torch.cuda.empty_cache()
import gc
gc.collect()

3. 使用更高效的评估策略

分块评估：将大型数据集分成更小的块进行评估。
梯度检查点：如果支持，可以启用梯度检查点来减少内存使用。
量化评估：使用4位或8位量化模型进行评估。

4. 硬件配置优化

确保使用足够多的GPU卡进行并行评估。
考虑使用具有更高显存的GPU设备。
使用NVLink连接多块GPU以提高显存利用率。

最佳实践建议

渐进式调整：从较小的batch size开始测试，逐步增加直到找到最优值。
监控显存使用：在评估过程中实时监控显存使用情况，可以使用nvidia-smi或PyTorch的内存分析工具。
评估顺序优化：将内存需求较大的评估任务安排在评估过程的早期进行，此时显存碎片较少。
日志记录：详细记录每次评估的显存使用情况，便于后续分析和优化。

总结

OpenCompass评估大型语言模型时遇到OOM问题是常见现象，特别是像Qwen2-72B-Instruct这样的超大规模模型。通过合理配置批量大小、优化内存管理和评估策略，可以有效解决这类问题。关键在于找到评估效率和内存使用之间的平衡点，确保评估过程既高效又稳定。

opencompass

opencompass - OpenCompass是一个用于评估大型语言模型的工具，提供分布式评估、多样化评估范式和模块化设计。

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。

rainbond

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理