解决lm-evaluation-harness项目中VLLM后端的OOM内存问题

2025-05-26 17:04:18作者：齐添朝

lm-evaluation-harness

A framework for few-shot evaluation of autoregressive language models.

项目地址：https://gitcode.com/GitHub_Trending/lm/lm-evaluation-harness

在使用lm-evaluation-harness项目进行模型评估时，许多用户遇到了VLLM后端的内存溢出(OOM)问题。本文将深入分析这一问题的成因，并提供有效的解决方案。

问题现象分析

当用户尝试使用VLLM后端运行4B参数量的Qwen模型时，即使在80GB显存的A100显卡上，也会遇到OOM错误。值得注意的是，同样配置下运行8B参数的Llama3模型却能正常工作，这表明问题并非单纯由模型大小引起。

根本原因

经过技术分析，发现VLLM后端存在以下两个关键问题：

GPU内存利用率参数未生效：尽管用户设置了gpu_memory_utilization=0.6，但实际运行时VLLM并未遵守这一限制。
CUDA图构建消耗额外内存：VLLM默认会构建CUDA图以优化性能，但这一过程会消耗大量显存，特别是在处理长序列时更为明显。

解决方案

针对上述问题，推荐以下解决方案：

启用强制eager模式：在model_args中添加enforce_eager=True参数，可以禁用CUDA图构建，显著降低内存消耗。
组合参数优化：建议同时设置以下参数组合：
- dtype="float"：使用FP32精度（或根据需求选择FP16）
- max_model_len=1024：限制最大序列长度
- gpu_memory_utilization=0.6：显存利用率限制
- enforce_eager=True：禁用CUDA图

实施建议

对于不同规模的模型，可参考以下配置：

小模型(7B以下)：
- 可使用默认配置，但建议添加enforce_eager=True
中大模型(7B-13B)：
- 必须使用enforce_eager=True
- 适当降低gpu_memory_utilization至0.6-0.8
超大模型(13B以上)：
- 除上述参数外，还需考虑降低max_model_len
- 可能需要使用量化技术

技术原理补充

VLLM后端的内存消耗主要来自三个方面：

模型参数存储
KV缓存
CUDA图构建开销

其中CUDA图构建虽然能提高推理效率，但会占用大量临时显存。在eager模式下，VLLM会放弃这部分优化，转而采用更节省内存的执行方式，这也是为什么enforce_eager=True能有效解决OOM问题的原因。

总结

通过合理配置VLLM后端的参数，特别是启用eager模式，可以显著降低显存消耗，解决评估过程中的OOM问题。建议用户在遇到类似问题时，优先尝试本文推荐的参数组合，并根据实际硬件条件进行微调。

lm-evaluation-harness

A framework for few-shot evaluation of autoregressive language models.

项目地址：https://gitcode.com/GitHub_Trending/lm/lm-evaluation-harness

登录后查看全文

最新内容推荐

Solidcam后处理文件下载与使用完全指南：提升CNC编程效率的必备资源基于Matlab的等几何分析IGA软件包：工程计算与几何建模的完美融合开源电子设计自动化利器：KiCad EDA全方位使用指南深入解析Windows内核模式驱动管理器：系统驱动管理的终极利器基恩士LJ-X8000A开发版SDK样本程序全面指南 - 工业激光轮廓仪开发利器 OMNeT++中文使用手册：网络仿真的终极指南与实用教程咖啡豆识别数据集：AI目标检测在咖啡质量控制中的革命性应用瀚高迁移工具migration-4.1.4：企业级数据库迁移的智能解决方案昆仑通态MCGS与台达VFD-M变频器通讯程序详解：工业自动化控制完美解决方案 Python开发者的macOS终极指南：VSCode安装配置全攻略

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。