LMMs-Eval项目中的多GPU内存分配问题解析

2025-07-01 00:17:18作者：邓越浪Henry

问题背景

在使用LMMs-Eval项目进行多模态大模型评估时，研究人员经常遇到GPU内存分配不均导致的内存溢出(OOM)问题。特别是在使用多GPU配置(如2个GPU)进行评估时，虽然通过设置device_map=auto参数可以将模型的不同层分配到不同GPU上，但在实际前向传播过程中，内存消耗仍然集中在最后一个GPU上。

现象描述

当使用以下命令进行评估时：

CUDA_VISIBLE_DEVICES=0,1 lmms-eval --model llava_onevision --model_args pretrained=xxx,conv_template=qwen_1_5,model_name=llava_qwen,device_map=auto --tasks mvbench --batch_size 1 --log_samples --log_samples_suffix llava_onevision --output_path ./logs/

研究人员观察到：

模型参数确实被分配到多个GPU上
但在前向传播过程中，内存消耗仅集中在最后一个GPU
最终导致OOM错误

技术原理分析

这种现象的根本原因在于device_map=auto的工作机制。它只是简单地将模型的不同层分配到不同的GPU设备上，而不是实现真正的张量并行计算。在实际推理过程中：

计算会依次在单个GPU上执行
完成一个GPU的计算后，将隐藏状态传递给下一个GPU
因此GPU内存使用会逐个增加，而不是平均分布

解决方案

方法一：使用srt_model和sglang服务器

对于真正需要张量并行计算的情况，建议：

使用srt_model设置
搭建sglang服务器
实现真正的张量并行评估

这种方法可以更有效地利用多GPU资源，避免内存集中在单个设备上。

方法二：调整模型参数

对于资源受限的环境，可以：

减少加载的视频帧数
通过model_args参数调整输入规模
降低batch_size

方法三：验证可行的配置

经过验证，以下配置可以成功运行：

lmms-eval --model llava_onevision --model_args pretrained=/path_to_your_checkpoint,conv_template=qwen_1_5,model_name=llava_qwen_training_free,device_map=auto --task your_benchmark --batch_size 1 --log_samples --log_samples_suffix llava_onevision_7b --output_path ./log

性能优化建议

模型选择：对于24GB显存的GPU(如3090)，建议使用较小规模的模型(如0.5B参数版本)
监控工具：使用nvidia-smi实时监控各GPU内存使用情况
参数调优：根据具体任务需求，平衡模型性能和资源消耗

总结

在多GPU环境下评估大型多模态模型时，理解内存分配机制至关重要。虽然device_map=auto可以实现模型层的分布，但并非真正的并行计算。根据实际需求选择合适的解决方案，可以有效避免OOM错误，提高评估效率。对于资源受限的环境，优化模型参数和输入规模是更为实用的方法。

lmms-eval

One-for-All Multimodal Evaluation Toolkit Across Text, Image, Video, and Audio Tasks

项目地址：https://gitcode.com/gh_mirrors/lm/lmms-eval

登录后查看全文

LMMs-Eval项目中的多GPU内存分配问题解析

问题背景

现象描述

技术原理分析

解决方案

方法一：使用srt_model和sglang服务器

方法二：调整模型参数

方法三：验证可行的配置

性能优化建议

总结

热门内容推荐

最新内容推荐

项目优选

LMMs-Eval项目中的多GPU内存分配问题解析

问题背景

现象描述

技术原理分析

解决方案

方法一：使用srt_model和sglang服务器

方法二：调整模型参数

方法三：验证可行的配置

性能优化建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选