OpenBMB/OmniLMM项目中MiniCPM-V-2_6模型加载内存优化实践

2025-05-11 14:09:27作者：霍妲思

问题背景

在OpenBMB/OmniLMM项目中，用户尝试使用vLLM框架加载MiniCPM-V-2_6模型时遇到了显存溢出的问题。该问题在48GB显存的GPU卡上尤为明显，即使显存看似充足，模型加载过程中仍会出现显存不足的错误。

通过技术团队的深入分析，发现该问题主要由以下几个因素共同导致：

vLLM初始化机制：vLLM在初始化时会进行空跑测试，这一过程会消耗大量显存。对于视觉语言模型，特别是像MiniCPM-V这样token数较少的模型(64个)，计算出的图像处理数量会异常增大。
默认参数设置：vLLM默认的max_num_seqs参数为256，这在初始化阶段会带来极高的内存消耗。同时，gpu_memory_utilization的默认设置(0.98)也限制了显存的使用效率。
模型特性：MiniCPM-V-2_6作为视觉语言多模态模型，其视觉编码器部分在处理图像时会消耗大量显存，特别是在批量处理时更为明显。

经过多次测试和验证，技术团队总结出以下优化方案：

在实际环境中，使用以下配置成功在单张3090显卡(24GB显存)上运行了MiniCPM-V-2_6模型：

在A100-80G显卡上的测试也表明，通过这些参数调整，模型加载时的显存峰值从29GB降低到了更可控的范围。

对于类似的多模态大模型加载问题，建议采取以下策略：

OpenBMB/OmniLMM项目中MiniCPM-V-2_6模型的显存优化实践表明，通过合理调整vLLM框架参数，可以有效解决大模型加载时的显存问题。这一经验不仅适用于当前项目，也可为其他类似的多模态大模型部署提供参考。未来随着模型规模的不断扩大，显存优化技术将变得更加重要。

登录后查看全文