GLM-4多卡推理中的显存优化实践

2025-06-03 11:17:16作者：蔡丛锟

问题背景

在大型视觉语言模型GLM-4的实际部署中，许多用户反馈在使用多张NVIDIA 3090-24G显卡进行推理时会遇到显存不足的问题。典型表现为当指定多卡运行时（如CUDA_VISIBLE_DEVICES="4,5,6,7,8"），系统仍会抛出CUDA out of memory错误，提示尝试分配54.00 MiB失败。

问题分析

通过对用户反馈的分析，我们发现该问题主要源于以下几个方面：

模型加载策略不当：默认的模型加载方式可能没有充分利用多卡显存资源
跨设备数据传输：在视觉特征处理过程中存在未优化的设备间数据传输
显存分配不均衡：在多卡环境下，显存分配策略可能导致某些卡过载而其他卡利用率不足

解决方案

1. 使用SWIFT框架优化

推荐采用SWIFT框架进行多模态模型的部署，该框架针对GLM-4V模型提供了专门的最佳实践方案。通过框架级别的优化，可以更好地管理多卡环境下的显存分配。

2. 关键代码修改

在模型实现文件modeling_chatglm.py中，需要特别注意视觉特征处理的设备一致性。具体修改位置在867行附近，将原始的images_features[i]修改为：

images_features[i].to(inputs_embeds.device)

这一修改确保了视觉特征与文本嵌入在同一设备上处理，避免了不必要的跨设备数据传输和显存占用。

3. 设备映射策略调整

在多卡环境中，device_map参数的设置对显存分配至关重要。经过实践验证，以下策略较为有效：

balanced模式：尝试在可用GPU间均衡分配模型参数
auto模式：让系统自动决定最佳分配方案
自定义映射：对于特定硬件配置，可以手动指定各层的设备位置

值得注意的是，不同版本的模型文件可能表现不同。例如，某些更新后的版本在chat任务上能够正常实现双卡加载，但在视觉任务上仍存在问题。

实践建议

版本一致性：确保使用的模型文件、框架和修改补丁来自同一版本周期
显存监控：在推理过程中实时监控各卡的显存使用情况
分批处理：对于特别大的输入，考虑分批处理以降低峰值显存需求
量化选项：如果显存仍然紧张，可以考虑使用模型量化技术进一步降低需求

总结

GLM-4模型在多卡环境下的显存优化是一个系统工程，需要从框架选择、代码修改、加载策略等多个方面综合考虑。通过上述方法，用户可以在多张3090显卡上成功部署GLM-4V模型，实现高效的多模态推理。随着项目的持续更新，建议开发者关注官方的最新优化方案，以获得更好的性能和稳定性。

GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.13 K

271

GLM-4多卡推理中的显存优化实践

问题背景

问题分析

解决方案

1. 使用SWIFT框架优化

2. 关键代码修改

3. 设备映射策略调整

实践建议

总结

热门内容推荐

最新内容推荐

项目优选

GLM-4多卡推理中的显存优化实践

问题背景

问题分析

解决方案

1. 使用SWIFT框架优化

2. 关键代码修改

3. 设备映射策略调整

实践建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选