GLM-4多卡推理中的设备一致性问题分析与解决方案

2025-06-04 09:52:10作者：邓越浪Henry

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

问题背景

在使用GLM-4视觉语言模型进行多GPU推理时，开发者可能会遇到一个常见的运行时错误："Expected all tensors to be on the same device, but found at least two devices, cuda:1 and cuda:2!"。这个问题通常发生在使用transformers库加载GLM-4v模型并将device_map设置为多卡("auto")配置时。

问题本质分析

这个错误的根本原因是模型的不同部分被分配到了不同的GPU设备上，而某些运算操作要求所有参与计算的张量必须位于同一设备上。具体到GLM-4v模型，问题出现在视觉模块的前向传播过程中，当模型尝试执行残差连接操作(mlp_input + mlp_output)时，发现输入张量分布在不同的CUDA设备上。

技术细节

在transformers的自动设备映射机制下，大型模型的不同层会被自动分配到不同的GPU上以平衡显存使用。然而，GLM-4v的视觉模块实现中存在一个潜在问题：视觉transformer层的MLP子模块可能被分配到与主模块不同的设备上，导致在执行残差连接时出现设备不匹配。

解决方案

经过分析，修复方案需要修改modeling_chatglm.py文件中的相关代码。具体来说，需要在视觉模块的前向传播过程中确保所有中间张量都位于同一设备上。这可以通过以下方式实现：

在视觉模块的forward方法中，显式地将所有中间张量移动到同一设备
或者在模型初始化时确保视觉模块的所有子模块都位于同一设备上

实施建议

对于遇到此问题的开发者，建议采取以下步骤：

更新到最新版本的GLM-4代码库，该问题已在最新版本中修复
如果无法立即更新，可以手动修改modeling_chatglm.py文件，在视觉模块的相关位置添加设备同步逻辑
在模型推理前，确保输入数据已经移动到与模型相同的设备上

最佳实践

为了避免类似的多设备同步问题，建议开发者在进行多卡推理时：

仔细检查模型各部分的设备分配情况
在关键操作前添加设备一致性检查
使用统一的设备管理策略
对跨设备操作进行显式处理

总结

GLM-4作为先进的视觉语言模型，在多GPU环境下运行时可能会遇到设备同步问题。理解这些问题的本质并掌握正确的解决方法，对于充分发挥模型性能至关重要。通过本文介绍的分析思路和解决方案，开发者可以更顺利地在多卡环境下部署GLM-4模型进行推理任务。

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

昇腾LLM分布式训练框架