GLM-4多卡推理中的设备一致性错误分析与解决方案

2025-06-03 10:07:29作者：秋泉律Samson

问题背景

在分布式深度学习推理场景中，使用多GPU设备进行模型推理是提升计算效率的常见做法。然而，当我们在GLM-4项目中进行多卡推理时，可能会遇到一个典型的设备一致性错误。具体表现为：当尝试在多个CUDA设备上运行GLM-4v-9b模型时，系统报错显示"Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cuda:1"。

错误分析

这个错误的本质原因是模型在处理输入嵌入时，不同部分的张量被分配到了不同的GPU设备上。在GLM-4的modeling_chatglm.py文件中，第870行代码尝试将输入嵌入(inputs_embeds)和图像特征(images_features)进行拼接操作时，这些张量可能分布在不同的设备上。

具体来说，当使用device_map="auto"参数进行多卡推理时，Hugging Face的自动设备映射功能会将模型的不同层分配到不同的GPU上以平衡计算负载。然而，在图像特征处理部分，代码没有显式地确保所有参与拼接的张量都位于同一设备上。

解决方案

解决这个问题的关键在于确保所有参与拼接操作的张量都位于同一设备上。我们可以通过以下修改来实现：

首先获取输入嵌入(inputs_embeds)所在的设备
将所有需要拼接的张量显式地移动到同一设备上

具体代码修改如下：

device = inputs_embeds.device
new_input_embeds.append(torch.cat(
    (inputs_embeds[i, :boi_token_pos], 
     images_features[i].to(device), 
     inputs_embeds[i, eoi_token_pos + 1:].to(device))))

这个修改确保了：

图像特征会被显式移动到与输入嵌入相同的设备
输入嵌入的子张量也会被显式移动到同一设备（虽然它们理论上已经在同一设备，但显式移动可以避免潜在问题）

技术原理

在多GPU环境中，PyTorch要求所有参与同一操作的张量必须位于同一设备上。这是因为：

计算图一致性：PyTorch的计算图需要在同一设备上构建和执行
内存管理：跨设备操作需要显式的数据传输，PyTorch不会自动处理这种场景
性能考虑：隐式的设备间数据传输会导致不可预测的性能下降

在GLM-4的视觉-语言模型中，图像特征和文本嵌入需要在同一设备上进行拼接，以构建多模态输入的完整表示。如果没有显式的设备同步，就会导致上述错误。

最佳实践

为了避免类似问题，在多卡推理场景中建议：

显式设备管理：对于所有涉及多个张量的操作，显式确保它们位于同一设备
设备感知编程：在编写模型代码时，始终考虑多设备场景
测试验证：在开发过程中，使用不同设备配置进行充分测试
错误处理：可以添加设备一致性检查，在运行时捕获并处理设备不匹配的情况

总结

多GPU推理是现代深度学习应用中的重要能力，但也带来了额外的复杂性。GLM-4项目中遇到的这个设备一致性问题是分布式推理中的典型挑战。通过理解PyTorch的设备管理机制和显式地进行设备同步，我们可以确保模型在多卡环境中的正确执行。这一解决方案不仅适用于GLM-4项目，对于其他需要进行多卡推理的PyTorch模型也具有参考价值。

GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文