GLM-4多卡运行问题分析与解决方案

2025-06-04 02:11:17作者：胡易黎Nicole

问题背景

在GLM-4项目使用过程中，用户尝试在多GPU环境下运行trans_web_demo.py脚本时遇到了设备不匹配的错误。具体表现为运行时错误提示"Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cuda:1!"。这个问题主要出现在多GPU配置的系统中，当模型尝试在不同GPU设备间进行张量操作时发生。

错误原因分析

该问题的根本原因是模型在多个GPU设备上分布不均，导致在进行张量拼接操作时，输入张量位于不同的设备上。具体来说：

模型可能被自动分配到多个GPU上，但某些操作要求所有输入张量必须位于同一设备
默认的device_map="cuda"设置可能无法正确处理多GPU情况
模型实现中的某些层可能没有正确处理跨设备张量

解决方案

方法一：更新模型实现文件

通过更新modeling_chatglm.py文件可以解决此问题。这个文件包含了模型的核心实现逻辑，更新后的版本能够更好地处理多GPU情况下的设备分配问题。

方法二：修改设备映射配置

在模型加载时，将device_map参数从"cuda"改为"auto"，可以让Hugging Face的自动设备映射机制更智能地分配模型到多个GPU上：

self.model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto",  # 修改为自动设备映射
).eval()

方法三：单GPU运行

如果多GPU支持不是必须的，也可以选择在单个GPU上运行模型，这通常能避免设备不匹配的问题：

self.model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="cuda:0",  # 指定使用第一个GPU
).eval()