KServe中GPU设备不匹配导致文本嵌入服务异常的分析与解决

2025-06-16 20:24:07作者：彭桢灵Jeremy

问题背景

在使用KServe部署基于Hugging Face模型的文本嵌入服务时，当启用GPU加速功能后，服务会返回设备不匹配的错误信息："Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!"。这个问题在仅使用CPU的环境中不会出现，只有在配置了GPU资源后才会发生。

技术分析

问题本质

这个错误表明在模型推理过程中，系统检测到部分张量位于GPU(cuda:0)上，而另一部分张量位于CPU上，导致无法执行计算操作。在PyTorch框架中，所有参与运算的张量必须位于同一设备上。

根本原因

经过深入分析，发现问题出在KServe的Hugging Face模型服务实现上。当配置了GPU资源后，模型会被正确地加载到GPU上，但输入数据的预处理阶段仍然在CPU上执行，导致预处理后的张量没有自动转移到GPU设备上，从而产生了设备不匹配的情况。

解决方案

修复方法

在KServe的Hugging Face模型服务器实现中，需要确保：

模型加载到指定设备（GPU）
输入数据预处理后自动转移到与模型相同的设备
所有中间计算过程保持设备一致性

具体修复措施包括在预处理管道中显式指定设备，确保所有张量操作都在GPU上完成。

配置建议

对于需要使用GPU加速的文本嵌入服务，建议采用以下配置方式：

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: gte-large
spec:
  predictor:
    model:
      modelFormat:
        name: huggingface
      args:
        - --model_name=gte-large
        - --task=text_embedding
        - --device=cuda  # 明确指定使用CUDA设备
      resources:
        limits:
          nvidia.com/gpu: 1  # 请求GPU资源