解决text-embeddings-inference项目中的GPU设备驱动错误

2025-06-24 01:02:58作者：管翌锬

在使用HuggingFace的text-embeddings-inference项目时，用户可能会遇到一个常见的Docker GPU相关错误："Error response from daemon: could not select device driver "" with capabilities: [[gpu]]"。这个问题通常发生在尝试在Docker容器中使用GPU加速时。

问题背景

当用户运行以下命令时会出现这个错误：

model=Alibaba-NLP/gte-large-en-v1.5
volume=$PWD/data 
sudo docker run --gpus all -p 5001:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:1.5 --model-id $model

这个错误表明Docker无法找到合适的设备驱动程序来支持GPU功能。text-embeddings-inference项目需要GPU加速来高效运行大型语言模型的嵌入计算。

根本原因

该问题的核心在于缺少NVIDIA容器运行时(NVIDIA Container Runtime)。这是Docker与NVIDIA GPU硬件交互的必要组件。当Docker尝试使用--gpus all参数时，它需要一个专门的驱动程序接口来管理GPU资源。

解决方案

要解决这个问题，需要安装NVIDIA容器工具包。以下是具体步骤：

首先确保系统已安装正确版本的NVIDIA驱动程序
安装NVIDIA容器运行时
配置Docker以使用NVIDIA运行时

在Ubuntu系统上，可以通过以下命令安装必要的组件：

# 添加NVIDIA容器工具包仓库
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

# 安装nvidia-container-toolkit
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

# 重启Docker服务
sudo systemctl restart docker

安装完成后，可以验证NVIDIA容器运行时是否正常工作：

docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

如果看到GPU信息输出，说明配置成功。

高级配置建议

对于生产环境，还可以考虑以下优化：

指定特定的GPU设备而非使用"all"参数
设置GPU内存限制
配置CUDA版本兼容性

例如，可以这样限制GPU使用：

docker run --gpus '"device=0,1"' ... # 仅使用GPU 0和1

总结

text-embeddings-inference项目依赖GPU加速来提供高效的文本嵌入服务。当遇到GPU设备驱动错误时，核心解决方案是正确安装和配置NVIDIA容器运行时。通过上述步骤，用户可以顺利在Docker环境中启用GPU加速，充分发挥大型语言模型的性能优势。

text-embeddings-inference

A blazing fast inference solution for text embeddings models

项目地址：https://gitcode.com/gh_mirrors/te/text-embeddings-inference

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1.01 K

631