k8s-rdma-sriov-dev-plugin 的安装和配置教程

2025-05-26 15:17:50作者：邵娇湘

项目基础介绍

k8s-rdma-sriov-dev-plugin 是一个为 Kubernetes 开发的设备插件，主要用于支持 RDMA（远程直接内存访问）和 SRIOV（Single Root I/O Virtualization）技术的网络设备。它支持 IB（InfiniBand）和 RoCE（RDMA over Converged Ethernet）的 SRIOV 虚拟功能（VF）和物理功能（PF）。此外，该插件还支持用于 Mellanox 网络接口卡（NICs）的 DPDK 应用程序。该插件以守护进程集（daemonset）的形式运行在 Kubernetes 集群中。

主要编程语言

该项目主要使用 Go 语言编写。

项目使用的关键技术和框架

Kubernetes 设备插件框架：该项目遵循 Kubernetes 设备插件接口规范，使得能够在 Kubernetes 环境中管理 RDMA 设备。
CNI（Container Network Interface）：CNI 提供了用于配置容器网络接口的标准库。
DPDK（Data Plane Development Kit）：用于加速网络数据包处理的开源框架。
SRIOV：允许单个物理网络接口卡（NIC）虚拟出多个虚拟接口，每个接口都可以作为独立的设备使用。

准备工作

在开始安装和配置 k8s-rdma-sriov-dev-plugin 之前，您需要确保以下准备工作已经完成：

安装了 Kubernetes 集群。
确保您的节点上安装了必要的驱动程序，以支持 RDMA 和 SRIOV 功能。
确保您的节点上的 Mellanox NICs 支持 DPDK。

安装步骤

以下是将 k8s-rdma-sriov-dev-plugin 安装到 Kubernetes 集群中的详细步骤：

步骤 1：创建节点 SRIOV 配置

编辑 example/sriov/rdma-sriov-node-config.yaml 文件，描述每个节点上的 SRIOV 物理功能（PF）网络设备。例如：

apiVersion: sriov.net/v1
kind: SriovNetworkNodePolicy
metadata:
  name: rdma-sriov-node-policy
spec:
  deviceType: netdevice
  pciAddress: <PCI地址>
  vendorId: <供应商ID>
  deviceId: <设备ID>
  numVFs: <虚拟功能数量>

注意：

不要在此配置中添加任何虚拟功能（VFs）。
不要手动启用 SRIOV，该插件将自动为指定的 PF 启用 SRIOV 并进行必要的配置。

步骤 2：创建 ConfigMap

使用上述配置文件，创建一个 ConfigMap，其中包含每个节点的 SRIOV 网络设备信息：

kubectl create -f example/sriov/rdma-sriov-node-config.yaml

步骤 3：部署设备插件

使用 Kubernetes 的 kubectl 命令部署设备插件：

kubectl create -f example/device-plugin.yaml

步骤 4：创建测试 pod

创建一个请求一个 vhca 资源的测试 pod，以验证插件是否正常工作：

kubectl create -f example/sriov/test-sriov-pod.yaml

按照上述步骤操作，您应该能够在 Kubernetes 集群中成功安装和配置 k8s-rdma-sriov-dev-plugin。如果遇到任何问题，请检查配置文件的正确性，并确保集群满足所有先决条件。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

471

473

ops-nn

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Rust

2.18 K

231