Kata Containers中VFIO设备直通的技术实现与优化

2025-06-04 15:55:11作者：董灵辛Dennis

Kata Containers is an open source project and community working to build a standard implementation of lightweight Virtual Machines (VMs) that feel and perform like containers, but provide the workload isolation and security advantages of VMs. https://katacontainers.io/

项目地址：https://gitcode.com/gh_mirrors/ka/kata-containers

背景介绍

在云原生环境中，Kata Containers作为一种轻量级虚拟机运行时，为用户提供了更强的隔离性和安全性。其中，VFIO（Virtual Function I/O）设备直通技术允许虚拟机直接访问物理设备，这对于高性能计算、GPU加速和存储加速等场景至关重要。

技术挑战

在Kubernetes环境中实现VFIO设备直通面临两个关键阶段：

冷插拔阶段：在创建sandbox虚拟机时将VFIO设备添加到客户机
资源分配阶段：通过k8s设备插件将VFIO设备资源分配给特定容器

由于k8s设备插件仅在容器创建时生效，如果没有预先将VFIO设备冷插拔到sandbox虚拟机中，设备插件将无法正常工作。

现有解决方案的问题

目前常见的配置方式是通过containerd配置文件传递CDI（Container Device Interface）注解，例如：

[plugins."io.containerd.grpc.v1.cri".containerd.runtimes.kata-qemu]
runtime_type = "io.containerd.kata-qemu.v2"
privileged_without_host_devices = true
pod_annotations = ["io.katacontainers.*", "cdi.k8s.io/vfio*"]

这种方式会在sandbox创建时触发CDI功能，基于配置文件注入VFIO设备。然而，同样的注解会存在于容器spec中，导致在容器创建时再次触发CDI注入，从而产生错误。

技术优化方案

社区开发者提出了一个有效的解决方案：在将设备注入ociSpec后，删除外部的CDI设备注解。具体实现如下：

// 一旦我们将设备注入到ociSpec中，就不再需要来自外部运行时的CDI设备注解
// 运行时将根据设备创建适当的内层运行时CDI注解
for key := range spec.Annotations {
    if strings.HasPrefix(key, cdi.AnnotationPrefix) {
        delete(spec.Annotations, key)
    }
}

这一修改确保了：

在sandbox创建阶段正确注入VFIO设备
避免了容器创建时的重复注入问题
保持了设备分配的准确性

vfio_mode参数的影响

在实际应用中，vfio_mode参数的设置会影响CDI设备的处理方式：

vfio_mode="vfio"：VFIO设备未经修改直接传递给容器，适用于DPDK等用例
vfio_mode="guest-kernel"：设备以不同方式呈现给客户机内核

实践验证

开发者通过以下命令验证了解决方案的有效性：

sudo nerdctl run --runtime io.containerd.kata.v2 \
--label cdi.k8s.io/vfio="nvidia.com/pgpu=0" \
-it --rm $image nvidia-smi

验证结果显示GPU设备被正确识别和使用，同时避免了重复注入的问题。

总结

Kata Containers社区通过优化CDI注解处理机制，有效解决了VFIO设备在Kubernetes环境中的直通问题。这一改进使得高性能设备能够更可靠地在容器化环境中使用，为AI训练、高性能计算等场景提供了更好的支持。

对于使用者来说，只需更新到包含此修复的版本，即可享受更稳定的VFIO设备直通体验，无需担心注解冲突导致的设备注入问题。

kata-containers

项目地址：https://gitcode.com/gh_mirrors/ka/kata-containers

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

Kata Containers中VFIO设备直通的技术实现与优化

背景介绍

技术挑战

现有解决方案的问题

技术优化方案

vfio_mode参数的影响

实践验证

总结

热门内容推荐

最新内容推荐

项目优选

Kata Containers中VFIO设备直通的技术实现与优化

背景介绍

技术挑战

现有解决方案的问题

技术优化方案

vfio_mode参数的影响

实践验证

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选