解决k3s中NVIDIA设备插件与containerd配置不一致问题

2025-05-05 16:06:54作者：邬祺芯Juliet

K3s 是一个轻量级的 Kubernetes 发行版，用于在资源受限的环境和物联网设备上部署 Kubernetes 群集。 * 轻量级的 Kubernetes 发行版、在资源受限的环境和物联网设备上部署 Kubernetes 群集 * 有什么特点：资源消耗低、易于使用、支持多种物联网设备和操作系统

项目地址：https://gitcode.com/GitHub_Trending/k3/k3s

问题背景

在使用k3s集群部署NVIDIA设备插件时，特别是启用MPS模式后，用户可能会遇到一个常见问题：当执行systemctl daemon-reload命令时，Pod会意外失去对GPU的访问权限。这源于NVIDIA容器工具包中的一个已知问题，其解决方案之一需要修改containerd的SystemdCgroup配置。

问题分析

k3s作为轻量级Kubernetes发行版，其containerd配置方式与标准Kubernetes有所不同。k3s不使用常规的/etc/containerd/config.toml文件，而是通过模板文件config.toml.tmpl来生成运行时配置。

当用户检查crictl info输出时，可能会发现NVIDIA运行时的SystemdCgroup设置与手动修改的containerd配置不一致。这是因为k3s有自己的配置生成机制，直接修改config.toml不会生效。

解决方案

要正确修改k3s中NVIDIA运行时的SystemdCgroup设置，需要遵循以下步骤：

创建或编辑/var/lib/rancher/k3s/agent/etc/containerd/config.toml.tmpl文件
基于k3s的默认模板进行修改
特别关注NVIDIA运行时配置部分

正确的配置模板应包含以下关键部分：

[plugins."io.containerd.grpc.v1.cri".containerd.runtimes."nvidia"]
  runtime_type = "io.containerd.runc.v2"

[plugins."io.containerd.grpc.v1.cri".containerd.runtimes."nvidia".options]
  BinaryName = "/usr/local/nvidia/toolkit/nvidia-container-runtime"
  SystemdCgroup = false

实施步骤

获取k3s的默认containerd配置模板
在模板中定位到NVIDIA运行时配置部分
将SystemdCgroup参数从{{ $.SystemdCgroup }}修改为false
保存模板文件
重启k3s服务使配置生效

注意事项

修改配置后必须重启k3s服务才能使更改生效
使用crictl info命令可以验证配置是否已正确应用
此解决方案专门针对NVIDIA设备插件与MPS模式配合使用时的特殊情况
在大多数情况下，k3s自动设置的SystemdCgroup值是最佳选择，不应随意修改

技术原理

k3s通过模板引擎动态生成containerd配置文件，这种方式提供了更大的灵活性，但也意味着常规的配置修改方法可能不适用。理解k3s的配置生成机制对于正确调整运行时参数至关重要。

在NVIDIA设备插件的上下文中，SystemdCgroup设置影响设备资源的cgroup管理方式。将其设置为false可以解决某些特定场景下的设备访问问题，但可能会影响系统服务的资源隔离能力。

K3s 是一个轻量级的 Kubernetes 发行版，用于在资源受限的环境和物联网设备上部署 Kubernetes 群集。 * 轻量级的 Kubernetes 发行版、在资源受限的环境和物联网设备上部署 Kubernetes 群集 * 有什么特点：资源消耗低、易于使用、支持多种物联网设备和操作系统

项目地址：https://gitcode.com/GitHub_Trending/k3/k3s

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统