Rancher项目中RKE机器配置清理任务与Pod安全策略的兼容性问题解析

2025-05-08 19:48:24作者：余洋婵Anita

Complete container management platform

项目地址：https://gitcode.com/GitHub_Trending/ra/rancher

在Kubernetes集群管理工具Rancher的2.10版本中，运维人员发现了一个涉及资源清理任务与安全策略的关键兼容性问题。该问题具体表现为：当集群启用了Pod安全策略（PodSecurityPolicy，简称PSP）时，系统自动执行的cleanup-orphaned-rke-machine-configs定时任务会意外失败。

问题本质

Rancher设计的这个清理任务主要用于清除集群中残留的RKE机器配置（rke-machine-configs）资源。这类资源通常由Rancher的机器驱动创建，当对应的节点被删除后，相关配置可能仍然遗留在系统中。清理任务以CronJob形式运行，旨在保持系统资源的整洁性。

问题的核心在于该清理任务容器的安全上下文配置与PSP策略存在冲突。具体表现为：

任务容器默认会以root用户身份运行
启用的PSP策略（如Kubernetes安全策略组件提供的策略）通常禁止容器以root权限运行
这种权限冲突导致任务容器无法正常启动，进而使清理任务失败

技术背景

Pod安全策略是Kubernetes的一项关键安全功能（在较新版本中已被PodSecurity Admission替代），它通过定义一组约束条件来控制Pod可以执行的操作。典型的安全策略包括：

禁止容器以root用户运行
限制主机文件系统访问
控制Linux能力集的分配
限制特权容器的使用

在Rancher环境中，安全策略组件提供的PSP策略通常会实施较为严格的安全限制，这虽然增强了集群安全性，但也可能导致一些系统组件因不符合策略要求而无法正常工作。

解决方案

Rancher团队在2.10.5-alpha版本中修复了这个问题，主要改进包括：

修改清理任务的安全上下文配置，使其以非root用户身份运行
确保任务容器所需的权限与常见PSP策略兼容
保持清理功能完整性的同时满足安全策略要求

影响与建议

这个问题虽然不会影响核心集群功能，但会导致系统残留无用的机器配置资源。对于运维人员来说：

如果使用PSP且遇到清理任务失败，建议升级到包含修复的版本
在升级前，可以手动清理残留的rke-machine-configs资源
在设计自定义PSP策略时，需要考虑系统组件的特殊需求

总结

这个案例很好地展示了在Kubernetes环境中安全性与功能性之间需要取得的平衡。Rancher的修复方案既维护了系统的安全基线，又确保了管理功能的正常运作，体现了对生产环境实际需求的深入理解。对于用户而言，及时更新到包含此类修复的版本是保持系统健康运行的最佳实践。

Complete container management platform

项目地址：https://gitcode.com/GitHub_Trending/ra/rancher

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

昇腾LLM分布式训练框架