Kube-Hetzner项目SELinux策略导致自动扩缩容失效问题分析

2025-06-28 12:33:09作者：秋阔奎Evelyn

问题背景

在Kube-Hetzner项目2.13.2版本中，用户报告了一个严重问题：集群自动扩缩容功能(Autoscaler)完全失效。这一问题在集群初次创建时就会显现，导致整个自动扩缩容机制无法正常工作。

错误现象分析

从日志中可以清晰地看到问题的直接表现：

Hetzner云提供商组件启动失败，报错信息显示无法验证TLS证书
系统审计日志显示容器进程被SELinux策略阻止访问证书目录
具体错误表明容器无法读取/etc/ssl/certs目录下的证书文件

根本原因

深入分析后发现，问题的根源在于2.13.2版本中的SELinux策略变更。具体表现为：

策略文件不完整：2.13.2版本仅包含.te策略源文件，缺少编译后的.mod和.pp文件
权限配置错误：策略中包含了无效的anon_inode权限设置，导致策略编译失败
证书访问限制：容器运行时被SELinux阻止读取系统证书存储，导致TLS验证失败

解决方案

开发团队迅速响应并采取了以下修复措施：

修正SELinux策略：移除了无效的anon_inode权限设置
完善策略编译：确保生成完整的策略文件集(.te、.mod、.pp)
添加必要权限：明确允许容器读取证书目录和链接文件

经验教训

这一事件为项目维护提供了宝贵经验：

策略测试的重要性：任何SELinux策略变更都必须经过完整编译测试
版本兼容性检查：系统级安全策略变更可能对上层功能产生连锁反应
审计日志的价值：系统审计日志是诊断SELinux问题的关键工具

用户建议

对于遇到类似问题的用户，建议：

升级到修复后的2.13.3或更高版本
检查集群节点的SELinux状态和策略
监控系统审计日志以发现潜在权限问题
在测试环境验证变更后再应用到生产环境

技术细节补充

SELinux作为Linux的安全增强模块，通过强制访问控制(MAC)机制为系统提供额外的安全层。在此案例中，容器运行时(container_t)上下文被策略限制访问证书(cert_t)上下文，这是SELinux类型强制(TE)模型的典型表现。正确的做法是通过布尔值container_read_certs或明确的策略规则来授权这类访问。

terraform-hcloud-kube-hetzner

Optimized and Maintenance-free Kubernetes on Hetzner Cloud in one command!

项目地址：https://gitcode.com/gh_mirrors/te/terraform-hcloud-kube-hetzner

登录后查看全文