Kubernetes中PVC终止状态导致ServiceAccount令牌刷新失败问题分析
2025-04-28 12:24:29作者:齐添朝
问题背景
在Kubernetes集群中,当PersistentVolumeClaim(PVC)进入终止状态(Terminating)时,挂载该PVC的Pod会出现ServiceAccount令牌无法自动刷新的问题。这一现象会导致Pod在现有令牌过期后无法获取新的有效令牌,进而影响依赖令牌认证的服务正常运行。
问题现象
当PVC被删除请求触发进入终止状态后,Pod虽然仍在运行,但其挂载的ServiceAccount令牌卷(projected volume)中的令牌将停止更新。通过监控脚本可以观察到,令牌的过期时间(exp)不再变化,最终导致令牌过期失效。
技术原理分析
Kubernetes中ServiceAccount令牌的自动刷新机制依赖于kubelet的volume manager组件。当PVC进入终止状态时,volume manager会错误地认为该PVC已不可用,从而中断所有与该PVC关联的卷操作,包括令牌卷的更新。
具体流程如下:
- kubelet的desiredStateOfWorldPopulator组件在处理Pod卷时,会检查PVC状态
- 当检测到PVC的DeletionTimestamp字段非空时,会返回"PVC is being deleted"错误
- 这个错误导致整个卷挂载流程中断,包括令牌卷的更新操作
影响范围
该问题主要影响以下场景:
- 使用PVC作为存储后端的Pod
- 这些Pod配置了自动刷新的ServiceAccount令牌(通过projected volume)
- 当PVC被删除但Pod仍在运行时(常见于有finalizer保护的PVC)
特别值得注意的是,这一问题会严重影响服务网格(如Istio、Linkerd)的运行,因为这些系统依赖ServiceAccount令牌进行mTLS认证。
解决方案
社区通过PR#130335修复了这一问题。修复方案的核心思想是:
- 区分PVC的真正删除状态和受保护状态
- 当PVC有PVCProtectionFinalizer保护时,即使处于Terminating状态也允许卷操作继续
- 只有当PVC真正被删除时才中断卷操作
修复后的行为保证了在PVC受保护期间,Pod可以继续正常刷新令牌,直到PVC真正被删除或Pod终止。
最佳实践建议
对于生产环境,建议采取以下措施:
- 及时升级到包含修复的Kubernetes版本
- 对于关键工作负载,考虑使用独立的ServiceAccount
- 监控Pod的令牌过期时间,设置告警
- 在删除PVC前,确保相关Pod已妥善处理或迁移
总结
Kubernetes中PVC终止状态导致的令牌刷新问题是一个典型的资源生命周期管理边界情况。通过深入分析volume manager的工作原理,社区找到了既保证资源清理又维持服务连续性的平衡点。这一修复体现了Kubernetes对生产环境稳定性的持续改进。
登录后查看全文
热门项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0218
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0139
uni-appA cross-platform framework using Vue.jsJavaScript09
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
项目优选
收起
deepin linux kernel
C
32
16
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
471
465
Ascend Extension for PyTorch
Python
758
968
昇腾LLM分布式训练框架
Python
186
231
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
699
1.4 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
879
2.03 K
暂无描述
Dockerfile
780
5.08 K
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
70
22
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.04 K
271
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
2.09 K
217