Kubernetes控制器运行时中Secret缓存问题的分析与解决

2025-06-29 11:44:47作者：龚格成

在Kubernetes控制器开发过程中，当处理大量Secret资源时，开发者可能会遇到控制器启动阶段同步失败的问题。本文深入分析这一现象的技术原理，并提供有效的解决方案。

问题现象

当集群中存在大量Secret资源（超过1万个）时，控制器启动阶段首次协调操作会出现60秒超时现象。错误日志显示：

Timeout: failed waiting for *v1.Secret Informer to sync

同时伴随HTTP流错误：

stream error when reading response body...

技术背景

Kubernetes控制器运行时(controller-runtime)默认会对所有资源类型启用缓存机制。缓存通过Informer实现，它会：

初始化时全量列出(List)资源
建立Watch连接持续监听变更
在本地维护资源状态副本

对于大规模Secret资源，这种机制会导致：

首次同步耗时长
内存占用高
网络传输压力大

解决方案

方案一：禁用Secret缓存

在控制器管理器初始化时配置CacheOptions：

Client: client.Options{
    Cache: &client.CacheOptions{
        DisableFor: []client.Object{&corev1.Secret{}},
    },
},

此方案：

完全绕过缓存层
每次操作都直接访问API Server
适合不频繁访问的Secret资源

方案二：优化缓存配置

对于需要部分缓存的情况，可以：

Client: client.Options{
    Cache: &client.CacheOptions{
        Reader: customCacheReader,
        DisableFor: []client.Object{&corev1.Secret{}},
    },
},

实现原理

控制器运行时的缓存机制：

默认使用DelegatingClient组合直接客户端和缓存客户端
通过CacheOptions控制缓存行为
DisableFor字段指定要排除缓存的资源类型

当禁用Secret缓存后：

Get操作直接访问API Server
避免Informer同步的开销
减少内存占用

最佳实践

对于高频访问的配置类Secret，建议保持缓存
对于大规模、低频访问的Secret，建议禁用缓存
监控控制器内存使用情况
在测试环境验证不同配置的性能表现

总结

处理Kubernetes大规模Secret资源时，合理配置控制器缓存策略至关重要。通过禁用特定资源的缓存，可以有效解决启动同步超时问题，同时保持控制器的整体性能。开发者应根据实际业务场景选择最适合的缓存策略。

controller-runtime

Repo for the controller-runtime subproject of kubebuilder (sig-apimachinery)

项目地址：https://gitcode.com/GitHub_Trending/co/controller-runtime

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

986