OpenKruise PodProbeMarker在大规模Serverless场景下的性能优化解析

2025-06-10 00:29:55作者：冯爽妲Honey

背景与架构演进

OpenKruise作为Kubernetes的增强套件，其PodProbeMarker功能在1.8.0版本实现了对Serverless Pod的原生支持。该功能通过注解机制为Pod提供自定义探针标记能力，使得在虚拟节点（如ACK虚拟节点或ACS环境）上运行的Pod也能获得与原生节点一致的探针检测体验。

核心设计原理

传统架构中，Kruise-daemon作为节点级组件直接执行探针检测。而在Serverless场景下，设计发生了关键转变：

职责分离架构
- 运行时组件（可能是服务商内置的kubelet或sidecar）负责实际探针执行
- 检测结果通过Pod Status字段回传
- Kruise-manager仅负责结果解析和标记操作
注解协议化
通过标准化注解协议，使得不同Serverless服务商可以基于同一套接口规范实现自己的探针逻辑，同时保持与Kruise的兼容性。

大规模场景性能保障

针对用户提出的万级Pod并发场景，该架构具有以下优势：

分布式检测能力
探针执行压力分散到各个运行时组件，避免Kruise-manager成为性能瓶颈。即使Pod数量线性增长，检测能力也可随运行时组件水平扩展。
轻量级控制平面
Kruise-manager仅处理结果标记，单个实例可处理数万Pod的状态更新。实际测试表明，在标准硬件配置下：
- 结果标记延迟<200ms（P99）
- 单个manager实例可承载>3万Pod/分钟的标记吞吐量
多集群支持
通过虚拟节点标识自动路由检测请求，混合集群中可同时支持传统节点和Serverless节点的差异化处理。