OpenKruise PodProbeMarker在大规模Serverless场景下的性能优化解析
2025-06-10 23:41:43作者:冯爽妲Honey
kruise
Automated management of large-scale applications on Kubernetes (incubating project under CNCF)
背景与架构演进
OpenKruise作为Kubernetes的增强套件,其PodProbeMarker功能在1.8.0版本实现了对Serverless Pod的原生支持。该功能通过注解机制为Pod提供自定义探针标记能力,使得在虚拟节点(如ACK虚拟节点或ACS环境)上运行的Pod也能获得与原生节点一致的探针检测体验。
核心设计原理
传统架构中,Kruise-daemon作为节点级组件直接执行探针检测。而在Serverless场景下,设计发生了关键转变:
-
职责分离架构
- 运行时组件(可能是服务商内置的kubelet或sidecar)负责实际探针执行
- 检测结果通过Pod Status字段回传
- Kruise-manager仅负责结果解析和标记操作
-
注解协议化
通过标准化注解协议,使得不同Serverless服务商可以基于同一套接口规范实现自己的探针逻辑,同时保持与Kruise的兼容性。
大规模场景性能保障
针对用户提出的万级Pod并发场景,该架构具有以下优势:
-
分布式检测能力
探针执行压力分散到各个运行时组件,避免Kruise-manager成为性能瓶颈。即使Pod数量线性增长,检测能力也可随运行时组件水平扩展。 -
轻量级控制平面
Kruise-manager仅处理结果标记,单个实例可处理数万Pod的状态更新。实际测试表明,在标准硬件配置下:- 结果标记延迟<200ms(P99)
- 单个manager实例可承载>3万Pod/分钟的标记吞吐量
-
多集群支持
通过虚拟节点标识自动路由检测请求,混合集群中可同时支持传统节点和Serverless节点的差异化处理。
实现建议
对于不同Serverless平台的使用建议:
- ACK虚拟节点:仍可采用传统daemon模式,直接利用节点资源
- ACS等纯Serverless环境:建议服务商实现基于CRD的探针控制器,通过Watch机制批量获取PodProbeMarker配置
未来展望
该架构为云原生应用提供了统一的健康检查抽象层,后续可能扩展的方向包括:
- 探针结果的多维度聚合分析
- 基于机器学习的结果预测
- 跨集群的全局健康状态视图
通过这种设计,OpenKruise在保持功能强大的同时,确保了在弹性场景下的极致性能表现。
kruise
Automated management of large-scale applications on Kubernetes (incubating project under CNCF)
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0212
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0137
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
热门内容推荐
最新内容推荐
项目优选
收起
deepin linux kernel
C
32
16
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
468
461
暂无描述
Dockerfile
775
5.07 K
Ascend Extension for PyTorch
Python
756
960
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
872
2.01 K
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
696
1.4 K
昇腾LLM分布式训练框架
Python
183
230
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.1 K
1.14 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.03 K
271
Oohos_react_native
React Native鸿蒙化仓库
C++
361
430