Rook项目多集群部署时的Operator性能瓶颈分析

2025-05-18 03:41:08作者：齐添朝

Storage Orchestration for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/roo/rook

问题背景

在Kubernetes存储管理项目Rook的实际生产部署中，当管理多个Ceph集群时（如8个集群），Operator组件会出现严重的性能问题。具体表现为Operator被Kubernetes API服务器大量限流（throttling），导致关键操作如RBD池创建等被阻塞，无法正常完成集群配置。

问题现象

Operator日志中频繁出现类似以下警告信息：

Waited for 1.064742041s due to client-side throttling, not priority and fairness, request: GET:https://10.96.0.1:443/api/v1/namespaces/rook-central/secrets/rook-ceph-mon

即使禁用PodDisruptionBudget(PDB)功能，也只能略微减少Operator监视的对象数量，但问题依然会随机出现，导致集群协调过程中断。

技术分析

根本原因

API请求过载：Operator需要监视大量Kubernetes资源对象的状态变化，包括但不限于Deployment、Secret等。随着管理集群数量的增加，这些监视请求呈线性增长。
非必要的资源监视：当前实现中，Operator会监视一些"边缘情况"资源（如Deployment），主要用于自动修复被意外删除的资源。这类监视在实际运行中并不常用，但却消耗了大量API请求配额。
控制器架构限制：当前Operator采用单实例管理多集群的模式，当集群数量增加时，单个Operator实例需要处理的协调请求和状态监视会超出其处理能力。

解决方案探讨

优化资源监视机制：
- 移除非关键资源的监视（如Deployment的自动修复监视）
- 采用更高效的缓存机制，如controller-runtime的cache.Informers
API请求优化：
- 审查并优化高频API调用
- 实现请求批处理和缓存策略
架构改进：
- 实现"每集群一个Operator"的部署模式（已在项目路线图中）
- 将Operator功能模块化，分散负载

实施建议

对于当前遇到此问题的用户，可以考虑以下临时解决方案：

调整Kubernetes API服务器配置：适当增加API服务器的限流阈值
资源分配优化：为Operator Pod分配更多CPU资源
功能精简：评估并禁用非必要的监视功能

长期来看，等待项目实现"每集群一个Operator"的架构改进将是最彻底的解决方案。

总结

Rook Operator在多集群环境下的性能瓶颈问题反映了分布式存储系统控制器设计的挑战。通过优化资源监视策略、改进API调用效率以及最终的架构重构，项目团队正在逐步解决这一问题。对于大规模部署用户，建议密切关注项目进展，特别是关于Operator架构改进的相关更新。

Storage Orchestration for Kubernetes

项目地址：https://gitcode.com/gh_mirrors/roo/rook

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

昇腾LLM分布式训练框架