KubeRay 控制器在缩容工作节点组时意外重建 Pod 的问题分析

2025-07-09 13:49:52作者：胡唯隽

A toolkit to run Ray applications on Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ku/kuberay

问题背景

在 Kubernetes 环境中使用 KubeRay 管理 Ray 集群时，用户发现当通过控制器缩减工作节点组(worker group)的副本数时，系统不仅会删除预期的多余 Pod，还会意外重建一些本应保留的工作 Pod。例如，当用户将工作节点组从 10 个副本缩减到 9 个时，系统删除了 1 个 Pod，但同时重建了另外 3 个 Pod。

问题复现

通过以下步骤可以稳定复现该问题：

部署 KubeRay operator 1.3.0 版本
创建一个包含 5 个工作节点副本的 Ray 集群
等待所有 Pod 进入运行状态
将工作节点组从 5 个副本缩减到 4 个
观察发现系统不仅删除了 1 个 Pod，还重建了其他 1-2 个 Pod

问题分析

这种现象表明 KubeRay 控制器在缩容操作时的处理逻辑存在缺陷。正常情况下，缩容操作应该只删除多余的 Pod，而不影响其他正在运行的 Pod。但实际情况是，控制器似乎触发了不必要的 Pod 重建。

可能的原因包括：

状态同步问题：控制器在更新副本数后，可能错误地认为某些 Pod 需要重建以达到期望状态
标签选择器冲突：缩容操作可能影响了 Pod 的标签匹配，导致控制器误判
资源版本控制：在更新过程中可能出现了版本冲突，导致控制器采取重建策略
最终一致性延迟：Kubernetes API 的响应延迟可能导致控制器做出错误决策

影响范围

该问题影响所有使用 KubeRay 1.3.0 版本的用户，在不同 Kubernetes 环境（包括本地 kind 集群和 GKE 标准集群）中均可复现。问题会导致：

不必要的 Pod 重建，增加集群负载
可能中断正在运行的工作负载
增加资源消耗和操作延迟

解决方案

开发团队已经通过提交修复了该问题。修复方案主要优化了控制器的缩容逻辑，确保：

精确识别需要删除的 Pod
避免对保留的 Pod 进行不必要操作
正确处理状态同步和版本控制

最佳实践

对于遇到此问题的用户，建议：

升级到包含修复的 KubeRay 版本
在缩容操作前做好工作负载检查点
考虑在低峰期执行缩容操作
监控 Pod 生命周期事件以验证操作是否符合预期

该问题的修复显著提升了 KubeRay 在动态伸缩场景下的稳定性和可靠性，为用户提供了更平滑的集群管理体验。

A toolkit to run Ray applications on Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ku/kuberay

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统