KubeRay项目中Ray V2自动伸缩器在多Pod扩展场景下的问题分析

2025-07-09 13:47:24作者：宣利权Counsellor

问题概述

在KubeRay项目的最新测试中发现，当使用Ray 2.40.0版本配合KubeRay operator 1.2.2版本时，V2版本的自动伸缩器在尝试扩展多个工作节点Pod时会出现停滞现象。具体表现为在创建多个分离式actor时，系统无法按预期完成所有工作节点的扩展，导致测试用例失败。

技术背景

KubeRay是Ray在Kubernetes上的原生实现，提供了Ray集群的部署和管理能力。自动伸缩功能是KubeRay的核心特性之一，它允许Ray集群根据工作负载动态调整计算资源。Ray V2自动伸缩器是该功能的最新实现版本，相比V1版本在架构和性能上都有显著改进。

问题现象

在测试环境中，当尝试通过创建多个分离式actor来触发工作节点扩展时，系统表现如下：

创建11个分离式actor时，系统仅扩展了8个工作节点Pod
部分actor状态停留在"PENDING_CREATION"
自动伸缩器日志显示扩展过程未能完成
相同测试用例在V1自动伸缩器下表现正常

问题分析

通过对日志和测试数据的分析，可以得出以下结论：

该问题在Ray 2.40.0版本中稳定复现
问题在负载较大时更为明显，表现为创建的actor数量越多，扩展失败的概率越高
检查自动伸缩器日志发现，系统未能正确识别所有待处理的扩展请求
节点状态同步可能存在延迟或错误

解决方案

经过进一步测试发现，该问题在Ray的nightly版本中已经得到修复。这表明：

该问题已被Ray开发团队识别并修复
解决方案将包含在Ray 2.41.0及以后的正式版本中
当前建议用户等待Ray 2.41.0版本发布后再使用V2自动伸缩器
对于急需使用的场景，可以考虑使用Ray nightly版本作为临时解决方案

最佳实践建议

基于此次问题的经验，我们建议：

在生产环境中使用V2自动伸缩器前，应进行充分的负载测试
对于大规模扩展场景，建议分批次创建任务，避免一次性创建过多资源请求
密切关注Ray项目的版本更新，及时升级到包含修复的版本
在测试环境中验证新版本功能后再部署到生产环境

总结

KubeRay与Ray的集成提供了强大的分布式计算能力，但在版本迭代过程中可能会出现类似此次的兼容性问题。开发团队应保持对上游项目的关注，及时更新依赖版本。同时，完善的测试体系能够帮助及早发现这类问题，确保生产环境的稳定性。

kuberay

A toolkit to run Ray applications on Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ku/kuberay

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781