KubeRay v1.3.0 版本深度解析：全面提升 Ray 在 Kubernetes 上的运行体验

2025-06-27 23:04:21作者：侯霆垣

KubeRay 是 Ray 项目在 Kubernetes 上的原生实现，它使得分布式计算框架 Ray 能够无缝运行在 Kubernetes 集群中。最新发布的 v1.3.0 版本带来了多项重要改进和新特性，显著提升了 Ray 在 Kubernetes 环境下的稳定性、可观测性和用户体验。

核心特性解析

1. RayCluster 状态条件 API 升级至 Beta

v1.3.0 版本将 RayCluster 的条件 API 提升至 Beta 状态，这一改进为集群状态监控提供了更丰富的细节信息。新 API 能够准确表达集群的各种运行状态，包括：

AllPodRunningAndReadyFirstTime：首次所有 Pod 运行就绪状态
RayClusterPodsProvisioning：Pod 正在创建中
HeadPodNotFound：Head Pod 未找到
HeadPodRunningAndReady：Head Pod 运行就绪

这些条件状态为运维人员提供了更精确的集群健康度指标，便于快速定位问题。未来版本还将继续扩展支持更多条件类型。

2. Ray Kubectl 插件进入 Beta 阶段

KubeRay 的 kubectl 插件现已达到 Beta 成熟度，提供了一系列便捷的命令行操作：

日志收集：通过 kubectl ray logs 命令可将 Ray 日志下载到本地
会话管理：kubectl ray session 支持端口转发到 Ray Head 节点
集群创建：kubectl ray create 简化了集群创建流程
作业提交：kubectl ray job submit 支持从本地工作目录提交 RayJob

这些命令显著简化了日常运维操作，提升了开发效率。

3. RayJob 稳定性增强

针对长期运行的 RayJob，v1.3.0 做了多项稳定性改进。特别是在使用 submissionMode=K8sJobMode 时，解决了因重复提交 ID 导致的作业失败问题。现在，如果提交 ID 已存在，系统会自动获取现有作业的日志，而不是重复提交。

4. RayService API 优化

RayService 致力于实现零停机服务。v1.3.0 引入了 UpgradeStrategy 选项，允许用户自定义升级行为：

NewCluster：创建新集群进行升级（默认）
None：禁用零停机升级

此外，改进了状态表示方式，引入 Ready 和 UpgradeInProgress 条件，逐步淘汰原有的 serviceStatus 字段，使状态监控更加准确可靠。

5. GCS 容错 API 改进

新版本简化了 GCS 容错配置，通过新增的 GcsFaultToleranceOptions 字段，用户可以在一个地方集中配置所有相关参数，不再需要分散在 Pod 注解、容器环境变量和 RayStartParams 中。同时支持 Redis 用户名配置（需要 Ray 2.4.1+）。

技术实现细节

资源管理优化

容器 CPU 请求现在会用于 Ray 的 –num-cpus 参数（当未指定 CPU 限制时）
新增对 TPU 和 Neuron Core 资源的检测与支持
改进了 /dev/shm 大小的计算逻辑，优先考虑内存限制

自动扩缩容增强

完善了 Ray 自动扩缩容 v2 版本的各项功能
支持通过 workerGroupSpec.idleTimeoutSeconds 配置空闲超时
增加了对自定义空闲超时值的端到端测试

安全性改进

提供了使用 kube-rbac-proxy 实现 Dashboard 访问控制的示例配置
修复了各种潜在的安全隐患
增加了对 Redis 密码和用户名的验证

最佳实践建议

状态监控：建议优先使用新的条件 API 而非已弃用的 serviceStatus 字段来监控集群状态。
GCS 容错配置：使用新的 GcsFaultToleranceOptions 字段简化配置，确保 Redis 相关参数集中管理。
升级策略：根据资源情况选择合适的 UpgradeStrategy，资源充足时使用 NewCluster 实现零停机升级，资源紧张时可考虑 None。
日志收集：利用 kubectl 插件的日志功能定期收集和分析 Ray 日志，便于问题排查。
资源分配：合理设置 CPU 请求和限制，KubeRay 现在能更智能地利用这些参数配置 Ray 资源。

总结

KubeRay v1.3.0 通过一系列精心设计的改进，显著提升了 Ray 在 Kubernetes 上的运行体验。从更精确的状态监控到简化的运维操作，从增强的稳定性到灵活的资源管理，这个版本为大规模部署 Ray 集群提供了更强大的基础。特别是 kubectl 插件的成熟和条件 API 的完善，将大大降低运维复杂度，提升开发效率。

对于正在使用或考虑使用 Ray 进行分布式计算的企业和开发者，升级到 v1.3.0 版本将能够获得更稳定、更易管理的运行环境，为数据密集型应用提供更可靠的基础设施支持。

kuberay

A toolkit to run Ray applications on Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ku/kuberay

登录后查看全文