Kubernetes Kueue v0.11.0-rc.0 版本深度解析与核心特性解读

2025-06-26 00:24:53作者：傅爽业Veleda

Kubernetes Kueue 是一个开源的 Kubernetes 原生批处理作业队列系统，它为集群资源管理提供了高级调度能力。作为 Kubernetes 生态中的重要组件，Kueue 通过智能的作业排队和资源分配机制，帮助用户高效利用计算资源。本文将深入分析 Kueue v0.11.0-rc.0 版本带来的重要更新和技术演进。

关键架构变更与兼容性说明

本次版本引入了若干重大架构调整，需要管理员特别注意：

GenericJob 接口变更：自定义 Job CRD 的实现需要更新 PodSets 函数签名以支持错误返回，同时 PodSet.Name 字段类型从 string 变更为 PodSetReference。这些变更影响了所有实现 GenericJob 接口的组件。
配置项迁移：integrations.podOptions 配置字段已被标记为废弃，建议用户迁移至 managedJobsNamespaceSelector。这一变化反映了 Kueue 向更统一的管理模型演进。
状态恢复机制增强：新增了 WaitForPodsReady API 的恢复机制，能够自动驱逐超过配置阈值的异常作业，显著提高了系统稳定性。

核心功能增强

拓扑感知调度(TAS)优化

本版本对拓扑感知调度器进行了多项重要改进：

新增最小化资源碎片算法作为默认策略，原有算法可通过 TASLargestFit 特性门控启用
支持队列组(cohorts)内及跨队列组的抢占机制
修复了多 PodSet 工作负载的拓扑分配冲突问题
当目标 ClusterQueue 为 TAS-only 时，自动为工作负载启用隐式 TAS 行为

这些改进使得 Kueue 能够更智能地在复杂拓扑环境中分配资源，特别是在多 NUMA 节点或跨可用区场景下表现更优。

多集群队列(MultiKueue)扩展

MultiKueue 功能得到显著增强：

新增对 RayCluster 和 RayJob 的支持
实现了 Pod 集成能力
完善了 Kubeflow Training-Operator Jobs 的 spec.runPolicy.managedBy 字段支持
优化了作业状态同步机制，避免在挂起状态时不必要的更新

这些改进使得 MultiKueue 能够更好地管理跨集群的分布式训练工作负载。

可视化与监控增强

新增 kueue-viz Helm 图表，简化可视化组件部署
支持通过环境变量配置应用端口
修复了 Prometheus 指标收集问题
改进了工作负载优先级标签传播机制

重要问题修复

本版本解决了多个关键问题：

调度相关：
- 修复了 LimitRange 约束下资源请求验证的字段路径问题
- 修正了不可调度节点被错误计入可用容量的问题
- 解决了拓扑分配中 Pod 数量不足时的错误处理
稳定性改进：
- 修复了 StatefulSet 删除后 Pod 清理问题
- 解决了 ProvisioningRequest 在 PodTemplate 未创建时的错误处理
- 修正了 AdmissionCheck 状态更新机制
性能优化：
- 修复了 FairSharing 与 BorrowWithinCohort 同时使用时可能导致的无限抢占循环
- 优化了 LocalQueue 资源使用指标的收集