Kubernetes Kueue项目v0.10.3版本发布：优化资源队列管理

2025-06-26 01:46:28作者：丁柯新Fawn

Kubernetes Kueue是一个开源的Kubernetes原生批处理作业队列系统，它为Kubernetes集群提供了高级的资源管理和作业调度能力。Kueue通过定义ClusterQueue和LocalQueue等资源对象，帮助用户在共享的Kubernetes集群中高效地管理和调度批处理作业，特别适合机器学习训练、大数据处理等需要大量计算资源的场景。

最新发布的v0.10.3版本带来了一系列重要的改进和修复，进一步提升了Kueue的稳定性和功能性。让我们深入了解这个版本的关键更新。

核心功能改进

集成系统默认值修复

在这个版本中，修复了一个关于集成系统默认值的重要问题。当Kueue控制器启动时，如果某些集成的API暂时不可用，这些集成的默认值可能无法正确设置。这个修复确保了即使API暂时不可用，集成系统的默认值也能在创建时被正确应用，提高了系统的健壮性。

Helm图表发布流程优化

v0.10.3版本改进了Helm图表的发布流程。现在，Kueue的Helm图表会被发布到一个临时的staging仓库，为后续将其推送到永久性的registry.k8s.io/kueue/charts位置做准备。这一变化为未来的稳定发布奠定了基础，同时也为使用Helm部署Kueue的用户提供了更好的体验。

关键问题修复

拓扑感知调度(TAS)改进

Ray作业提交器支持：修复了Topology Aware Scheduling(TAS)注解在Ray提交器Job模板上被忽略的问题。现在，当用户在Ray作业模板上设置TAS注解时，这些注解会被正确处理，确保了拓扑感知调度的正确应用。
高可用性模式下的领导变更问题：修复了在高可用性(HA)模式下，TopologyUngator无法在领导变更时触发的问题。这个修复确保了在HA环境中，拓扑感知调度能够持续正常工作，即使在控制器实例发生故障转移时也能保持稳定。

公平调度与预取机制的兼容性

这个版本明确声明了FairSharing调度策略与ClusterQueue.Preemption.BorrowWithinCohort特性的不兼容性。当这两个参数一起使用时，它们实际上不会产生预期效果，并且在某些边缘情况下可能导致无限预取循环。v0.10.3版本修复了这个边缘情况，同时为未来版本添加了验证机制做准备，以防止用户错误地同时使用这两个参数。