Kueue v0.11.4版本发布：关键调度优化与稳定性提升

2025-06-26 01:53:12作者：沈韬淼Beryl

Kueue作为Kubernetes原生的批量作业队列管理系统，在v0.11.4版本中带来了一系列重要的改进和修复。这个版本主要聚焦于提升调度器的稳定性、优化资源配额管理以及增强对多样化工作负载的支持能力。

核心改进解析

调度器稳定性增强

本次版本修复了一个可能导致调度器构建无效SSA补丁的关键问题。当使用准入检查(admission checks)功能时，某些场景下生成的补丁会因缺少必要的lastTransitionTime字段而被API服务器拒绝。这个问题现在已得到彻底解决，确保了工作负载状态变更的可靠性。

资源配额管理优化

在公平调度方面，本次更新修复了两个重要问题：首先，修复了权重为0的队列组(Cohort)中工作负载可能被错误抢占的问题；其次，解决了队列组权重更新后需要其他变更才能触发重新调度的缺陷。这些改进使得基于权重的资源分配更加精确和及时。

工作负载控制器改进

对于LeaderWorkerSet这种特殊的工作负载类型，v0.11.4版本做出了多项优化：修复了与manageJobsWithoutQueueName功能同时使用时产生冗余工作负载的问题；确保工作负载在停用状态下能够正确保留；并实现了LeaderWorkerSet删除时自动清理关联工作负载的功能。这些改进显著提升了控制器对复杂工作负载模式的支持能力。

功能增强

拓扑感知调度(TAS)改进

拓扑感知调度功能获得了节点选择器(Node Selector)的支持，这使得工作负载能够更精确地指定期望运行的节点特征。同时修复了一个当容器请求值为零时可能导致调度器崩溃的问题，增强了极端情况下的稳定性。

多集群队列(MultiKueue)支持

针对多集群场景下的Pod组支持进行了修复，确保跨集群的工作负载调度更加可靠。这对于分布式计算和大规模批处理作业场景尤为重要。

部署与监控改进

Helm图表方面，修复了指标服务(metrics service)的默认配置问题，并修正了ServiceMonitor选择错误服务的问题。现在当启用Prometheus监控时，指标收集将更加可靠。同时提供了专门的prometheus.yaml和visibility-apf.yaml配置文件，简化了监控集成工作。

总结

Kueue v0.11.4版本虽然没有引入重大新特性，但在系统稳定性和已有功能完善方面做出了重要贡献。特别是对公平调度算法、工作负载控制器和拓扑感知调度等核心组件的优化，使得系统在生产环境中的表现更加可靠。对于正在使用或考虑采用Kueue管理Kubernetes批处理作业的用户，这个版本值得升级。

kueue

Kubernetes-native Job Queueing

项目地址：https://gitcode.com/gh_mirrors/ku/kueue

登录后查看全文

Kueue v0.11.4版本发布：关键调度优化与稳定性提升

核心改进解析

调度器稳定性增强

资源配额管理优化

工作负载控制器改进

功能增强

拓扑感知调度(TAS)改进

多集群队列(MultiKueue)支持

部署与监控改进

总结

热门内容推荐

最新内容推荐

项目优选

Kueue v0.11.4版本发布：关键调度优化与稳定性提升

核心改进解析

调度器稳定性增强

资源配额管理优化

工作负载控制器改进

功能增强

拓扑感知调度(TAS)改进

多集群队列(MultiKueue)支持

部署与监控改进

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选