Kueue v0.9.4版本发布：关键调度优化与稳定性提升

2025-06-26 17:32:00作者：凤尚柏Louis

Kueue是Kubernetes生态系统中一个专注于作业队列管理的开源项目，它通过智能调度算法帮助用户高效管理集群资源。作为CNCF孵化项目，Kueue为批处理工作负载提供了公平调度、资源配额管理和优先级控制等核心功能。

核心改进与修复

本次v0.9.4版本带来了多项重要修复和优化，主要集中在调度稳定性、资源管理精确性和多集群支持方面。

调度器稳定性增强

针对StatefulSet工作负载的调度稳定性进行了显著改进。现在系统会阻止对PodSpec关键字段的非法修改，包括节点选择器(nodeSelector)、亲和性规则(affinity)和容忍度(tolerations)等。这种保护机制有效防止了因配置变更导致的Pod卡在调度阶段的问题。

同时修复了StatefulSet删除后Pod清理不彻底的问题，确保资源释放更加及时可靠。这些改进使得StatefulSet工作负载在Kueue中的运行更加稳定可靠。

资源管理精确性提升

在资源配额管理方面，修复了LimitRange约束校验不准确的问题。现在当Pod资源请求不满足LimitRange限制时，系统会生成更精确的错误信息，明确指出违规的资源字段。同样地，当容器请求超过限制时，错误报告也会包含准确的字段路径。

这些改进使得资源配额管理更加透明，帮助用户快速定位和解决资源配置问题。对于使用资源配额和限制范围的集群尤为重要。

多集群支持优化

MultiKueue功能针对跨集群作业管理进行了优化。现在当Job处于挂起状态时，系统不会更新管理集群上的Job状态。这一改进适用于JobSet、Kubeflow Jobs和MPIJob等多种工作负载类型，确保了跨集群状态同步的准确性。

监控与可观测性

本次版本加强了监控能力，修复了controller-runtime指标无法被Prometheus采集的问题。现在管理员可以更全面地监控Kueue控制器的运行状态。

日志系统也进行了优化，将"attemptCount"键名改为更具语义的"schedulingCycleCount"，更准确地反映了调度周期计数。这种改进使得日志分析更加直观。

配置与部署改进

Helm chart配置得到了完善，修复了LeaderElection相关Role和Rolebinding的命名空间未指定问题。这使得基于Helm的部署更加可靠。

对于高级用户，现在可以更灵活地配置准入检查(AdmissionCheck)的状态更新机制。当ProvisioningRequest创建失败时，系统会正确更新Workload状态中的AdmissionCheck信息。

拓扑感知调度增强

拓扑感知调度(TAS)功能得到了两项重要修复：

不再将标记为不可调度(.spec.unschedulable=true)的节点计入可分配容量
禁止在JobSet的PodTemplate上同时设置required-topology和preferred-topology注解

这些改进使得拓扑调度策略更加精确和可靠。

向后兼容性说明

本次更新保持了良好的向后兼容性，所有API变更都是非破坏性的。用户可以从v0.9.3平滑升级到v0.9.4版本。

对于使用MultiKueue功能的用户，建议在升级后验证跨集群作业状态同步是否正常。使用拓扑感知调期的用户则应检查现有的拓扑约束是否仍然按预期工作。

总结

Kueue v0.9.4版本通过一系列关键修复和优化，显著提升了系统的稳定性和可靠性。特别是对StatefulSet工作负载的支持、资源管理的精确性以及多集群功能的改进，使得Kueue更适合生产环境部署。建议所有用户考虑升级到该版本以获得更好的使用体验。

kueue

Kubernetes-native Job Queueing

项目地址：https://gitcode.com/gh_mirrors/ku/kueue

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。