Kubernetes Kueue v0.12.0 版本发布与技术解析

2025-07-08 17:45:16作者：魏侃纯Zoe

Kubernetes-native Job Queueing

项目地址：https://gitcode.com/gh_mirrors/ku/kueue

Kubernetes Kueue 项目近日发布了 v0.12.0 版本，这是一个重要的里程碑版本，引入了多项新功能和改进。作为 Kubernetes 生态系统中负责作业队列管理的核心组件，Kueue 的这一版本在资源管理、调度策略和系统稳定性方面都有显著提升。

关键特性与架构改进

拓扑感知调度增强

新版本对 TopologyAwareScheduling (TAS) 功能进行了多项改进：

增加了节点替换支持，通过 nodeToReplace 注解可以更新工作负载的拓扑分配而无需重新排队
修复了多 PodSet 工作负载的资源计算问题，解决了某些情况下工作负载无法被正确调度的问题
优化了 TAS 缓存的初始化过程，提高了错误处理能力

资源预配请求支持

v0.12.0 引入了 ProvisioningRequestConfig API，这是一个重要的架构扩展：

允许用户配置 Kueue 创建包含单个 PodSet 的 ProvisioningRequest
支持基于 ProvisioningClassDetails 的 PodSetUpdates 配置
实现了从用户工作负载(如 PyTorchJob)中聚合多个 PodSet 资源的能力

公平调度算法升级

新版本对公平调度机制进行了重要改进：

新增了 Alpha 阶段的 Admission Fair Sharing 功能
调度顺序现在会考虑来自 LocalQueue 的近期使用情况
近期使用情况的权重高于工作负载优先级，实现了更公平的资源分配

系统稳定性与运维增强

资源管理优化

修复了 Cohort 中资源利用率不足的问题，当配置为 preemption.reclaimWithinCohort: Any 时，资源可以更自由地借出
解决了 FairWeight 设置为 0 的 Cohort 中工作负载可能被抢占的问题
改进了对 FairSharing 权重更新的响应机制

监控与可观测性

新增了多项等待时间指标，当启用 waitForPodsReady 时可用
增加了唯一工作负载驱逐计数指标(Evicted_workloads_once_total)
改进了指标服务的默认配置

安全与合规性改进

默认启用了 readOnlyRootFilesystem 作为 Kueue 部署选项
支持为 metrics 端点使用外部自签名证书
修复了 Webhook 清单中缺失的命名空间选择器问题

生态系统集成

升级了 AppWrapper 支持到 v1.1.1 版本
新增了对 JAX 框架在 training-operator 中的支持
改进了 LeaderWorkerSet 的集成，修复了自动删除工作负载的问题

开发者体验改进

新增了 kueue.x-k8s.io/podset 标签到每个被接纳的 Job 资源
允许通过 Job 更新工作负载优先级
移除了多个已弃用的功能标志和条件

运维注意事项

升级到 v0.12.0 版本需要注意以下几点：

Topology CRD 的注解方式有变化，可能影响 Helm 安装
API Priority and Fairness 配置现在默认安装，Kubernetes 1.28 及以下版本需要特别注意
新增了工作负载垃圾回收机制，可以配置已完成工作负载的保留策略

Kueue v0.12.0 通过上述改进，进一步巩固了其作为 Kubernetes 批处理工作负载管理解决方案的地位，为大规模集群部署提供了更强大、更稳定的资源队列管理能力。

Kubernetes-native Job Queueing

项目地址：https://gitcode.com/gh_mirrors/ku/kueue

登录后查看全文

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理