首页
/ Volcano调度器队列Pod Group计数指标异常问题分析

Volcano调度器队列Pod Group计数指标异常问题分析

2025-06-12 02:54:42作者:郜逊炳

在分布式任务调度系统Volcano中,调度器会通过Prometheus指标监控各个队列中Pod Group的运行状态。近期发现当队列中最后一个运行中的任务被删除后,相关监控指标queue_pod_group_running_count未能正确归零的问题。

问题现象

当队列中存在运行中的Volcano Job时,queue_pod_group_running_count指标能正确显示为1。但当该Job被删除后,指标值仍保持为1而不会更新为0。类似情况也出现在queue_pod_group_pending_count等关联指标上。

技术背景

Volcano调度器的proportion插件负责队列资源的比例分配和指标收集。当前实现中,指标更新逻辑位于任务分配阶段,仅当队列中有待处理任务时才会触发指标刷新。这种设计导致当队列变为空状态时,系统缺少触发指标更新的时机。

根因分析

通过代码审查发现,指标更新逻辑位于proportion插件的任务分配环节。当队列中最后一个任务被删除后:

  1. 该队列会从调度器的queueOpts映射表中移除
  2. 后续的指标更新循环不再包含该队列
  3. 既有的指标值因此被保留而不会重置

解决方案建议

方案一:会话关闭时全量更新

将指标更新逻辑移至OnSessionClose钩子函数,此时可以:

  • 遍历系统中所有已注册队列
  • 显式设置无任务队列的指标值为0
  • 确保指标状态的最终一致性

方案二:引入队列状态监听

建立队列生命周期监听机制:

  • 当队列被创建/删除时更新指标
  • 使用最终一致性保证指标准确
  • 需要扩展队列管理接口

实现考量

在具体实现时需要注意:

  • 指标更新需要保证原子性
  • 高频更新可能影响调度性能
  • 需要处理短暂的任务状态不一致
  • 考虑添加指标过期机制

总结

该问题反映了监控指标与核心调度逻辑的耦合问题。在分布式系统中,确保监控数据的准确性需要特别考虑边界条件。建议采用方案一的实现方式,既能解决问题又不会引入过多复杂性。后续可考虑将指标收集抽象为独立模块,提高系统可维护性。

对于使用Volcano的生产环境,建议在升级前验证该指标的准确性,必要时可通过外部监控系统进行数据校验。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
27
11
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
470
3.48 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
10
1
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
65
19
flutter_flutterflutter_flutter
暂无简介
Dart
718
172
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
23
0
kernelkernel
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
209
84
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.27 K
695
rainbondrainbond
无需学习 Kubernetes 的容器平台,在 Kubernetes 上构建、部署、组装和管理应用,无需 K8s 专业知识,全流程图形化管理
Go
15
1
apintoapinto
基于golang开发的网关。具有各种插件,可以自行扩展,即插即用。此外,它可以快速帮助企业管理API服务,提高API服务的稳定性和安全性。
Go
22
1