Volcano项目GPU队列资源指标扩展需求分析

2025-06-12 13:52:21作者：郜逊炳

背景概述

Volcano作为Kubernetes的批量计算系统，当前版本中主要提供了CPU和内存资源的指标监控功能，包括队列分配量(queue_allocated)和应得资源量(queue_deserved)等核心指标。然而，随着AI/ML工作负载的快速增长，GPU资源已成为批处理任务中的关键计算资源，现有的监控指标体系在GPU资源方面存在明显不足。

当前限制

在现有实现中，Volcano的指标系统主要针对传统计算资源设计：

支持CPU资源的毫核级监控(queue_allocated_milli_cpu)
支持内存资源的字节级监控
提供了队列级别的资源分配和应得指标

但对于GPU这类扩展资源(Extended Resources)，系统尚未提供同级别的监控能力，这使得管理员无法准确掌握：

各队列实际获得的GPU资源量
根据权重配置应得的GPU资源量
GPU资源的利用率和使用效率

需求分析

AI批处理工作负载的特殊性要求对GPU资源进行精细化监控：

资源分配可视化：需要明确每个队列获得的GPU数量，避免资源争用
公平调度验证：通过应得指标验证调度器是否按配置权重分配GPU
容量规划：基于历史数据评估GPU需求趋势
异常检测：识别GPU资源分配异常或利用率过低的情况

技术实现建议

参考现有CPU指标的实现方式，建议采用以下设计方案：

统一扩展资源指标：
- 使用通用指标名称如queue_allocated_extended_resources
- 通过资源类型标签区分不同资源(如GPU、FPGA等)
GPU特定指标：
- queue_allocated_gpu：已分配GPU数量
- queue_deserved_gpu：应得GPU数量
- 支持整数和分数表示(如1.5个GPU)
指标维度：
- 按队列名称区分
- 按GPU类型区分(当集群有多种GPU时)
- 包含时间戳信息