Volcano项目中的minMember参数支持与工作负载调度优化

2025-06-12 08:42:01作者：秋泉律Samson

背景与问题分析

在Kubernetes生态系统中，Volcano作为一个专注于批处理和高性能工作负载的调度器，其核心功能之一是通过PodGroup机制实现Gang Scheduling（组调度）。这种调度方式确保了工作负载中的多个Pod要么全部被调度成功，要么都不被调度，这对于分布式训练、大数据处理等场景至关重要。

在Volcano的现有实现中，PodGroup的minMember参数默认值为1，这意味着即使只有一个Pod被调度成功，整个工作负载也会开始运行。这种默认配置在某些场景下并不合理，特别是当用户部署Deployment等非vcjob类型的工作负载时，可能导致部分Pod无法正常运行而影响整体业务。

技术方案设计

为了解决这个问题，社区提出了通过注解(annotation)方式来支持minMember参数的灵活配置。具体方案如下：

注解支持：允许用户通过scheduling.volcano.sh/minMember注解为工作负载指定minMember值。这个注解可以设置在Pod级别或工作负载级别。
优先级设计：为了保持向后兼容性，实现时会优先读取工作负载级别的注解，如果不存在则回退到Pod级别的注解。
性能优化：考虑到大规模集群的性能问题，方案中引入了缓存机制来存储ReplicaSet、StatefulSet等工作负载的注解信息，避免频繁访问API Server。

实现细节与考量

在实际实现过程中，开发团队面临了几个关键决策点：

参数命名：在讨论中使用minMember还是minAvailable更为合适。minAvailable是vcjob中的语义，而minMember更贴近PodGroup的概念。最终决定保持与PodGroup一致使用minMember。
注解层级：虽然工作负载级别设置更为合理，但为了与现有队列和PodGroup注解的实现保持一致，最终选择支持Pod级别注解。
扩展性：除了minMember外，方案还考虑了对minResource参数的支持，为未来可能的扩展预留了空间。