Volcano调度器资源回收机制潜在死锁问题分析

2025-06-12 21:23:34作者：余洋婵Anita

问题背景

在分布式任务调度系统Volcano中，资源回收(Reclaim)机制负责在资源紧张时回收低优先级队列的资源分配给高优先级队列。然而当前实现中存在一个设计缺陷，可能导致两个作业相互回收对方资源，形成死锁状态。

问题现象

当系统中同时存在两个作业时：

作业A：部署在default队列，配置5个副本，minAvailable=1
作业B：部署在可回收队列a，同样配置5个副本，minAvailable=1

当集群资源不足以同时满足两个作业的全部副本需求时，系统会出现以下情况：

作业A先部署，占用集群资源
作业B部署时触发回收机制，驱逐作业A的部分Pod
作业A因Pod被驱逐进入Pending状态
系统又为作业A触发回收机制，尝试从作业B回收资源
两个作业陷入相互回收的循环

技术原理分析

当前Volcano的回收机制基于HasPendingTasks判断条件，只要作业有待处理的Pod就会触发回收。这种设计存在以下问题：

缺乏饥饿状态判断：未考虑作业是否真正处于资源饥饿状态（即运行中的Pod数是否低于minAvailable）
回收策略过于激进：即使作业已满足最小可用性要求，仍可能被选为回收目标
缺乏互斥机制：回收操作没有全局协调，可能导致多个作业相互回收

解决方案建议

更合理的设计应改为基于JobStarving状态判断，具体改进点包括：

引入饥饿状态检测：只有当作业运行中的Pod数小于minAvailable时才视为可回收目标
优化回收触发条件：满足minAvailable的作业不应触发回收机制
增加回收优先级策略：在多个作业竞争时，根据队列权重、作业优先级等确定回收顺序

影响范围

该问题主要影响以下场景：

集群资源紧张时
多个大规格作业同时部署
作业配置了较高的minAvailable值
使用可回收(reclaimable)队列功能

版本规划

该修复已计划在Volcano v2.0版本中实现，将显著提升调度器在资源竞争场景下的稳定性。

总结

资源回收是调度系统的核心功能之一，需要谨慎设计判断条件和执行策略。通过引入更精确的饥饿状态检测，可以避免死锁问题，同时保证高优先级作业能够获得所需资源。这一改进将增强Volcano在生产环境中的可靠性。

volcano

项目地址：https://gitcode.com/GitHub_Trending/vol/volcano

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理