Volcano调度器资源分配异常问题分析

2025-06-12 17:32:42作者：胡唯隽

问题背景

在Kubernetes集群中使用Volcano调度器时，当集群中存在大量待调度作业且队列资源配置不合理时，调度器可能会出现持续崩溃的情况。这种情况通常发生在队列的总保障资源(guarantee)配置超过集群实际可用资源时，或者在调度器启动时节点信息同步延迟导致资源计算不准确的情况下。

当出现该问题时，调度器会进入CrashLoopBackOff状态，不断重启。通过查看调度器日志，可以发现类似以下错误信息：

panic: resource is not sufficient to do operation: <cpu 32000.00> sub <cpu 36000.00>

这表明调度器在进行资源减法运算时，发现被减数小于减数，触发了断言错误导致崩溃。

经过分析，该问题主要源于Volcano调度器中proportion插件在处理队列资源分配时的逻辑缺陷：

资源计算逻辑问题：当队列的保障资源配置(attr.guarantee)过大时，attr.deserved会直接被设置为与attr.guarantee相同的值。此时increased值也会等于attr.guarantee。
资源校验不足：如果所有队列的attr.guarantee总和超过集群总资源(pp.totalResource)，在后续的资源减法运算中就会触发断言错误。
节点信息同步延迟：在实际生产环境中，当集群事件特别多时，可能导致调度器启动时节点信息同步缓慢。此时计算的totalResource可能过小（甚至为0），即使队列的保障资源配置合理，也会导致总保障资源超过计算出的总资源。

在proportion插件的OnSessionOpen方法中，资源分配的核心逻辑如下：

问题就出在当increasedDeserved大于remaining时，这个减法操作会触发断言错误导致调度器崩溃。

针对这个问题，可以从以下几个方面进行改进：

为了避免此类问题，建议在使用Volcano时：

Volcano调度器的资源分配机制在处理极端配置或异常情况时存在不足，可能导致调度器崩溃。通过理解其内部资源分配逻辑，我们可以更好地配置和使用Volcano，避免类似问题的发生。未来版本的Volcano应该会对此类问题进行改进，提供更健壮的资源分配机制。

登录后查看全文