Agones游戏服务器滚动更新策略中的副本计算问题分析

2025-06-03 16:10:52作者：丁柯新Fawn

问题背景

在Agones游戏服务器管理系统中，Fleet资源的滚动更新策略存在一个关键性问题：系统在计算最大可终止副本数(MinAvailable)和最大可新增副本数(MaxSurge)时，采用了不合理的计算基准。这导致在实际更新过程中，系统可能会一次性终止过多处于Ready状态的游戏服务器，造成服务可用性下降。

当前实现的问题

当前Agones控制器在计算滚动更新参数时存在两个主要缺陷：

计算基准选择不当：系统使用Fleet规范中定义的Replicas总数作为计算基准，而不是当前实际可用的Ready副本数。这会导致在存在大量Allocated(已分配)副本的情况下，系统错误地认为可以终止更多Ready副本。
健康副本判断不准确：系统将所有非Ready状态的副本都视为不健康副本，这忽略了Allocated副本的特殊性。在游戏服务器场景中，Allocated副本实际上是正在服务中的健康副本，不应被视为不健康状态。

问题影响

以一个实际生产环境为例：

总副本数(Replicas)：3460个
Ready副本数(ReadyReplicas)：194个
已分配副本数(AllocatedReplicas)：3220个
最大可终止比例(MinAvailable)：10%
最大可新增比例(MaxSurge)：10%

按照当前实现，系统会认为可以立即终止346个副本(3460的10%)，但实际上只有194个Ready副本可用。这会导致所有Ready副本被终止，造成服务中断。

解决方案建议

修改计算基准：应将计算基准从Fleet.Spec.Replicas改为当前Ready副本数。这样在上例中，系统只会允许终止19个副本(194的10%)，保持服务的连续性。
改进健康副本判断：在计算不健康副本时，应排除Allocated状态副本，因为它们实际上是正在服务中的健康实例。
优化副本数设置：对于非活跃的GameServerSet，当其Allocated副本数等于Replicas数时，应考虑将Replicas设置为0，以加速更新过程。