Agones项目中的存储兼容性与就地升级策略

2025-06-03 14:43:20作者：郜逊炳

概述

在Kubernetes游戏服务器管理平台Agones中，实现平滑的版本升级是一个关键的技术挑战。本文将深入探讨Agones项目中关于存储兼容性的设计考量，特别是针对就地升级(in-place upgrade)场景下的技术实现方案。

Agones目前通过webhook机制为资源对象设置默认值，例如GameServer资源的默认值设置。这种设计存在两个主要目的：

然而，仅在webhook中设置默认值存在跨版本配置变更的安全隐患。例如当Agones从1.29升级到1.30版本时，如果中间存在GameServer创建操作，可能导致控制器因未默认值而出现静默失败。

解决方案建议：

当API字段不应存在但已被设置时（通常由于功能开关被禁用），系统需要特殊处理：

在这两种情况下，控制器应在"首次接触"时丢弃未知字段，而不是保留它们。这种处理方式更为安全，因为当功能开关重新启用时，保留的字段可能会给用户带来意外行为。

控制器在使用Update与Patch方法时存在类似SDK的问题：不同控制器版本可能会丢弃字段。但控制器版本间的偏差预期持续时间较短（最多几分钟），因此问题只是暂时的。

新增CRD字段必须为非空且在CRD中指定默认值
- 确保新控制器需要的字段立即具有默认值
- 非必需字段可标记为nullable: true
- 升级时从CRD中移除的字段会被Kubernetes自动修剪
GameServer的默认值处理
- GameServer本质上是临时性的，无需修改ApplyDefaults()
- 设计上允许控制器与SDK版本间的偏差
- 就绪和已分配的GameServer Pod保持现有配置
用户主动触发更新
- 用户可通过标签更新发起Fleet滚动更新
- Fleet规范和GameServer Set配置应升级到新配置
- Fleet注释应更新为最新SDK版本
状态反映
- Fleet状态和GameServer Set状态应反映新配置
- 例如降级时，Fleet会丢弃与已关闭功能相关的状态