Kubernetes项目中TestStorageVersionMigrationWithCRD测试不稳定的技术分析

2025-04-28 04:56:37作者：滕妙奇

在Kubernetes项目的集成测试中，TestStorageVersionMigrationWithCRD测试用例近期出现了不稳定的情况。这个测试属于api-machinery组件的一部分，主要验证在自定义资源定义(CRD)场景下的存储版本迁移功能。

问题背景

该测试用例的核心目的是验证当CRD的存储版本发生变化时，Kubernetes能否正确处理这种迁移。具体来说，测试会创建一个CRD，然后修改其存储版本，最后验证自定义资源(CR)是否被正确存储在指定的新版本中。

测试失败的表现是：在修改CRD的存储版本后，创建的自定义资源没有被存储在新版本中，而是仍然保留在旧版本。错误信息显示"CR not stored at version v2"。

根本原因分析

经过深入调查，发现问题源于Kubernetes内部控制器之间的竞态条件。具体来说，当CRD被更新时，系统中两个关键控制器会同时被触发：

crdHandler控制器：负责处理CRD的更新，包括设置新的存储配置
DiscoveryController控制器：负责更新API发现信息

这两个控制器在处理CRD更新时没有完善的同步机制，导致可能出现以下情况：

DiscoveryController先完成工作，更新了API发现信息
测试代码基于发现信息判断存储版本已经更新
但实际上crdHandler尚未完成新存储的配置
测试创建CR时，存储系统还未准备好处理新版本

从日志中可以观察到，在测试失败时，存储系统的初始化("Using watch cache")与CR创建操作几乎同时发生，这进一步证实了竞态条件的存在。

解决方案探讨

针对这个问题，可以考虑以下几种解决方案：

测试增强：修改测试逻辑，使其能够容忍短暂的版本不一致状态。可以尝试多次创建CR，直到存储系统完全更新到新版本。
控制器同步：在核心代码层面，为CRD更新操作添加更好的同步机制，确保存储配置完成后才更新发现信息。但这可能涉及较大的架构变更。
状态检查：在测试中增加对存储系统状态的显式检查，确保存储版本确实已更新后再进行后续操作。

从实现复杂度和影响范围考虑，第一种方案（测试增强）可能是最快速有效的解决方案。它不需要修改核心逻辑，只需使测试更加健壮，能够处理这种短暂的中间状态。

技术启示

这个问题给我们带来了一些重要的技术启示：

分布式系统中的时序问题：在Kubernetes这样的分布式系统中，组件间的操作时序很难保证，设计时必须考虑各种可能的执行顺序。
测试的健壮性：对于涉及多组件协作的功能，测试用例应该能够容忍系统达到最终一致性的过程，而不是假设所有操作都能立即生效。
控制器设计原则：在设计控制器时，需要考虑其对系统状态的影响顺序，特别是当多个控制器监听同一资源时。

这个问题虽然表现为测试不稳定，但背后反映的是Kubernetes核心架构中控制器协作模式的一个典型挑战。理解这类问题有助于我们更好地设计和实现基于Kubernetes的扩展功能。

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

986