Argo Rollouts中BlueGreen策略下进度死锁问题分析

2025-06-27 11:39:21作者：齐添朝

Progressive Delivery for Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ar/argo-rollouts

问题背景

在Kubernetes的渐进式交付工具Argo Rollouts中，BlueGreen部署策略是一种常见的发布方式。该策略通过创建完整的副本环境（Green环境）与生产环境（Blue环境）并行运行，待验证通过后再进行流量切换。然而，在实际使用过程中，用户发现了一个关键问题：当部署存在问题的版本时，系统在某些情况下无法正确处理进度超时，导致发布流程陷入无限"Progressing"状态。

问题现象

用户在使用BlueGreen策略时设置了progressDeadlineSeconds: 60和progressDeadlineAbort: true参数，期望在Pod无法就绪时能够自动终止部署。测试过程中：

首次部署问题版本（Revision 2）时，系统在60秒后正确标记为Degraded状态并终止发布
随后部署正常版本（Revision 3）成功
再次部署问题版本（Revision 4）时，系统却陷入了持续的"Progressing"状态，显示"active service cutover pending"消息，未能按预期终止发布

技术分析

预期行为机制

按照设计，BlueGreen策略应遵循以下流程：

创建新ReplicaSet（Green环境）
等待Pod变为Ready状态
如果超过progressDeadlineSeconds仍未就绪，则终止发布
通过previewService进行验证后，切换activeService流量

问题根源

经过代码审查，发现问题出在进度检查逻辑上。当系统处理后续的问题版本时，控制器未能正确识别已经超时的情况，导致状态机停留在等待切换阶段。这属于条件竞争问题，特定情况下控制器会忽略超时判断。

解决方案

项目维护者通过以下方式解决了该问题：

增强了状态机对超时条件的检查
确保在任何阶段都会验证progressDeadlineSeconds
修复了条件竞争导致的逻辑问题

最佳实践建议

为避免类似问题，建议用户：

始终为Rollout资源设置合理的progressDeadlineSeconds
启用progressDeadlineAbort以确保超时自动终止
定期升级到最新版本以获取稳定性改进
在生产环境部署前，充分测试异常场景下的回滚机制

总结

Argo Rollouts作为先进的部署策略控制器，其BlueGreen策略提供了安全的发布方式。此次改进确保了在连续部署场景下，系统能够正确处理各种异常情况，维护了部署流程的可靠性。用户应当理解这些机制背后的原理，以便更好地设计和监控自己的部署流程。

Progressive Delivery for Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ar/argo-rollouts

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

ohos_react_native

React Native鸿蒙化仓库

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。