Argo Rollouts 蓝绿部署暂停状态异常问题分析

2025-06-27 21:44:00作者：齐冠琰

Progressive Delivery for Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ar/argo-rollouts

问题现象

在Argo Rollouts项目中，当使用蓝绿(blue-green)部署策略的Rollout资源处于暂停(suspended)状态超过15分钟后，系统会出现状态异常循环现象：Rollout会在暂停(Suspended)状态和降级(Degraded)状态之间不断切换。

问题根源

经过分析，这个问题源于进度超时(progressDeadlineSeconds)机制与暂停状态的交互逻辑存在缺陷。在蓝绿部署策略中，当Rollout处于暂停状态时，控制器未能正确识别暂停状态，导致进度计时器继续运行，最终触发进度超时，将Rollout标记为Degraded状态。

技术细节

进度超时机制：默认情况下，progressDeadlineSeconds设置为600秒(10分钟)，如果在指定时间内Rollout没有进展，则会被标记为Degraded状态。
暂停状态处理：根据Argo Rollouts规范，当Rollout处于暂停状态时，进度计时器应该暂停计数。然而当前实现中，这一逻辑仅针对金丝雀(canary)部署策略有效，蓝绿部署策略的暂停状态未被正确处理。
状态循环：当进度超时触发Degraded状态后，控制器又会重新评估Rollout状态，发现它实际上应该处于暂停状态，于是又将其恢复为Paused状态，从而形成状态循环。

解决方案

修复方案需要修改控制器逻辑，使其能够正确识别蓝绿部署策略下的暂停状态，并在这种情况下暂停进度计时器。具体实现应包括：

扩展暂停状态检测逻辑，使其覆盖蓝绿部署策略
在计算进度时间时，排除暂停状态的持续时间
确保状态转换逻辑的一致性

影响与建议

这个问题主要影响以下场景：

长时间保持蓝绿部署预览状态的场景
需要精确监控Rollout状态的自动化流程

对于使用蓝绿部署策略的用户，建议：

如果确实需要长时间保持暂停状态，可以适当增大progressDeadlineSeconds参数
关注控制器日志中的状态转换事件，及时发现异常情况
升级到包含修复补丁的版本后，验证暂停状态下的稳定性

总结

Argo Rollouts作为一款先进的部署编排工具，其状态管理机制需要处理各种复杂场景。这个问题展示了在多种部署策略并存时，状态转换逻辑可能出现的边界情况。通过修复这个问题，可以提升蓝绿部署策略下暂停状态的稳定性，为用户提供更可靠的部署体验。

Progressive Delivery for Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ar/argo-rollouts

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

flutter_flutter

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。