Argo Rollouts中progressDeadlineSeconds与scaleDownDelaySeconds配置冲突问题解析

2025-06-27 09:04:38作者：瞿蔚英Wynne

问题背景

在Kubernetes的渐进式交付工具Argo Rollouts中，用户在使用"快速回滚"功能时遇到了一个关键配置冲突问题。该功能允许在发布新版本时保留旧版本的副本一段时间（通过scaleDownDelaySeconds参数控制），以便在出现问题时能够快速回滚。然而，当scaleDownDelaySeconds设置时间超过progressDeadlineSeconds时，Rollout会意外进入Degraded（降级）状态。

问题现象

用户在实际使用中发现：

当scaleDownDelaySeconds设置为较大值（如24小时）而progressDeadlineSeconds保持默认值（10分钟）时
Rollout会在约10分钟后进入Degraded状态，并显示"ProgressDeadlineExceeded"错误
只有当scaleDownDelaySeconds时间到达，旧副本被真正缩容后，Rollout才会恢复健康状态

技术原理分析

progressDeadlineSeconds的作用

progressDeadlineSeconds是Kubernetes中用于定义部署操作必须在多长时间内完成的重要参数。如果在指定时间内部署未能完成，系统会认为部署失败并标记为Degraded状态。

scaleDownDelaySeconds的作用

scaleDownDelaySeconds是Argo Rollouts特有的参数，用于控制在发布新版本后保留旧版本副本的时间长度。这为快速回滚提供了保障，在出现问题时可以立即切换回旧版本。

冲突根源

当scaleDownDelaySeconds大于progressDeadlineSeconds时，系统会认为旧副本长时间存在是部署未完成的表现，从而触发进度超时错误。实际上，这是用户有意为之的保留行为，而非真正的部署问题。

解决方案

临时解决方案

目前可以通过确保progressDeadlineSeconds值大于scaleDownDelaySeconds来避免此问题。例如：

progressDeadlineSeconds: 900  # 15分钟
scaleDownDelaySeconds: 600    # 10分钟

长期建议

从设计角度看，Argo Rollouts应该能够识别scaleDownDelaySeconds配置的有意保留行为，不应将其视为部署进度问题。这需要在控制器逻辑中进行改进，区分真正的部署问题和预期的保留行为。

最佳实践

明确设置progressDeadlineSeconds和scaleDownDelaySeconds的值
确保progressDeadlineSeconds > scaleDownDelaySeconds + 缓冲时间（建议至少多30分钟）
监控Rollout状态，特别是Degraded状态的持续时间
根据业务需求合理设置scaleDownDelaySeconds，平衡快速回滚能力和资源占用

总结

argo-rollouts

Progressive Delivery for Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ar/argo-rollouts

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

468

461

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Python

1.03 K

644

Argo Rollouts中progressDeadlineSeconds与scaleDownDelaySeconds配置冲突问题解析

问题背景

问题现象

技术原理分析

progressDeadlineSeconds的作用

scaleDownDelaySeconds的作用

冲突根源

解决方案

临时解决方案

长期建议

最佳实践

总结

热门内容推荐

最新内容推荐

项目优选

Argo Rollouts中progressDeadlineSeconds与scaleDownDelaySeconds配置冲突问题解析

问题背景

问题现象

技术原理分析

progressDeadlineSeconds的作用

scaleDownDelaySeconds的作用

冲突根源

解决方案

临时解决方案

长期建议

最佳实践

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选