Argo Rollouts 1.7.1版本中副本集缩容异常问题分析

2025-06-27 19:59:46作者：沈韬淼Beryl

Progressive Delivery for Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ar/argo-rollouts

在Kubernetes渐进式交付工具Argo Rollouts从1.6.6升级到1.7.1版本后，用户报告了一个偶发性问题：在使用蓝绿部署策略时，旧的ReplicaSet有时无法按预期自动缩容，导致旧版本Pod持续运行。虽然流量正确地路由到了新版本，但资源浪费问题不容忽视。

问题现象

当用户执行蓝绿部署流程时，按照设计，新版本完成部署并经过验证后，旧版本的ReplicaSet应该在预设的时间后自动缩容。但在1.7.1版本中，这一机制出现了间歇性失效，表现为：

控制器正确设置了scale-down-deadline注解（默认为30秒后）
但在后续操作中，该注解被意外清空
导致旧ReplicaSet永远不会触发缩容操作

根本原因分析

通过审查控制器日志和代码变更，发现问题源于1.7.1版本引入的一个逻辑错误。在函数updateReplicaSetFallbackToPatch中，处理scale-down-deadline注解时错误地从Labels而非Annotations中取值：

if _, found := rs.Annotations[v1alpha1.DefaultReplicaSetScaleDownDeadlineAnnotationKey]; found {
    patchRS.Annotations[v1alpha1.DefaultReplicaSetScaleDownDeadlineAnnotationKey] = rs.Labels[v1alpha1.DefaultReplicaSetScaleDownDeadlineAnnotationKey]
}

这段代码本意是保留原有的缩容截止时间，但由于错误地从Labels字典取值（实际上该值存储在Annotations中），导致最终写入了一个空字符串，从而取消了缩容计划。

问题影响

该缺陷会导致以下后果：

资源浪费：旧版本Pod持续运行占用集群资源
版本混乱：虽然流量路由正确，但运维人员可能被运行中的旧版本Pod误导
部署历史堆积：随着多次部署，未缩容的ReplicaSet会不断累积

解决方案

该问题已在后续版本中修复，修复方案非常简单：将错误的rs.Labels引用改为正确的rs.Annotations。对于遇到此问题的用户，建议：

升级到包含修复的版本
临时解决方案：手动删除旧的ReplicaSet或将其副本数设为0
检查所有蓝绿部署，确认旧版本是否已正确缩容

经验教训

这个案例展示了注解(Annotations)和标签(Labels)混淆可能带来的问题。在Kubernetes生态中：

标签(Labels)用于标识和选择资源
注解(Annotations)用于存储非标识性元数据

开发者在处理这两种元数据时需要格外小心，类似的类型混淆可能导致难以追踪的间歇性故障。这也说明了在变更涉及核心流程的代码时，需要增加充分的测试用例，特别是对于并发修改场景的测试。

Progressive Delivery for Kubernetes

项目地址：https://gitcode.com/GitHub_Trending/ar/argo-rollouts

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库