Rancher项目中Backoff算法导致的Pod崩溃问题分析

2025-05-08 02:07:15作者：韦蓉瑛

问题背景

在Rancher 2.10.2版本中，发现了一个导致Rancher pod崩溃的严重问题。该问题源于一个计算重试间隔时间(backoff)的函数实现缺陷，当函数接收到某些特定参数时会导致panic。

技术细节

问题的核心在于calculateBackoff函数中的随机数生成逻辑。原始实现如下：

backoff := time.Duration(temp*(1-0.2)) + time.Duration(rand.Int63n(int64(2*0.2*temp)))

这段代码存在两个潜在风险：

当2*0.2*temp计算结果为负数或零时，rand.Int63n()函数会panic
当temp值在0到2.5之间时，计算结果可能产生不合理的值

问题复现与验证

虽然这个问题难以稳定复现（因为它依赖于随机数生成），但通过边界值分析可以确认其存在性。测试团队使用以下参数范围进行了验证：

MinWait输入范围：0到1，步长0.01
NumberOfRetries输入范围：0到10

测试结果表明，在某些参数组合下确实会产生非法值。

解决方案

经过多次讨论和验证，最终确定了两个阶段的修复方案：

第一阶段修复

jitter := int64(math.Max(1, 2*0.2*temp))
backoff := time.Duration(temp*(1-0.2)) + time.Duration(rand.Int63n(jitter))

这个修复确保了jitter值至少为1，避免了rand.Int63n()接收非法参数。

第二阶段增强修复

在发现第一阶段修复不完全后，增加了对temp值溢出的处理：

if temp > math.MaxInt64 {
    temp = math.MaxInt64 / 3
}
jitter := int64(2 * 0.2 * temp)
if jitter <= 0 {
    jitter = 1
}

这个增强修复解决了两个问题：

处理了temp值可能溢出int64范围的情况
显式检查并处理jitter为0或负数的情况

测试验证

修复后的代码通过了严格的测试验证，包括：

边界值测试：MinWait从10到30，重试次数高达1000次
单元测试覆盖多种场景：
- 初始重试
- 第二次重试
- 第三次重试
- 大量重试(100次)
- 极大量重试(10000次)

测试结果表明，修复后的代码在各种极端情况下都能稳定运行，不再出现panic。

总结

这个案例展示了在分布式系统中处理重试逻辑时需要特别注意的几个方面：

随机数生成必须确保参数合法
数值计算需要考虑边界条件和溢出情况
重试机制需要经过严格的边界值测试
修复方案可能需要多次迭代才能完全解决问题

Rancher团队通过这个问题不仅修复了一个具体bug，也增强了代码的健壮性，为系统的稳定运行提供了更好保障。

rancher

Complete container management platform

项目地址：https://gitcode.com/GitHub_Trending/ra/rancher

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Rust

578

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java