Sidekiq-Ent并发限流器异常分析：并发数归零问题

2025-05-17 23:13:26作者：傅爽业Veleda

问题背景

在分布式任务处理系统中，Sidekiq作为Ruby生态中最受欢迎的异步任务处理框架之一，其企业版(Sidekiq-Ent)提供了强大的并发限流功能。然而，在实际生产环境中，我们遇到了一个罕见的异常情况：并发限流器的并发数(size)意外归零，导致整个集群的任务处理陷入停滞状态。

生产环境中的Sidekiq集群突然出现大量任务处理失败的情况。通过监控系统发现，原本设置为1的并发限流器(size=1)意外变成了0。这种状态下，所有尝试获取限流器资源的任务都会失败，而不是预期的等待或抛出限流异常。

更具体地观察发现：

当并发数被错误设置为0时，系统抛出的是RedisClient::ReadTimeoutError异常，而非预期的Sidekiq::Limiter::OverLimit异常
问题具有全局性，一旦出现会影响所有工作节点
仅需重启单个工作节点即可恢复整个集群的正常运行

Sidekiq-Ent的并发限流器通过Redis实现分布式协调，主要依赖三个关键Redis键：

当开发者设置并发数为1时，系统会初始化这些键值，确保在任何时刻最多只有一个任务能够获取到执行权限。

在正常情况下，当并发数被设置为0时，系统应该立即返回OverLimit异常，表示无法获取执行权限。然而在某些版本的Sidekiq-Ent(如7.0.6)中，却出现了Redis读取超时的异常。

这种差异表明在低版本中存在以下问题：

通过版本对比测试发现：

这表明该问题在后续版本中已被修复，升级是解决此问题的最佳方案。

版本升级：立即升级到Sidekiq-Ent 7.0.7或更高版本，确保边界条件得到正确处理
防御性编程：在初始化限流器时增加参数校验，避免并发数被设置为0
```
raise ArgumentError, "Concurrency size must be positive" if size <= 0
```
监控增强：对限流器的关键指标(lmtr-cfree等)进行监控，设置异常告警阈值
优雅降级：在限流器异常时考虑实现降级逻辑，如记录日志后跳过限流检查
定期维护：建立定期重启工作节点的机制，避免长时间运行可能积累的状态问题