Sidekiq项目中的任务重复执行问题分析与解决方案

2025-05-17 17:39:42作者：侯霆垣

问题背景

在Sidekiq项目中，当系统执行优雅关闭时，存在一个罕见的竞态条件可能导致任务被SuperFetch机制重复执行。这个现象会绕过Sidekiq的unique锁机制，造成任务重复执行的问题。该问题在Sidekiq 7.3.8版本中依然存在，发生概率约为每次关闭时的1%。

当Sidekiq进程收到关闭信号后，如果任务执行时间超过了优雅关闭的等待期，系统会强制终止任务。在这个过程中，可能会出现以下异常日志序列：

最终结果是同一个任务会被执行两次，尽管Sidekiq配置了unique锁。

经过深入分析，这个问题主要由以下几个因素共同导致：

资源分配失败：在进程关闭过程中，系统尝试创建新线程时抛出"can't alloc thread"错误。这通常表明系统资源（如文件描述符）耗尽，但检查发现资源限制设置合理。
DataDog统计指标收集：当Sidekiq进程开始关闭时，DataDog的统计模块尝试在at_exit处理程序中创建新线程来发送最终统计指标。此时Ruby已经不允许创建新线程，导致ThreadError异常。
异常处理链断裂：原本应该传播的Sidekiq::Shutdown异常被ThreadError覆盖，导致重试子系统错误地创建了任务重试项，从而产生任务副本。
时序竞态条件：在系统关闭的特定时序下，任务可能既被移回公共队列，又被标记为重试，造成两个任务副本。

针对这个问题，可以从以下几个方面进行解决：

DataDog配置优化：将DataDog Statsd客户端配置为单线程模式，避免在关闭过程中创建新线程：
```
Datadog::Statsd.new('localhost', 8125, single_thread: true)
```

中间件异常处理增强：修改统计中间件，确保在任务执行后的统计指标发送不会覆盖原有异常：

rescue => ex
  # 仅记录错误而不覆盖原有异常
  Sidekiq.logger.error("Failed to send metrics: #{ex.message}")
end

Sidekiq在关闭过程中的任务重复问题是一个复杂的竞态条件问题，涉及资源管理、异常处理和第三方库集成等多个方面。通过优化配置、增强异常处理和遵循任务设计最佳实践，可以显著降低问题发生概率。对于关键业务场景，建议采用多层防护措施，包括Sidekiq的unique锁、数据库事务和业务逻辑幂等设计。

记住，在分布式系统中，完全消除竞态条件是非常困难的，但通过系统设计和防御性编程，我们可以将风险降到最低。

登录后查看全文