NATS JetStream 2.10.25版本中消息保留问题的分析与解决

2025-05-13 06:36:34作者：胡易黎Nicole

在分布式消息系统中，消息的可靠处理和及时清理是保证系统稳定运行的关键因素。本文将深入分析NATS JetStream消息系统中一个典型的消息保留问题，探讨其根本原因，并提供有效的解决方案。

问题现象

在NATS JetStream从2.10.24升级到2.10.25版本后，用户发现一个异常现象：即使消息已经被消费者确认(ACK)，这些消息仍然保留在流(Stream)中，没有被及时清理。这个问题在使用兴趣保留策略(Interest Retention Policy)的流中尤为明显。

具体表现为：

流中消息数量持续增长，远超预期
消费者确认的消息未被及时删除
重启消费者应用后，积压的消息会被快速处理并清理，但随后问题会再次出现

环境与配置

问题出现在以下典型配置环境中：

使用文件存储的JetStream流
兴趣保留策略(Retention: Interest)
显式确认机制(Ack Policy: Explicit)
多个活跃的消费者
高吞吐量的消息处理场景

流的典型配置如下：

Retention: Interest
Acknowledgments: true
Discard Policy: Old
Maximum Bytes: 1000 MiB
Maximum Age: 30d

问题分析

通过深入调查，我们发现这个问题与消息确认的处理方式密切相关。在用户的原始实现中，采用了以下处理逻辑：

接收到消息后，启动一个独立的goroutine处理异步发布
在该goroutine中等待发布结果
根据发布结果决定是确认(ACK)还是否定确认(NACK)原始消息

这种实现方式存在几个潜在问题：

并发控制不足：独立的goroutine可能导致确认消息的顺序与处理顺序不一致
资源泄漏风险：在高负载情况下，goroutine可能无法及时完成
与JetStream内部机制的交互问题：异步确认可能干扰JetStream的消息清理逻辑

根本原因

问题的根本原因在于消息确认的处理时机和方式。在JetStream 2.10.25版本中，对消息确认机制进行了优化和改进，这使得之前可能被容忍的实现方式不再适用。

具体来说，当满足以下条件时，问题更容易出现：

高消息吞吐量
异步确认处理
多个消费者同时工作
使用流备份和恢复操作

解决方案

经过验证，我们推荐以下解决方案：

同步处理确认：避免在独立goroutine中处理消息确认，改为在主处理流程中同步处理
简化确认逻辑：将复杂的异步确认流程改为更直接的同步确认
优化错误处理：确保所有错误路径都有适当的确认处理

改进后的核心处理逻辑如下：

for {
    select {
    case receivedCtx := <-processChannel:
        // 消息处理逻辑...
        
        // 同步发布和确认
        ack, err := egressStream.PublishAsync(pushSubject, data)
        if err != nil {
            // 错误处理并NACK
            receivedCtx.NatsMsg.NakWithDelay(ackTimeout)
            continue
        }

        // 同步等待发布结果
        select {
        case <-ack.Ok():
            receivedCtx.NatsMsg.Ack()
        case <-ack.Err():
            receivedCtx.NatsMsg.NakWithDelay(ackTimeout)
        case <-time.After(ackTimeout + time.Second):
            receivedCtx.NatsMsg.NakWithDelay(ackTimeout)
        }
    }
}