NATS服务器中消费者消息丢失问题的分析与解决

2025-05-13 17:16:00作者：胡唯隽

在分布式消息系统NATS的最新版本中，开发人员发现了一个关于消费者消息处理的严重问题。本文将深入分析该问题的表现、成因以及最终的解决方案。

问题现象

在NATS 2.10.17和2.10.18版本中，当使用特定配置的流和消费者时，系统会出现消息丢失的情况。具体表现为：

一个工作队列流(TEST_WORKQUEUE)初始包含130,000条消息
消费者处理这些消息后，理论上应该全部返回到原始队列
但在问题版本中，最终队列中消息数量经常少于130,000条
在2.10.12版本中则表现正常

技术背景

该问题涉及NATS的几个核心概念：

流(Stream)：NATS中的持久化消息存储机制
消费者(Consumer)：从流中读取消息的客户端
消息确认(Ack)：消费者处理完消息后向服务器确认的机制
重试机制(NakWithDelay)：消费者可以请求服务器延迟后重新投递消息

问题复现

开发人员提供了一个详细的测试用例来复现该问题：

创建两个流：TEST_WORKQUEUE和TEST_ACTIVE_WORK_ITEMS
TEST_WORKQUEUE初始填充130,000条消息
消费者从TEST_WORKQUEUE获取100,000条消息并发布到TEST_ACTIVE_WORK_ITEMS
每个活跃工作项设置30秒的过期时间
当工作项过期时，消费者将其ID重新发布回TEST_WORKQUEUE

在正常情况下，当所有消费者确认处理完成后，TEST_WORKQUEUE应该恢复130,000条消息的原始状态。但在问题版本中，经常出现消息数量不足的情况。

问题分析

经过技术团队的深入调查，发现问题源于一个特定的代码变更。在PR #5577中引入的修改影响了消息过滤逻辑：

新增的checkSkipFirstBlock函数缺少对空过滤器的检查
而原先的numFilteredPending函数会进行这种检查
这种差异导致在某些情况下消息被错误地跳过

解决方案

技术团队提出了修复方案：

在checkSkipFirstBlock函数中添加对空过滤器的检查
确保过滤逻辑与原先的numFilteredPending函数行为一致

该修复已通过测试验证，解决了消息丢失的问题。不过值得注意的是，在某些极端情况下，类似的问题可能仍会出现，这提示我们需要对消息过滤机制进行更全面的审视。

最佳实践建议

基于此问题的经验，建议NATS用户：

在生产环境中部署新版本前进行充分的测试
实现消息处理的监控机制，及时发现异常
对于关键业务流，考虑添加校验机制确保消息完整性
定期检查NATS的更新日志，了解已知问题和修复

这个问题展示了即使在成熟的消息系统中，细微的代码变更也可能导致显著的行为差异。NATS团队对此问题的快速响应和解决体现了该项目对可靠性的重视。

nats-server

项目地址：https://gitcode.com/GitHub_Trending/na/nats-server

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781