NATS服务器集群中JetStream性能瓶颈导致服务中断问题分析

2025-05-13 07:44:55作者：彭桢灵Jeremy

NATS是一个高性能、轻量级的发布-订阅消息系统，用于构建分布式系统和服务。 - 功能：消息发布-订阅；分布式系统通信；实时数据传输。 - 特点：高性能；轻量级；易于使用；支持多种编程语言。

项目地址：https://gitcode.com/GitHub_Trending/na/nats-server

问题现象

在NATS服务器(v2.10.12)集群环境中，当MQTT客户端连接数超过2万时，集群中某个节点突然出现服务中断。监控数据显示CPU空闲率急剧下降，所有MQTT客户端无法建立新连接，已建立的连接也无法正常收发数据。特别值得注意的是，当问题节点停止后，其他节点可能恢复正常服务能力。

根本原因分析

通过对日志和系统行为的深入分析，发现问题核心在于JetStream子系统的高延迟响应：

JetStream请求队列堆积 日志中频繁出现"JetStream request queue has high pending count"警告，表明JetStream API处理请求的速度远低于请求到达速度，导致请求积压。
系统资源过载 当MQTT连接数超过2万时，系统内存和CPU资源可能达到瓶颈。JetStream作为持久化层，其内存消耗会随着消息堆积而增长，最终可能导致OOM(内存溢出)错误。
集群级联影响 问题节点的性能下降会通过集群通信机制影响其他节点，特别是在处理需要共识的操作时，慢节点会拖累整个集群的响应速度。

技术细节

JetStream是NATS的持久化引擎，采用Raft协议实现数据一致性。当系统负载过高时：

每个JetStream操作都需要在集群节点间达成共识
高延迟的节点会阻塞Raft协议的推进
最终导致所有依赖JetStream的服务(包括MQTT桥接)出现超时

解决方案建议

容量规划

根据业务需求合理规划JetStream存储大小
对预期连接数和消息吞吐量进行压力测试
考虑使用垂直扩展(提升单节点配置)或水平扩展(增加节点数)

监控与告警

实现针对JetStream队列深度的监控
设置内存使用率的告警阈值
监控Raft协议的执行延迟

配置优化

调整JetStream的内存限制参数
优化Raft选举超时等集群参数
考虑使用分层存储策略减轻内存压力

架构改进

对于纯MQTT场景，评估是否需要JetStream的全部功能
考虑将MQTT网关与核心消息路由分层部署
实现自动化的弹性伸缩机制

经验总结

分布式消息系统在实现高可用性时，需要特别注意子系统间的性能影响。JetStream虽然提供了强大的持久化能力，但也引入了新的复杂性。在实际部署中，应该：

充分理解各组件的工作原理和资源需求
建立完善的容量模型和监控体系
设计优雅降级机制，确保核心功能在子系统故障时仍能维持基本服务

这个问题也提醒我们，在云原生环境下，单纯的软件升级不能解决所有性能问题，必须结合合理的架构设计和运维实践才能构建真正可靠的消息系统。

NATS是一个高性能、轻量级的发布-订阅消息系统，用于构建分布式系统和服务。 - 功能：消息发布-订阅；分布式系统通信；实时数据传输。 - 特点：高性能；轻量级；易于使用；支持多种编程语言。

项目地址：https://gitcode.com/GitHub_Trending/na/nats-server

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统