VerneMQ集群节点故障导致集群重启问题分析

2025-06-25 07:56:00作者：牧宁李

A distributed MQTT message broker based on Erlang/OTP. Built for high quality & Industrial use cases. The VerneMQ mission is active & the project maintained. Thank you for your support!

项目地址：https://gitcode.com/gh_mirrors/ve/vernemq

问题背景

在使用VerneMQ 2.0.0版本构建的3节点集群环境中，当进行MQTT连接数压力测试时，发现一个节点出现异常后会导致整个集群重启。具体表现为某个节点突然出现JSON解析错误，随后集群无法维持正常运行状态。

问题现象

在压力测试过程中，其中一个节点(vernemq-1)突然出现"parse error: Invalid numeric literal at line 1, column 4"错误。该错误源自jq工具解析JSON数据失败，随后导致该节点无法正常工作。集群中的其他节点(vernemq-0和vernemq-2)因无法与该节点建立连接，最终触发了整个集群的重启。

技术分析

通过对日志和配置的深入分析，发现问题根源在于Kubernetes环境中的DNS服务异常：

错误本质：表面上看是jq工具解析JSON数据失败，但实际上是由于底层DNS服务不可用导致的连锁反应。
关键脚本：VerneMQ启动脚本中包含了通过curl访问Kubernetes API获取集群信息的逻辑，当CoreDNS服务不可用时，curl请求失败返回非JSON格式数据，导致jq解析失败。
集群稳定性：虽然配置了网络分区容忍参数(ALLOW_REGISTER_DURING_NETSPLIT等)，但节点故障处理机制仍有优化空间，单个节点故障不应导致整个集群重启。

解决方案

DNS服务监控：加强对Kubernetes CoreDNS服务的监控，确保其高可用性。
脚本健壮性增强：
- 在curl请求前增加DNS解析检查
- 添加jq解析失败时的优雅降级处理
- 实现请求重试机制

集群配置优化：

additionalEnv:
  - name: DOCKER_VERNEMQ_DISCOVERY_NODE
    value: "manual"
  - name: DOCKER_VERNEMQ_NODES
    value: "vernemq@vernemq-0,vernemq@vernemq-1,vernemq@vernemq-2"

通过显式指定节点列表，减少对动态发现的依赖。

容器构建优化：在Dockerfile中加入对基础服务的健康检查，确保依赖服务可用后再启动应用。

经验总结

分布式系统中，基础服务的稳定性至关重要，特别是DNS这类基础设施。
生产环境中，应该对关键脚本增加错误处理和日志记录，便于快速定位问题。
VerneMQ集群配置应尽量采用显式声明方式，减少对动态发现的依赖，提高稳定性。
压力测试是发现系统脆弱点的有效手段，应该在测试环境中充分模拟各种异常情况。

通过这次问题排查，我们不仅解决了具体的集群稳定性问题，也为后续构建高可用的VerneMQ集群积累了宝贵经验。在实际生产环境中，建议结合监控告警系统，对集群状态进行全方位监控，确保MQTT服务的高可用性。

vernemq

A distributed MQTT message broker based on Erlang/OTP. Built for high quality & Industrial use cases. The VerneMQ mission is active & the project maintained. Thank you for your support!

项目地址：https://gitcode.com/gh_mirrors/ve/vernemq

登录后查看全文

VerneMQ集群节点故障导致集群重启问题分析

问题背景

问题现象

技术分析

解决方案

经验总结

热门内容推荐

最新内容推荐

项目优选

VerneMQ集群节点故障导致集群重启问题分析

问题背景

问题现象

技术分析

解决方案

经验总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选