Apollo配置中心高可用集群性能问题分析与优化实践

2025-05-05 20:07:39作者：姚月梅Lane

项目地址：https://gitcode.com/gh_mirrors/ap/apollo

问题现象与背景

在Apollo配置中心的生产环境中，部署了两个Config Service节点构成高可用集群。当其中一个节点主动停止后，另一个原本正常的节点也变得不可用。重启停止的节点后，两个节点中仅有一个能够正常工作，且可用节点会在这两个节点间来回切换。不可用的节点所有API请求都会超时。

问题排查过程

通过分析发现，该问题与服务器性能直接相关。在增加一个实例后，系统状态明显改善。深入排查时发现：

资源监控数据：内存、CPU和GC日志表面看起来没有明显异常

JVM参数配置：

JAVA_OPTS="-Xms6144m -Xmx6144m -Xss256k -XX:MetaspaceSize=128m -XX:MaxMetaspaceSize=384m -XX:NewSize=4096m -XX:MaxNewSize=4096m -XX:SurvivorRatio=8"

连接数限制：Tomcat默认配置的最大连接数为10000

性能瓶颈分析

根据Apollo官方性能测试报告，单个Config Service节点在标准配置下可以支持约5600个客户端连接。但在实际生产环境中：

当单个实例的客户端连接数超过10000时（Tomcat默认限制），就会出现性能问题
高负载情况下，集群的故障转移机制可能无法正常工作
节点间的心跳检测和状态同步可能受到影响

优化建议与实践

1. 连接数优化

根据预估的客户端数量合理规划实例数量

调整Tomcat连接池参数：

server.tomcat.max-threads=...
server.tomcat.max-connections=...

2. JVM参数优化

针对高并发场景优化JVM参数：

-XX:ParallelGCThreads=...
-XX:ConcGCThreads=...
-XX:+UseG1GC

3. 集群部署建议

生产环境建议至少部署3个Config Service节点
监控每个节点的连接数，设置合理的告警阈值
定期进行压力测试，评估系统实际承载能力

经验总结

Apollo配置中心在高并发场景下的性能表现需要特别关注。运维团队应该：

建立完善的监控体系，实时跟踪连接数、响应时间等关键指标
根据业务增长趋势提前规划扩容方案
定期进行故障演练，验证集群的高可用性
参考官方性能测试报告，但需结合实际业务特点进行调整

通过这次问题排查，我们认识到配置中心的容量规划不能仅依赖默认配置，需要根据实际业务规模进行针对性优化，才能确保系统稳定可靠地运行。

apollo

项目地址：https://gitcode.com/gh_mirrors/ap/apollo

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解