Apache APISIX Prometheus插件在高负载场景下的CPU异常问题分析

2025-05-15 06:54:19作者：胡唯隽

Apache APISIX作为云原生API网关，其性能表现直接影响整个系统的稳定性。近期在Kubernetes环境中部署APISIX 3.8.0版本时，发现了一个值得关注的性能问题：当启用Prometheus插件后，在高并发测试场景下会出现CPU持续满载的异常现象。

问题现象

在Kubernetes集群中部署的APISIX实例配置为4核CPU和8GB内存的资源限制。当启用Prometheus监控插件并进行压力测试时，即使测试结束后，APISIX Pod的CPU使用率仍会保持100%的高负载状态，必须通过删除Pod才能恢复正常。

通过对比测试发现，在不启用Prometheus插件的情况下，相同的测试条件可以达到12429.77 QPS的高吞吐量，而启用插件后性能骤降至仅18.69 QPS，差距显著。

问题复现与验证

使用wrk工具模拟高并发场景进行测试验证：

wrk -t8 -c500 -d60s -s ./get.lua http://10.252.228.254:61160/infra/health/ping

测试结果显示：

启用Prometheus插件时：18.69请求/秒，CPU持续满载
禁用Prometheus插件时：12429.77请求/秒，CPU表现正常

技术分析

Prometheus插件作为APISIX的核心监控组件，其设计初衷是提供丰富的指标数据采集功能。但在实际使用中，特别是在高并发场景下，可能存在以下潜在问题：

指标收集开销：插件需要对每个请求进行指标统计和记录，这会增加额外的CPU计算负担
内存分配压力：大量并发请求会导致临时指标数据的内存分配频繁
锁竞争问题：多worker进程间共享指标数据可能引发锁竞争
指标聚合成本：Prometheus格式的指标需要定期聚合计算

解决方案建议

针对这一问题，可以考虑以下优化方向：

调整采样率：对于高流量场景，可配置采样率降低指标收集频率
优化插件配置：精简收集的指标数量，只保留关键业务指标
资源隔离：为Prometheus插件分配独立的worker或线程
版本升级：检查新版本是否已修复类似性能问题
监控策略优化：考虑使用批处理方式上报指标，而非实时处理

总结

APISIX的Prometheus插件在高并发场景下可能成为性能瓶颈，这提醒我们在生产环境启用监控功能时需要谨慎评估性能影响。建议在实际部署前进行充分的压力测试，根据业务特点合理配置监控策略，在可观测性和性能之间找到平衡点。

对于关键业务系统，可以考虑采用渐进式策略：先在小规模流量下验证监控组件的性能表现，确认无异常后再逐步扩大监控范围。同时，保持对APISIX新版本的关注，及时获取性能优化改进。

apisix

Apisix是一个基于Nginx的API网关，主要用于微服务架构中的API管理和服务发现。它的特点是高性能、轻量级、易于配置等。适用于API管理和负载均衡场景。

项目地址：https://gitcode.com/gh_mirrors/api/apisix

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

185

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.35 K

758