Apache APISIX中Prometheus指标异常问题分析与解决

2025-05-15 00:22:15作者：廉皓灿Ida

The Cloud-Native API Gateway and AI Gateway

项目地址：https://gitcode.com/gh_mirrors/api/apisix

问题现象

在使用Helm Chart部署Apache APISIX 3.8.0版本于EKS环境时，发现当将APISIX的部署副本数从1扩展到10后，Prometheus监控指标出现异常增长，即使在没有实际流量负载的情况下，apisix_http_requests_total等指标也会持续上升。

环境配置

部署使用了以下关键配置：

APISIX Helm Chart版本：2.6.0
APISIX应用版本：3.8.0
启用了Prometheus插件
配置了ServiceMonitor用于Prometheus采集
资源限制为2CPU/2Gi内存

问题分析

通过监控图表可以观察到：

指标增长与APISIX实例数量呈正相关
在10个副本时指标值明显高于5个副本时
指标数据分布不均匀，部分Pod指标异常高（16万+），其他Pod则正常（200-300）

这种现象表明可能存在以下问题：

Prometheus插件配置不当导致内部请求被计入指标
健康检查或就绪探针请求被错误统计
指标标签缺失导致无法区分请求来源

解决方案

经过排查，最终通过调整Prometheus插件配置解决了问题。关键点包括：

优化Prometheus插件配置：确保只统计外部有效请求，排除内部健康检查等流量
检查指标标签：确认指标是否包含足够的信息来区分请求来源和类型
验证配置生效：修改后确认指标数据恢复正常分布

经验总结

在APISIX集群扩展时，需要注意：

监控指标的采集和统计方式
内部通信流量对指标的影响
指标标签的完整性和区分度

合理的Prometheus配置对于大规模部署APISIX至关重要，可以避免因内部通信或健康检查导致的指标污染，确保监控数据的准确性和可靠性。

The Cloud-Native API Gateway and AI Gateway

项目地址：https://gitcode.com/gh_mirrors/api/apisix

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

deepin linux kernel

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook