Higress网关Prometheus监控指标采集问题分析与解决方案

2025-06-09 16:18:06作者：仰钰奇

问题背景

在使用Higress网关2.0.1及2.0.4版本时，用户发现通过Prometheus采集的监控数据中缺少关键的envoy_http_downstream_rq_total聚合指标，导致Grafana仪表板无法正常显示下游请求总量数据。这个问题影响了用户对网关整体流量的监控能力。

通过深入排查，我们发现以下关键现象：

指标缺失：在Prometheus采集的指标中，缺少了envoy_http_downstream_rq_total这一关键聚合指标，而只有细分的指标如envoy_http_outbound_0_0_0_0_80_downstream_rq_total等。
Envoy原始数据：直接查询Envoy的统计接口(/stats/prometheus)时，同样只看到细分的指标，没有聚合后的总请求量指标。
配置检查：检查Higress网关的Envoy配置(envoy-rev.json)发现，统计配置中虽然包含了丰富的标签提取规则，但缺少对下游请求总量的聚合配置。

经过技术分析，确定问题的根本原因是：

liteMetrics参数影响：Higress网关的global.liteMetrics参数默认关闭时，Envoy的指标统计配置中存在正则捕获问题，导致聚合指标无法正确生成。
指标命名规则：在默认配置下，Envoy生成的指标名称中包含了具体的监听地址(如outbound_0_0_0_0_80)，而没有自动聚合为统一的downstream_rq_total指标。

针对这个问题，我们提供两种解决方案：

通过修改Higress的Helm配置，启用liteMetrics参数：

helm upgrade higress --set global.liteMetrics=true

这个参数会优化指标采集方式，确保关键聚合指标能够正常生成。

等待Higress的下一个版本发布，该版本将修复正则捕获问题，使得无论liteMetrics参数如何设置，都能正确生成聚合指标。

在Envoy的统计系统中，指标可以通过多种方式聚合：

在本次问题中，正是由于标签提取和统计匹配器的配置问题，导致聚合指标未能正确生成。启用liteMetrics后，系统会使用更简单的统计配置，避免了复杂的正则匹配问题。

对于使用Higress网关并需要监控关键指标的用户，我们建议：

通过以上分析和解决方案，用户可以恢复对Higress网关下游请求总量的监控能力，确保对网关运行状况的全面掌握。

登录后查看全文