higress监控体系详解：Prometheus+Grafana可视化关键指标

2026-02-05 04:30:20作者：谭伦延

你是否还在为云原生网关的性能监控发愁？面对海量请求数据，如何快速定位瓶颈、优化服务质量？本文将详细介绍Higress网关的监控体系，通过Prometheus+Grafana实现关键指标的可视化，帮助你轻松掌握网关运行状态，及时发现并解决问题。读完本文，你将了解Higress监控架构、核心监控指标、Prometheus配置方法以及Grafana仪表盘的使用，让网关监控变得简单高效。

Higress监控架构概述

Higress作为下一代云原生网关，基于Envoy和Istio构建，其监控体系充分利用了两者的监控能力，并结合自身特点进行了优化。Higress的监控架构主要包括指标采集、存储和可视化三个部分，通过Prometheus采集Envoy和Higress自身的指标，再由Grafana进行可视化展示，形成完整的监控闭环。

Higress的核心组件包括Higress Controller（控制器）、Higress Gateway（网关）和Higress Console（控制台）。其中，Higress Gateway基于Envoy实现，Envoy本身提供了丰富的Prometheus指标，Higress在此基础上增加了自定义指标，以便更全面地监控网关运行状态。Higress Controller负责管理配置和服务发现，其运行状态也会通过指标暴露给Prometheus。

核心监控指标解析

Higress的监控指标主要分为Envoy原生指标和Higress自定义指标两大类，涵盖了流量、连接、延迟、错误等多个维度，帮助用户全面了解网关性能。

Envoy原生指标

Envoy作为数据面代理，提供了大量基础指标，以下是一些关键指标：

指标名称	描述	单位
envoy_http_downstream_rq_total	下游HTTP请求总数	个
envoy_http_downstream_rq_xx_xx	不同状态码的请求数，如envoy_http_downstream_rq_2xx	个
envoy_http_downstream_rq_time	请求处理时间分布	毫秒
envoy_tcp_downstream_cx_total	下游TCP连接总数	个
envoy_tcp_downstream_cx_active	当前活跃的下游TCP连接数	个

这些指标可以帮助用户了解请求量、连接数、延迟分布等基本情况，是监控网关性能的基础。

Higress自定义指标

Higress在Envoy指标的基础上，增加了一些自定义指标，以更好地反映网关的业务特性和运行状态，例如：

higress_ingress_controller_reconcile_count：Ingress资源同步次数，反映控制器的工作状态。
higress_wasm_plugin_execution_time：Wasm插件执行时间，用于评估插件性能影响。
higress_cert_server_renewal_count：证书自动续签次数，监控证书管理状态。

这些自定义指标由Higress Controller和Higress Gateway暴露，通过Prometheus采集后，可以更深入地了解Higress的内部运行情况。

Prometheus配置与指标采集

要实现Higress指标的采集，需要正确配置Prometheus，使其能够发现并拉取Higress Gateway和Higress Controller的指标。Higress提供了默认的Prometheus配置示例，用户可以根据实际环境进行调整。

配置Prometheus抓取规则

在Prometheus的配置文件中，添加以下job配置，用于抓取Higress Gateway的指标：

scrape_configs:
  - job_name: 'higress-gateway'
    kubernetes_sd_configs:
      - role: pod
    relabel_configs:
      - source_labels: [__meta_kubernetes_pod_label_app]
        regex: higress-gateway
        action: keep
      - source_labels: [__meta_kubernetes_pod_container_port_name]
        regex: http-prom
        action: keep
      - target_label: __metrics_path__
        replacement: /stats/prometheus

上述配置通过Kubernetes的服务发现功能，自动发现Higress Gateway的Pod，并抓取其8080端口上的/stats/prometheus端点暴露的指标。

对于Higress Controller，同样需要添加相应的抓取配置：

  - job_name: 'higress-controller'
    kubernetes_sd_configs:
      - role: pod
    relabel_configs:
      - source_labels: [__meta_kubernetes_pod_label_app]
        regex: higress-controller
        action: keep
      - source_labels: [__meta_kubernetes_pod_container_port_name]
        regex: http-prom
        action: keep
      - target_label: __metrics_path__
        replacement: /metrics

Higress Controller的指标通过/metrics端点暴露，Prometheus将定期拉取这些指标并存储。

指标暴露配置

Higress Gateway和Controller的指标暴露通过配置文件控制，用户可以在Higress的全局配置中调整指标暴露参数。例如，在higress-config ConfigMap中，可以设置指标暴露的端口和路径：

apiVersion: v1
kind: ConfigMap
metadata:
  name: higress-config
  namespace: higress-system
data:
  mesh: |-
    statsConfig:
      statsCollectionDuration: 10s
      enabledCategories:
        - http
        - tcp
        - upstream
        - downstream

上述配置设置了指标采集的时间间隔和启用的指标类别，用户可以根据需求进行调整。

Grafana仪表盘与可视化

Prometheus采集到指标后，需要通过Grafana进行可视化展示。Higress提供了预定义的Grafana仪表盘模板，用户可以直接导入使用，快速搭建监控面板。

导入Higress仪表盘

Higress的Grafana仪表盘JSON文件可以在项目的docs目录下找到，例如grafana-dashboard.json。导入方法如下：

登录Grafana控制台，进入"Dashboard"页面。
点击"Import"按钮，上传Higress的仪表盘JSON文件。
选择数据源为Prometheus，完成导入。

导入后，用户将看到包含多个面板的仪表盘，涵盖流量 overview、延迟分析、错误统计、连接监控等多个维度。

关键面板解析

Higress的Grafana仪表盘包含多个面板，以下是一些重要面板的功能介绍：

流量概览：展示总请求数、QPS、流量趋势等，帮助用户快速了解网关的整体负载情况。
延迟分布：展示不同分位的请求延迟（如P50、P90、P99），反映服务响应速度。
错误统计：按状态码展示错误请求数和错误率，及时发现服务异常。
连接监控：展示TCP连接数、活跃连接数等，监控连接性能。
Wasm插件监控：展示Wasm插件的执行时间、调用次数等，评估插件对性能的影响。

通过这些面板，用户可以全面监控网关的运行状态，及时发现潜在问题。例如，当错误率突然升高时，结合延迟分布和流量趋势，可以快速定位是后端服务异常还是网关配置问题。

监控最佳实践与进阶配置

为了充分发挥Higress监控体系的作用，用户还需要注意一些最佳实践和进阶配置，确保监控的准确性和有效性。

指标存储与 retention 策略

Prometheus的指标存储默认保存在本地磁盘，为了避免磁盘空间不足，需要合理配置数据retention策略。例如，在Prometheus启动参数中设置--storage.tsdb.retention.time=15d，保留15天的数据。对于大规模部署，建议使用远程存储（如Thanos、Cortex）扩展存储能力。

告警规则配置

除了可视化，监控的另一个重要功能是告警。用户可以基于Prometheus的指标配置告警规则，当指标超过阈值时触发告警。例如，配置以下规则监控5xx错误率：

groups:
- name: higress-alerts
  rules:
  - alert: HighErrorRate
    expr: sum(rate(envoy_http_downstream_rq_5xx[5m])) / sum(rate(envoy_http_downstream_rq_total[5m])) > 0.01
    for: 3m
    labels:
      severity: critical
    annotations:
      summary: "High 5xx error rate"
      description: "5xx error rate is {{ $value | humanizePercentage }} for the last 3 minutes"