Linkerd2 使用外部 Prometheus 监控数据持久化实践

2025-05-21 15:26:00作者：齐添朝

背景介绍

在 Kubernetes 服务网格 Linkerd2 的监控方案中，可视化组件 linkerd-viz 默认会部署一个内置的 Prometheus 实例。然而，这个内置实例存在数据无法持久化的问题，当 Pod 重启后历史监控数据就会丢失。本文将详细介绍如何配置 Linkerd2 使用外部 Prometheus 实现监控数据的持久化存储。

核心问题分析

Linkerd2 的 linkerd-viz 组件提供了服务网格的可观测性功能，包括路由指标、服务拓扑等。这些功能依赖于 Prometheus 采集和存储的指标数据。默认情况下，linkerd-viz 会部署一个非持久化的 Prometheus 实例，这会导致：

历史监控数据无法保留
无法进行长期趋势分析
重启后所有指标数据丢失

解决方案实施

1. 部署外部 Prometheus

使用 Helm 部署一个持久化的 Prometheus 实例到 linkerd-viz 命名空间：

server:
  podAnnotations:
    linkerd.io/inject: enabled
  global:
    scrape_interval: 10s
    scrape_timeout: 10s
    evaluation_interval: 10s
  service:
    servicePort: 9090
  persistentVolume:
    size: 20Gi

serverFiles:
  prometheus.yml:
    scrape_configs:
    - job_name: 'linkerd-controller'
      kubernetes_sd_configs:
      - role: pod
        namespaces:
          names:
          - 'linkerd'
          - 'linkerd-viz'
      relabel_configs:
      - source_labels:
        - __meta_kubernetes_pod_container_port_name
        action: keep
        regex: admin-http
      - source_labels: [__meta_kubernetes_pod_container_name]
        action: replace
        target_label: component

    - job_name: 'linkerd-service-mirror'
      kubernetes_sd_configs:
      - role: pod
      relabel_configs:
      - source_labels:
        - __meta_kubernetes_pod_label_linkerd_io_control_plane_component
        - __meta_kubernetes_pod_container_port_name
        action: keep
        regex: linkerd-service-mirror;admin-http$
      - source_labels: [__meta_kubernetes_pod_container_name]
        action: replace
        target_label: component

    - job_name: 'linkerd-proxy'
      kubernetes_sd_configs:
      - role: pod
      relabel_configs:
      - source_labels:
        - __meta_kubernetes_pod_container_name
        - __meta_kubernetes_pod_container_port_name
        - __meta_kubernetes_pod_label_linkerd_io_control_plane_ns
        action: keep
        regex: ^linkerd-proxy;linkerd-admin;linkerd$
      - source_labels: [__meta_kubernetes_namespace]
        action: replace
        target_label: namespace
      - source_labels: [__meta_kubernetes_pod_name]
        action: replace
        target_label: pod
      - source_labels: [__meta_kubernetes_pod_label_linkerd_io_proxy_job]
        action: replace
        target_label: k8s_job
      - action: labeldrop
        regex: __meta_kubernetes_pod_label_linkerd_io_proxy_job
      - action: labelmap
        regex: __meta_kubernetes_pod_label_linkerd_io_proxy_(.+)
      - action: labeldrop
        regex: __meta_kubernetes_pod_label_linkerd_io_proxy_(.+)
      - action: labelmap
        regex: __meta_kubernetes_pod_label_linkerd_io_(.+)
      - action: labelmap
        regex: __meta_kubernetes_pod_label_(.+)
        replacement: __tmp_pod_label_$1
      - action: labelmap
        regex: __tmp_pod_label_linkerd_io_(.+)
        replacement:  __tmp_pod_label_$1
      - action: labeldrop
        regex: __tmp_pod_label_linkerd_io_(.+)
      - action: labelmap
        regex: __tmp_pod_label_(.+)

关键配置说明：

启用了持久化存储（20Gi）
配置了 Linkerd 特有的抓取规则
设置了合理的抓取间隔
确保服务端口与容器端口一致（9090）

2. 配置 Linkerd Viz 使用外部 Prometheus

修改 linkerd-viz 的 Helm 配置：

prometheus:
  enabled: false
  prometheusUrl: "http://prometheus-server.linkerd-viz.svc.cluster.local:9090"

3. 安全策略配置

为确保安全访问，需要配置适当的 Server 和 AuthorizationPolicy：

apiVersion: policy.linkerd.io/v1beta3
kind: Server
metadata:
  name: prometheus-server-admin
  namespace: linkerd-viz
spec:
  accessPolicy: deny
  podSelector:
    matchLabels:
      app.kubernetes.io/component: server
      app.kubernetes.io/instance: prometheus
      app.kubernetes.io/name: prometheus
  port: 9090
  proxyProtocol: HTTP/1

apiVersion: policy.linkerd.io/v1alpha1
kind: AuthorizationPolicy
metadata:
  name: prometheus-server-admin
  namespace: linkerd-viz
spec:
  requiredAuthenticationRefs:
  - kind: ServiceAccount
    name: metrics-api
    namespace: linkerd-viz
  targetRef:
    group: policy.linkerd.io
    kind: Server
    name: prometheus-server-admin

4. 扩展 MeshTLSAuthentication

更新 allow-viz 策略以包含 Prometheus 相关身份：

apiVersion: policy.linkerd.io/v1alpha1
kind: MeshTLSAuthentication
metadata:
  name: linkerd-viz
  namespace: linkerd-viz
spec:
  identities:
    - "tap.linkerd-viz.serviceaccount.identity.linkerd.cluster.local"
    - "prometheus.linkerd-viz.serviceaccount.identity.linkerd.cluster.local"
    - "prometheus-server.linkerd-viz.serviceaccount.identity.linkerd.cluster.local"