首页
/ Linkerd2 使用外部 Prometheus 监控数据持久化实践

Linkerd2 使用外部 Prometheus 监控数据持久化实践

2025-05-21 00:06:02作者:齐添朝

背景介绍

在 Kubernetes 服务网格 Linkerd2 的监控方案中,可视化组件 linkerd-viz 默认会部署一个内置的 Prometheus 实例。然而,这个内置实例存在数据无法持久化的问题,当 Pod 重启后历史监控数据就会丢失。本文将详细介绍如何配置 Linkerd2 使用外部 Prometheus 实现监控数据的持久化存储。

核心问题分析

Linkerd2 的 linkerd-viz 组件提供了服务网格的可观测性功能,包括路由指标、服务拓扑等。这些功能依赖于 Prometheus 采集和存储的指标数据。默认情况下,linkerd-viz 会部署一个非持久化的 Prometheus 实例,这会导致:

  1. 历史监控数据无法保留
  2. 无法进行长期趋势分析
  3. 重启后所有指标数据丢失

解决方案实施

1. 部署外部 Prometheus

使用 Helm 部署一个持久化的 Prometheus 实例到 linkerd-viz 命名空间:

server:
  podAnnotations:
    linkerd.io/inject: enabled
  global:
    scrape_interval: 10s
    scrape_timeout: 10s
    evaluation_interval: 10s
  service:
    servicePort: 9090
  persistentVolume:
    size: 20Gi

serverFiles:
  prometheus.yml:
    scrape_configs:
    - job_name: 'linkerd-controller'
      kubernetes_sd_configs:
      - role: pod
        namespaces:
          names:
          - 'linkerd'
          - 'linkerd-viz'
      relabel_configs:
      - source_labels:
        - __meta_kubernetes_pod_container_port_name
        action: keep
        regex: admin-http
      - source_labels: [__meta_kubernetes_pod_container_name]
        action: replace
        target_label: component

    - job_name: 'linkerd-service-mirror'
      kubernetes_sd_configs:
      - role: pod
      relabel_configs:
      - source_labels:
        - __meta_kubernetes_pod_label_linkerd_io_control_plane_component
        - __meta_kubernetes_pod_container_port_name
        action: keep
        regex: linkerd-service-mirror;admin-http$
      - source_labels: [__meta_kubernetes_pod_container_name]
        action: replace
        target_label: component

    - job_name: 'linkerd-proxy'
      kubernetes_sd_configs:
      - role: pod
      relabel_configs:
      - source_labels:
        - __meta_kubernetes_pod_container_name
        - __meta_kubernetes_pod_container_port_name
        - __meta_kubernetes_pod_label_linkerd_io_control_plane_ns
        action: keep
        regex: ^linkerd-proxy;linkerd-admin;linkerd$
      - source_labels: [__meta_kubernetes_namespace]
        action: replace
        target_label: namespace
      - source_labels: [__meta_kubernetes_pod_name]
        action: replace
        target_label: pod
      - source_labels: [__meta_kubernetes_pod_label_linkerd_io_proxy_job]
        action: replace
        target_label: k8s_job
      - action: labeldrop
        regex: __meta_kubernetes_pod_label_linkerd_io_proxy_job
      - action: labelmap
        regex: __meta_kubernetes_pod_label_linkerd_io_proxy_(.+)
      - action: labeldrop
        regex: __meta_kubernetes_pod_label_linkerd_io_proxy_(.+)
      - action: labelmap
        regex: __meta_kubernetes_pod_label_linkerd_io_(.+)
      - action: labelmap
        regex: __meta_kubernetes_pod_label_(.+)
        replacement: __tmp_pod_label_$1
      - action: labelmap
        regex: __tmp_pod_label_linkerd_io_(.+)
        replacement:  __tmp_pod_label_$1
      - action: labeldrop
        regex: __tmp_pod_label_linkerd_io_(.+)
      - action: labelmap
        regex: __tmp_pod_label_(.+)

关键配置说明:

  1. 启用了持久化存储(20Gi)
  2. 配置了 Linkerd 特有的抓取规则
  3. 设置了合理的抓取间隔
  4. 确保服务端口与容器端口一致(9090)

2. 配置 Linkerd Viz 使用外部 Prometheus

修改 linkerd-viz 的 Helm 配置:

prometheus:
  enabled: false
  prometheusUrl: "http://prometheus-server.linkerd-viz.svc.cluster.local:9090"

3. 安全策略配置

为确保安全访问,需要配置适当的 Server 和 AuthorizationPolicy:

apiVersion: policy.linkerd.io/v1beta3
kind: Server
metadata:
  name: prometheus-server-admin
  namespace: linkerd-viz
spec:
  accessPolicy: deny
  podSelector:
    matchLabels:
      app.kubernetes.io/component: server
      app.kubernetes.io/instance: prometheus
      app.kubernetes.io/name: prometheus
  port: 9090
  proxyProtocol: HTTP/1

apiVersion: policy.linkerd.io/v1alpha1
kind: AuthorizationPolicy
metadata:
  name: prometheus-server-admin
  namespace: linkerd-viz
spec:
  requiredAuthenticationRefs:
  - kind: ServiceAccount
    name: metrics-api
    namespace: linkerd-viz
  targetRef:
    group: policy.linkerd.io
    kind: Server
    name: prometheus-server-admin

4. 扩展 MeshTLSAuthentication

更新 allow-viz 策略以包含 Prometheus 相关身份:

apiVersion: policy.linkerd.io/v1alpha1
kind: MeshTLSAuthentication
metadata:
  name: linkerd-viz
  namespace: linkerd-viz
spec:
  identities:
    - "tap.linkerd-viz.serviceaccount.identity.linkerd.cluster.local"
    - "prometheus.linkerd-viz.serviceaccount.identity.linkerd.cluster.local"
    - "prometheus-server.linkerd-viz.serviceaccount.identity.linkerd.cluster.local"

验证与调试

完成配置后,需要进行以下验证:

  1. 检查 Prometheus 目标状态是否健康
  2. 确认 linkerd viz dashboard 显示正常
  3. 测试 linkerd viz routes 命令功能
  4. 检查各组件日志是否有错误

常见问题排查点:

  • Prometheus 配置必须放在 serverFiles 下而非 server
  • 确保服务端口配置正确
  • 检查网络策略是否允许必要通信
  • 验证身份认证配置是否正确

最佳实践建议

  1. 根据集群规模调整 Prometheus 的存储大小
  2. 考虑设置适当的保留策略
  3. 定期备份 Prometheus 数据
  4. 监控 Prometheus 资源使用情况
  5. 考虑使用 Thanos 或 Cortex 实现长期存储

通过以上配置,Linkerd2 的监控数据将持久化存储在外部 Prometheus 中,既保留了 Linkerd 提供的丰富监控功能,又解决了数据持久化问题,为服务网格的长期运行监控提供了可靠保障。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
852
505
kernelkernel
deepin linux kernel
C
21
5
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
240
283
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
UAVSUAVS
智能无人机路径规划仿真系统是一个具有操作控制精细、平台整合性强、全方向模型建立与应用自动化特点的软件。它以A、B两国在C区开展无人机战争为背景,该系统的核心功能是通过仿真平台规划无人机航线,并进行验证输出,数据可导入真实无人机,使其按照规定路线精准抵达战场任一位置,支持多人多设备编队联合行动。
JavaScript
78
55
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
7
0
vue-devuivue-devui
基于全新 DevUI Design 设计体系的 Vue3 组件库,面向研发工具的开源前端解决方案。
TypeScript
614
74
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
175
260
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
331
1.07 K