Robusta KRR工具与kube-prometheus-stack集成问题解析

2025-06-19 11:37:19作者：胡唯隽

Prometheus-based Kubernetes Resource Recommendations

项目地址：https://gitcode.com/gh_mirrors/kr/krr

在Kubernetes资源优化领域，Robusta KRR作为一款强大的资源推荐工具，其自动发现Prometheus服务的能力对于监控指标的获取至关重要。然而近期用户反馈，当集群中使用kube-prometheus-stack部署时，KRR无法自动识别Prometheus服务实例。

问题现象分析

当用户执行基础扫描命令时，KRR会依次尝试连接Victoria Metrics、Thanos、Mimir和原生Prometheus服务。在kube-prometheus-stack部署环境下，工具无法通过默认的标签选择器找到Prometheus实例，最终导致扫描失败。错误信息明确提示"Prometheus instance could not be found while scanning in default cluster"。

临时解决方案

目前可行的临时解决方案是通过-p参数显式指定Prometheus服务地址：

krr simple -p http://localhost:9090

对于k9s插件用户，可以通过以下配置实现自动化端口转发和扫描：

plugins:
  krr:
    command: bash
    args:
      - -c
      - |
        kubectl port-forward prometheus-monitoring-stack-prometheus-0 9090 9090
        LABELS=$(kubectl get $RESOURCE_NAME $NAME -n $NAMESPACE --context $CONTEXT --show-labels | awk '{print $NF}' | awk '{if(NR>1)print}')
        krr simple --cluster $CONTEXT --selector $LABELS -p http://localhost:9090
        echo "Press 'q' to exit"
        while : ; do
        read -n 1 k <&1
        if [[ $k = q ]] ; then
        break
        fi
        done

根本原因与改进方向

问题的核心在于KRR的Prometheus服务自动发现机制中缺少对kube-prometheus-stack特定标签的识别。当前代码中硬编码了几种常见监控系统的标签选择器，但未包含kube-prometheus-stack的典型标签模式。

从技术实现角度看，解决方案应包括：

扩展PrometheusMetricsService类中的服务发现逻辑
添加对kube-prometheus-stack特有标签的支持
考虑提供配置接口，允许用户自定义服务发现标签

最佳实践建议

对于生产环境用户，建议采取以下措施：

建立稳定的Prometheus服务访问端点
考虑使用Ingress或Service暴露Prometheus服务
对于临时性分析，端口转发仍是可靠选择
关注项目更新，等待官方对kube-prometheus-stack的完整支持

随着云原生监控生态的多样化发展，工具对各类Prometheus发行版的支持将变得越来越重要。这个问题也反映出在复杂Kubernetes环境中，资源优化工具需要更强的适应性和可配置性。

Prometheus-based Kubernetes Resource Recommendations

项目地址：https://gitcode.com/gh_mirrors/kr/krr

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

deepin linux kernel

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook