vCluster中Metrics Server集成问题的分析与解决方案

2025-05-22 05:43:47作者：戚魁泉Nursing

vCluster - Create fully functional virtual Kubernetes clusters - Each vcluster runs inside a namespace of the underlying k8s cluster. It's cheaper than creating separate full-blown clusters and it offers better multi-tenancy and isolation than regular namespaces.

项目地址：https://gitcode.com/gh_mirrors/vc/vcluster

问题背景

在使用vCluster虚拟集群时，用户报告了Metrics Server集成功能在v0.20.0版本中出现的问题。具体表现为启用Metrics Server集成后，kubectl top node命令无法正常工作，而之前的beta版本(0.20.0-beta.10)则运行正常。

问题现象

当在vCluster配置中启用Metrics Server集成时：

integrations:
  metricsServer:
    enabled: true
    nodes: true
    pods: true

用户会观察到以下错误日志：

v1beta1.metrics.k8s.io failed with: failing or missing response from https://localhost:9001/apis/metrics.k8s.io/v1beta1: Get "https://localhost:9001/apis/metrics.k8s.io/v1beta1": context deadline exceeded

根本原因分析

经过深入调查，发现该问题主要由两个因素导致：

网络策略限制：vCluster自动创建的网络策略(vc-cp-xxx)默认只允许443、8443和6443端口的出站流量，而Metrics Server需要访问10250端口来获取节点指标数据。
服务发现机制变更：从v0.20.0版本开始，vCluster期望Metrics Server服务位于kube-system/metrics-server，如果主机集群中的Metrics Server服务位于其他位置或使用不同名称，则会导致连接失败。

解决方案

方案一：调整网络策略

修改vCluster创建的网络策略，添加对10250端口的访问权限：

spec:
  egress:
  - ports:
    - port: 443
      protocol: TCP
    - port: 8443
      protocol: TCP
    - port: 6443
      protocol: TCP
    - port: 10250  # 新增此项
      protocol: TCP

方案二：自定义Metrics Server服务配置

如果主机集群中的Metrics Server服务不在默认位置，可以通过以下配置指定正确的服务位置：

integrations:
  metricsServer:
    enabled: true
    apiService:
      service:
        name: my-metrics-service-name  # 自定义服务名称
        namespace: my-metrics-service-namespace  # 自定义命名空间
        port: 443  # 自定义端口

方案三：完全移除网络策略（不推荐）

对于测试环境，可以临时移除vCluster创建的网络策略，但这会降低安全性，不建议在生产环境中使用。

技术原理深入

vCluster的Metrics Server集成实际上是通过API聚合层实现的。它会创建一个APIService资源，将metrics.k8s.io/v1beta1的请求转发到主机集群的Metrics Server服务。这个机制依赖于：

正确的服务发现：vCluster需要知道主机集群中Metrics Server服务的确切位置
网络连通性：vCluster控制平面需要能够访问Metrics Server的端点
TLS配置：需要正确处理证书验证问题

在v0.20.0版本中，网络策略变得更加严格，同时服务发现逻辑也发生了变化，这导致了与之前版本行为的差异。

最佳实践建议

对于生产环境，建议采用方案一（调整网络策略），因为它既解决了问题又保持了必要的安全控制
定期检查主机集群中Metrics Server服务的位置，确保与vCluster配置一致
升级vCluster版本时，注意检查集成功能的变更日志，特别是网络策略和服务发现方面的变化

总结

vCluster的Metrics Server集成问题主要源于网络策略限制和服务发现机制的变更。通过合理调整网络策略或自定义服务配置，可以解决这一问题。理解vCluster与主机集群之间的交互机制，有助于更好地诊断和解决类似集成问题。

vCluster - Create fully functional virtual Kubernetes clusters - Each vcluster runs inside a namespace of the underlying k8s cluster. It's cheaper than creating separate full-blown clusters and it offers better multi-tenancy and isolation than regular namespaces.

项目地址：https://gitcode.com/gh_mirrors/vc/vcluster

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。