AIbrix项目中HTTPS端点自动扩展失败问题分析与解决方案

2025-06-23 14:33:07作者：曹令琨Iris

问题背景

在AIbrix项目的Pod自动扩展功能实现过程中，开发团队发现了一个关键性问题：当配置为从HTTPS端点获取指标数据时，自动扩展器无法正常工作。这个问题在Kubernetes环境中尤为突出，特别是在使用metrics-server这类核心组件时。

问题现象

当用户尝试配置PodAutoscaler资源对象，指定从HTTPS端点获取指标数据时，系统会报错并无法完成自动扩展操作。错误信息显示为证书验证失败，具体表现为无法建立安全的HTTPS连接。

技术分析

1. 证书验证问题

默认情况下，Go语言的HTTP客户端会严格执行TLS证书验证。在Kubernetes内部环境中，很多服务（如metrics-server）使用自签名证书，这会导致标准HTTP客户端验证失败。

2. 端口配置差异

在不同Kubernetes发行版中，metrics-server等服务使用的端口可能不同。例如：

Docker Desktop环境默认使用10250端口
生产环境可能使用4443或其他自定义端口

3. 权限控制问题

metrics-server默认配置可能限制了对/metrics端点的访问，需要显式配置授权规则才能允许自动扩展器获取指标数据。

解决方案

1. 自定义HTTP客户端

在自动扩展器代码中，需要创建自定义的HTTP客户端，配置为跳过TLS证书验证：

client: &http.Client{
    Transport: &http.Transport{
        TLSClientConfig: &tls.Config{InsecureSkipVerify: true},
    },
}

这种配置虽然降低了安全性，但在受信任的内部网络环境中是可接受的折中方案。

2. 正确的端口配置

根据实际环境配置正确的端口号：

Docker Desktop环境：10250
生产环境：4443或其他自定义端口

3. metrics-server配置优化

确保metrics-server的启动参数包含以下关键配置：

- --secure-port=4443
- --cert-dir=/tmp
- --kubelet-preferred-address-types=InternalIP,ExternalIP,Hostname
- --kubelet-use-node-status-port
- --authorization-always-allow-paths=/metrics
- --metric-resolution=15s
- --kubelet-insecure-tls

4. PodAutoscaler资源配置示例

以下是经过验证可用的资源配置示例：

apiVersion: autoscaling.aibrix.ai/v1alpha1
kind: PodAutoscaler
metadata:
  name: metric-server-autoscaler
  namespace: kube-system
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: metrics-server
  minReplicas: 1
  maxReplicas: 4
  metricsSources:
  - metricSourceType: "pod"
    protocolType: "https"
    port: "10250"
    path: "/metrics"
    targetMetric: "go_threads"
    targetValue: "20"
  scalingStrategy: "KPA"