Traefik中TLS证书验证错误的日志级别问题分析

2025-04-30 13:18:29作者：钟日瑜

问题背景

在使用Traefik作为反向代理时，当后端服务使用自签名TLS证书时，客户端可能会收到500错误响应，但Traefik默认日志级别下不会显示任何错误信息。只有在启用DEBUG日志级别后，才能看到实际的TLS证书验证错误。

问题表现

当Traefik代理到使用自签名证书的后端服务时，会出现以下情况：

客户端收到500 Internal Server Error响应
默认日志级别(INFO)下没有任何错误记录
启用DEBUG日志级别后，可以看到类似"tls: failed to verify certificate: x509: cannot validate certificate for IP because it doesn't contain any IP SANs"的错误

技术分析

这个问题源于Traefik对TLS证书验证错误的日志记录级别设置。在Traefik 3.2.0版本中，这类错误被归类为DEBUG级别，导致生产环境中难以发现问题。

证书验证失败的主要原因包括：

证书是自签名的，没有受信任的CA签名
证书中缺少正确的SAN(Subject Alternative Name)扩展
证书中的主机名与请求的主机名不匹配

解决方案

针对这个问题，有以下几种解决方案：

1. 配置ServersTransport

通过创建ServersTransport资源并指定正确的serverName和CA证书，可以解决证书验证问题：

apiVersion: traefik.io/v1alpha1
kind: ServersTransport
metadata:
  name: traefik-test
spec:
  serverName: downstream-service.default.svc.cluster.local
  rootCAsSecrets:
    - myca

然后在Service上添加注解引用这个ServersTransport：

apiVersion: v1
kind: Service
metadata:
  name: downstream-service
  annotations:
    traefik.ingress.kubernetes.io/service.serverstransport: default-traefik-test@kubernetescrd