KServe在Kubernetes 1.31版本上的兼容性问题分析

2025-06-16 21:43:18作者：尤辰城Agatha

问题背景

最近有用户在Kubernetes 1.31环境中部署Kubeflow 1.7时遇到了KServe组件的问题。具体表现为在安装过程中出现CustomResourceDefinition验证错误，提示无法解析PEM格式的CA证书数据。这个问题在Kubernetes 1.30环境中并不存在，但在升级到1.31版本后出现。

错误详情

安装过程中出现的具体错误信息表明，系统无法正确解析KServe的CustomResourceDefinition中webhookClientConfig.caBundle字段的PEM格式证书数据。错误提示为："unable to parse bytes as PEM block"，这表明Kubernetes API服务器在验证CRD时遇到了证书格式问题。

问题排查

经过深入分析，我们发现：

该问题仅出现在Kubernetes 1.31环境中，1.30版本工作正常
直接使用KServe的最新主干代码(main trunk)在1.31环境中没有问题
使用Kubeflow的最新主干代码在1.31环境中也没有问题

这表明问题可能与Kubeflow 1.7中集成的KServe版本有关，而不是KServe或Kubernetes本身的兼容性问题。

技术分析

在Kubernetes 1.31中，API服务器对CRD的验证变得更加严格，特别是在处理webhook配置中的证书数据时。虽然官方发布说明中没有明确提到这方面的变更，但实际行为确实发生了变化。

证书相关的PEM格式要求变得更加严格，任何不符合标准的PEM数据都会被拒绝。这可能是Kubeflow 1.7中集成的KServe版本在生成或处理证书时存在细微的格式问题。

解决方案

对于遇到此问题的用户，有以下几种解决方案：

升级到KServe的最新版本或Kubeflow的最新版本，这些问题在新版本中已经修复
暂时回退到Kubernetes 1.30版本，这是经过验证的稳定组合
手动检查并修复证书的PEM格式，确保完全符合标准

结论

虽然Kubernetes 1.31带来了一些隐性的验证规则变化，但KServe和Kubeflow的最新版本已经适应了这些变化。建议用户考虑升级到最新版本以获得最佳兼容性和稳定性。这也提醒我们，在升级Kubernetes版本时，需要全面测试所有依赖组件，特别是那些使用webhook和证书的组件。

kserve

Standardized Distributed Generative and Predictive AI Inference Platform for Scalable, Multi-Framework Deployment on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ks/kserve

登录后查看全文