Kubeflow Training Operator 对 Kubernetes 新版本支持的技术演进

2025-07-08 11:08:58作者：平淮齐Percy

Kubeflow Training Operator 项目近期正在推进对 Kubernetes 新版本的支持工作。作为 Kubeflow 生态系统中负责分布式训练任务编排的核心组件，保持与 Kubernetes 版本的兼容性至关重要。

背景与必要性

Kubernetes 社区按照既定发布周期，每个版本都有明确的生命周期终止(EoL)日期。当前 Training Operator 支持的 Kubernetes v1.27-v1.29 版本即将或已经达到 EoL：

v1.27 已于 2024 年 7 月终止支持
v1.28 将于 2024 年 10 月终止支持
v1.29 将于 2025 年 2 月终止支持

为确保持续获得安全更新和功能支持，项目需要将支持范围扩展到更新的 Kubernetes 版本，包括 v1.30 和 v1.31。

技术升级方案

实现对新版本 Kubernetes 的支持涉及多个层面的技术升级：

依赖库升级

需要更新 Go 模块中的 Kubernetes 客户端库和相关依赖项版本。这包括 client-go、apimachinery 和 api 等核心库的版本提升。

持续集成环境调整

CI/CD 流水线中的测试环境需要同步更新，包括：

单元测试和集成测试中使用的 Kubernetes 版本
相关测试工具链的版本兼容性验证

代码生成器迁移

项目使用了 Kubernetes 的代码生成工具来自动生成客户端代码、deepcopy 方法和 API 默认值等。随着 Kubernetes 版本升级，代码生成器也经历了重大变更：

旧版代码生成器的参数格式已不兼容
需要重构代码生成脚本以适应新版生成器
参考其他项目(如 Kueue/JobSet)的现代化实现方式

工具链同步

构建和开发工具链也需要相应更新：

控制器生成工具版本
代码格式化工具
SDK 生成工具

实施策略

为确保升级过程平稳可控，项目采用分阶段实施策略：

首先支持 Kubernetes v1.30，验证核心功能
然后扩展到 v1.31，进行完整测试
最终确定支持范围(v1.28-v1.31 或 v1.29-v1.31)

这种渐进式升级方式有助于：

及时发现和修复版本特定的兼容性问题
降低变更风险，便于问题定位
确保向后兼容性不受影响

技术挑战与解决方案

在实际升级过程中，开发团队遇到了一些技术挑战：

代码生成器参数变更

新版代码生成器废弃了多个旧参数，如 input-dirs、-O 和 output-base 等。解决方案包括：

研究新版生成器的参数规范
参考其他项目的实现方式
重写代码生成脚本

SDK 生成问题

在升级过程中，SDK 生成工具链也出现了兼容性问题。可能的解决方向包括：

检查 protobuf 定义文件的兼容性
验证代码生成模板的适应性
更新 SDK 生成工具的版本

未来展望

完成 Kubernetes 新版本支持后，Training Operator 将能够：

为使用新版 Kubernetes 的用户提供更好的支持
利用新版 Kubernetes 的特性优化训练任务调度
保持与社区生态系统的同步发展

这一技术演进工作体现了 Kubeflow 项目对稳定性和兼容性的重视，也为后续功能开发奠定了坚实基础。

training-operator

Training operators on Kubernetes.

项目地址：https://gitcode.com/gh_mirrors/tr/training-operator

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

Kubeflow Training Operator 对 Kubernetes 新版本支持的技术演进

背景与必要性

技术升级方案

依赖库升级

持续集成环境调整

代码生成器迁移

工具链同步

实施策略

技术挑战与解决方案

代码生成器参数变更

SDK 生成问题

未来展望

热门内容推荐

最新内容推荐

项目优选

Kubeflow Training Operator 对 Kubernetes 新版本支持的技术演进

背景与必要性

技术升级方案

依赖库升级

持续集成环境调整

代码生成器迁移

工具链同步

实施策略

技术挑战与解决方案

代码生成器参数变更

SDK 生成问题

未来展望

相关内容推荐

热门内容推荐

最新内容推荐

项目优选