MLRun v1.10.0-rc10版本发布：工作流重试与模型服务优化

2025-06-30 15:53:49作者：段琳惟

MLRun is an open source MLOps platform for quickly building and managing continuous ML applications across their lifecycle. MLRun integrates into your development and CI/CD environment and automates the delivery of production data, ML pipelines, and online applications.

项目地址：https://gitcode.com/gh_mirrors/ml/mlrun

MLRun作为一个开源的机器学习运维平台，致力于简化机器学习工作流程的构建、部署和管理。本次发布的v1.10.0-rc10版本带来了多项功能增强和问题修复，特别是在工作流重试机制和模型服务方面的改进尤为突出。

核心功能增强

工作流重试机制

新版本引入了RerunRunner组件和基础的rerun_workflow处理程序，为MLRun的工作流提供了更强大的容错能力。这一改进使得当工作流中的某个步骤失败时，系统能够自动或手动触发重试机制，而无需从头开始执行整个工作流。这对于处理长时间运行的机器学习流水线特别有价值，可以显著节省计算资源和时间成本。

模型服务优化

在模型服务方面，本次更新改进了后台任务状态的获取机制。现在用户可以更准确地监控和管理模型服务的部署、更新等后台操作的状态。同时修复了模型端点UID从数据库解析的问题，确保了模型服务标识符的正确处理，这对于生产环境中的模型服务管理至关重要。

系统稳定性提升

数据库迁移改进

针对数据库迁移过程中的事务处理进行了优化，现在系统会在Alembic迁移完成后自动提交事务，避免了可能的数据库状态不一致问题。这一改进提升了系统升级和数据迁移的可靠性。

框架问题修复

解决了多个框架层面的问题，包括ML-10270和ML-10333等已知问题，增强了系统的整体稳定性。这些修复涉及到底层框架的核心功能，确保了MLRun在各种使用场景下的可靠表现。

构建与部署优化

构建流程改进

对项目的构建系统进行了优化，提高了构建效率和可靠性。同时修复了patch_remote脚本在没有构建环境时的处理逻辑，使得远程部署更加灵活和健壮。

依赖管理

更新了astral-sh/setup-uv依赖项的版本，从6.3.0升级到6.3.1，确保了构建环境的稳定性和安全性。

文档与许可更新

完善了Kubeflow Pipelines(KFP)相关的文档描述，修正了变更日志中的相关信息。同时更新了项目的许可信息，确保符合最新的法律要求。

总结

MLRun v1.10.0-rc10版本在功能增强和系统稳定性方面都有显著提升，特别是工作流重试机制的引入和模型服务的优化，为机器学习工程团队提供了更强大的工具集。这些改进使得MLRun在复杂机器学习工作流管理和生产部署方面更加成熟可靠。

MLRun is an open source MLOps platform for quickly building and managing continuous ML applications across their lifecycle. MLRun integrates into your development and CI/CD environment and automates the delivery of production data, ML pipelines, and online applications.

项目地址：https://gitcode.com/gh_mirrors/ml/mlrun

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。