MLRun v1.10.0-rc10版本发布:工作流重试与模型服务优化
MLRun作为一个开源的机器学习运维平台,致力于简化机器学习工作流程的构建、部署和管理。本次发布的v1.10.0-rc10版本带来了多项功能增强和问题修复,特别是在工作流重试机制和模型服务方面的改进尤为突出。
核心功能增强
工作流重试机制
新版本引入了RerunRunner组件和基础的rerun_workflow处理程序,为MLRun的工作流提供了更强大的容错能力。这一改进使得当工作流中的某个步骤失败时,系统能够自动或手动触发重试机制,而无需从头开始执行整个工作流。这对于处理长时间运行的机器学习流水线特别有价值,可以显著节省计算资源和时间成本。
模型服务优化
在模型服务方面,本次更新改进了后台任务状态的获取机制。现在用户可以更准确地监控和管理模型服务的部署、更新等后台操作的状态。同时修复了模型端点UID从数据库解析的问题,确保了模型服务标识符的正确处理,这对于生产环境中的模型服务管理至关重要。
系统稳定性提升
数据库迁移改进
针对数据库迁移过程中的事务处理进行了优化,现在系统会在Alembic迁移完成后自动提交事务,避免了可能的数据库状态不一致问题。这一改进提升了系统升级和数据迁移的可靠性。
框架问题修复
解决了多个框架层面的问题,包括ML-10270和ML-10333等已知问题,增强了系统的整体稳定性。这些修复涉及到底层框架的核心功能,确保了MLRun在各种使用场景下的可靠表现。
构建与部署优化
构建流程改进
对项目的构建系统进行了优化,提高了构建效率和可靠性。同时修复了patch_remote脚本在没有构建环境时的处理逻辑,使得远程部署更加灵活和健壮。
依赖管理
更新了astral-sh/setup-uv依赖项的版本,从6.3.0升级到6.3.1,确保了构建环境的稳定性和安全性。
文档与许可更新
完善了Kubeflow Pipelines(KFP)相关的文档描述,修正了变更日志中的相关信息。同时更新了项目的许可信息,确保符合最新的法律要求。
总结
MLRun v1.10.0-rc10版本在功能增强和系统稳定性方面都有显著提升,特别是工作流重试机制的引入和模型服务的优化,为机器学习工程团队提供了更强大的工具集。这些改进使得MLRun在复杂机器学习工作流管理和生产部署方面更加成熟可靠。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0192
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0120
Step-3.7-FlashStep-3.7-Flash是一个拥有 1980 亿参数的稀疏混合专家(MoE)视觉语言模型,由 1960 亿参数的语言主干网络和 18 亿参数的视觉编码器组合而成,具备原生图像理解能力。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
fun-rec推荐系统入门教程,在线阅读地址:https://datawhalechina.github.io/fun-rec/Python03
so-large-lm大模型基础: 一文了解大模型基础知识01