【亲测免费】 ModelDB 开源项目教程

2026-01-23 06:34:15作者：宣聪麟

1. 项目介绍

ModelDB 是一个开源的机器学习模型版本控制、元数据管理和实验管理的系统。它允许用户对其机器学习模型进行版本控制，包括模型的代码、数据、配置和环境，并跟踪模型在整个生命周期中的元数据。ModelDB 的主要功能包括：

模型版本控制：支持对模型的代码、数据、配置和环境进行版本控制。
实验管理：管理机器学习实验，构建性能仪表板并共享报告。
元数据跟踪：跟踪模型在整个生命周期中的元数据，包括开发、部署和实时监控。
灵活的元数据记录：支持记录模型的指标、工件、标签和用户信息。
插件式存储系统：支持与 TensorFlow 和 PyTorch 等先进框架的集成。

2. 项目快速启动

安装 Docker 和 Docker Compose

首先，确保你已经安装了 Docker 和 Docker Compose。如果没有安装，请参考 Docker 官方文档进行安装。

通过 Docker Compose 启动 ModelDB

docker-compose -f docker-compose-all.yaml up

注意：modeldb-backend 服务需要 backend/config/config.yaml 文件才能运行。你可以通过克隆仓库或手动创建该文件。

安装 ModelDB Python 包

pip install verta

版本控制模型或记录工作流

以下是一个简单的示例，展示如何使用 ModelDB 记录模型的超参数和指标：

from verta import Client

client = Client("http://localhost:3000")
proj = client.set_project("My first ModelDB project")
expt = client.set_experiment("Default Experiment")

# 记录第一个运行
run = client.set_experiment_run("First Run")
run.log_hyperparameters({"regularization": 0.5})
# 模型训练代码
run.log_metric('accuracy', 0.72)

# 记录第二个运行
run = client.set_experiment_run("Second Run")
run.log_hyperparameters({"regularization": 0.8})
# 模型训练代码
run.log_metric('accuracy', 0.83)

完成上述步骤后，你可以访问 http://localhost:3000 查看 ModelDB Web UI，并检查你刚刚记录的模型。

3. 应用案例和最佳实践

应用案例

ModelDB 可以应用于以下场景：

模型版本控制：在团队协作中，确保每个模型的版本都能被追踪和管理。
实验管理：在多个实验中，记录每个实验的配置和结果，便于后续分析和比较。
模型部署监控：在模型部署后，持续监控模型的性能和健康状况。

最佳实践

规范化记录：在记录模型时，确保所有相关的元数据（如超参数、指标、数据版本等）都被记录下来。
定期备份：定期备份 ModelDB 的数据库，以防止数据丢失。
自动化集成：将 ModelDB 集成到你的 CI/CD 流程中，自动记录每次模型训练的结果。

4. 典型生态项目

ModelDB 可以与以下开源项目结合使用，以增强其功能：

TensorFlow：ModelDB 可以与 TensorFlow 集成，记录 TensorFlow 模型的训练过程和结果。
PyTorch：与 PyTorch 集成，记录 PyTorch 模型的训练和推理过程。
Kubernetes：通过 Kubernetes 部署 ModelDB，实现高可用性和可扩展性。
PostgreSQL：ModelDB 默认使用 PostgreSQL 作为数据库，但也可以配置为使用其他 SQL 数据库。

通过这些生态项目的结合，ModelDB 可以更好地满足不同场景下的需求，提升机器学习模型的管理和追踪效率。

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统