5分钟上手！用代码绘制AI基础设施：机器学习平台架构设计

2026-02-05 04:18:43作者：钟日瑜

你还在为绘制机器学习平台架构图烦恼吗？手动拖拽图标费时费力，修改一次就要重新调整布局，团队协作时版本混乱难以维护。现在，用Diagram as Code（代码绘图）工具只需几行Python代码，就能自动生成专业架构图，5分钟上手，彻底告别重复劳动！

读完本文你将学会：

快速安装diagrams工具的3个步骤
机器学习平台的5大核心组件及代码实现
从零构建AWS/GCP混合AI架构的实战案例
90%用户会遇到的3个常见问题及解决方案

为什么选择代码绘制AI架构？

传统架构图绘制工具存在三大痛点：修改困难（牵一发而动全身）、版本失控（多个文件传来传去）、组件不标准（每个人画的图标含义不同）。而diagrams工具通过代码定义架构，带来四大优势：

传统工具	diagrams代码绘图
手动调整布局	自动排版，关系清晰
图标含义模糊	云厂商官方组件库，标准化展示
难以版本控制	纯文本文件，Git管理轻松回溯
协作效率低	代码评审方式协作，减少沟通成本

3步完成diagrams安装

diagrams基于Python开发，需要Python 3.7+环境和Graphviz渲染引擎。以下是在不同操作系统的安装方法：

步骤1：安装Graphviz渲染引擎

# macOS (Homebrew)
brew install graphviz

# Windows (Chocolatey)
choco install graphviz

# Linux (Ubuntu/Debian)
sudo apt-get install graphviz

步骤2：安装diagrams库

# 使用pip安装
pip install diagrams

# 或使用poetry
poetry add diagrams

详细安装指南可参考官方文档：docs/getting-started/installation.md

步骤3：验证安装

创建测试文件test_ml.py：

from diagrams import Diagram
from diagrams.aws.ml import Sagemaker  # AWS机器学习服务

with Diagram("AI架构测试", show=False):
    Sagemaker("模型训练")

运行后生成AI架构测试.png，表示安装成功。

机器学习平台的5大核心组件

一个完整的机器学习平台需要包含数据采集、模型训练、推理服务等模块。diagrams提供了丰富的云厂商AI组件，以下是AWS和GCP的核心ML服务对照表：

组件类型	AWS服务	GCP服务	代码引用
数据存储	S3	Cloud Storage	diagrams.aws.storage.S3
模型训练	SageMaker	AI Platform	diagrams.gcp.ml.AIPlatform
推理加速	Elastic Inference	TPU	diagrams.aws.ml.ElasticInference
数据标注	SageMaker Ground Truth	Data Labeling Service	diagrams.aws.ml.SagemakerGroundTruth
语音处理	Transcribe	Speech-to-Text	diagrams.gcp.ml.SpeechToText

实战案例：构建端到端ML平台

以下代码实现一个包含数据采集、模型训练、推理服务和监控告警的完整机器学习平台架构：

from diagrams import Diagram, Cluster
from diagrams.aws.ml import Sagemaker, SagemakerGroundTruth
from diagrams.aws.storage import S3
from diagrams.aws.compute import EC2
from diagrams.aws.database import RDS
from diagrams.aws.network import ELB
from diagrams.gcp.ml import TPU  # 引入GCP的TPU加速

with Diagram("端到端机器学习平台", show=False, direction="LR"):
    with Cluster("数据层"):
        data_source = S3("原始数据") >> S3("清洗后数据")
        
    with Cluster("模型开发"):
        labeling = SagemakerGroundTruth("数据标注")
        training = Sagemaker("模型训练")
        tpu = TPU("加速训练")
        
    with Cluster("推理服务"):
        api = ELB("API网关") >> EC2("推理服务")
        
    data_source >> labeling >> training << tpu
    training >> api >> RDS("推理结果")

运行代码后生成架构图如下：

这个架构实现了：

数据从采集到清洗的完整流程
利用TPU加速模型训练过程
通过负载均衡提供稳定推理服务
推理结果持久化存储

更多示例可参考官方案例库：docs/getting-started/examples.md

常见问题与解决方案

Q1：生成的图片中文显示乱码？

A：需在代码中指定中文字体，修改Diagram初始化参数：

with Diagram("中文架构图", font="SimHei"):
    ...

Q2：如何添加自定义AI组件？

A：使用Custom节点类型：

from diagrams.custom import Custom
my_model = Custom("自定义模型", "./my_model_icon.png")

Q3：架构图过大导致排版混乱？

A：使用direction参数调整布局方向，或拆分多个子图：

with Diagram("大型架构", direction="TB"):  # TB表示上下布局
    ...

总结与展望

通过diagrams工具，我们可以用代码快速构建标准化、可维护的AI基础设施架构图。这种方式特别适合：

敏捷开发团队的架构文档更新
云原生环境下的动态架构展示
多团队协作时的架构一致性维护

随着AI技术的发展，diagrams也在不断增加新的组件支持。下一期我们将介绍如何使用diagrams构建多模态AI系统架构，敬请关注！

如果觉得本文有用，请点赞收藏，让更多数据科学家摆脱架构图绘制烦恼！

diagrams

:art: Diagram as Code for prototyping cloud system architectures

项目地址：https://gitcode.com/GitHub_Trending/di/diagrams

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

MindQuantum is a general software library supporting the development of applications for quantum computation.

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.11 K

682