PyTorch模型部署实战教程：从训练到生产环境

2025-06-19 07:17:02作者：凤尚柏Louis

前言

在深度学习项目开发中，模型训练只是整个流程的一部分。如何将训练好的模型高效地部署到生产环境，是每个AI工程师都需要掌握的关键技能。本教程将全面介绍PyTorch模型的多种部署方法，帮助开发者将模型从实验室带入真实应用场景。

1. 环境准备与模型训练

1.1 基础环境配置

首先我们需要设置基本的PyTorch环境：

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.quantization
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

# 设置随机种子保证可重复性
torch.manual_seed(42)

# 设备配置（优先使用GPU）
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"使用设备: {device}")

1.2 构建简单CNN模型

我们使用一个简单的卷积神经网络作为示例模型，该模型适合MNIST手写数字识别任务：

class SimpleConvNet(nn.Module):
    """用于MNIST分类的简单CNN"""
    def __init__(self):
        super(SimpleConvNet, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.fc1 = nn.Linear(64 * 7 * 7, 128)
        self.fc2 = nn.Linear(128, 10)
        self.pool = nn.MaxPool2d(2)
        self.dropout = nn.Dropout(0.25)
        
    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(x.size(0), -1)
        x = F.relu(self.fc1(x))
        x = self.dropout(x)
        x = self.fc2(x)
        return x

1.3 数据加载与模型训练

加载MNIST数据集并进行训练：

# 数据预处理
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

# 加载数据集
train_dataset = torchvision.datasets.MNIST(
    root='./data', train=True, download=True, transform=transform)
test_dataset = torchvision.datasets.MNIST(
    root='./data', train=False, download=True, transform=transform)

# 训练模型
model = SimpleConvNet().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

for epoch in range(2):  # 演示用，仅训练2个epoch
    running_loss = 0.0
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    print(f"Epoch {epoch+1}, Loss: {running_loss/len(train_loader):.4f}")

# 保存模型
torch.save(model.state_dict(), "simple_model.pth")

2. TorchScript模型转换

PyTorch提供了TorchScript将模型转换为可序列化和优化的形式，支持脱离Python环境运行。

2.1 Tracing方法

Tracing通过记录模型在给定输入上的操作来转换模型：

model.eval()
example_input = torch.randn(1, 1, 28, 28).to(device)

# 跟踪模型
traced_model = torch.jit.trace(model, example_input)

# 保存跟踪模型
traced_model.save("traced_model.pt")

# 验证输出一致性
output_original = model(example_input)
output_traced = traced_model(example_input)
print(f"输出差异: {torch.max(torch.abs(output_original - output_traced)).item()}")

2.2 Scripting方法

Scripting直接分析Python代码，适合控制流复杂的模型：

scripted_model = torch.jit.script(model)
scripted_model.save("scripted_model.pt")

# 查看生成的TorchScript代码
print(scripted_model.code)

2.3 性能对比

比较原始模型与转换后模型的推理速度：

# 测试输入
test_input = torch.randn(100, 1, 28, 28).to(device)

# 原始模型推理时间
start = time.time()
with torch.no_grad():
    for _ in range(100):
        _ = model(test_input)
original_time = time.time() - start

# 跟踪模型推理时间
start = time.time()
with torch.no_grad():
    for _ in range(100):
        _ = traced_model(test_input)
traced_time = time.time() - start

print(f"原始模型: {original_time:.4f}s")
print(f"跟踪模型: {traced_time:.4f}s")
print(f"加速比: {original_time/traced_time:.2f}x")

3. ONNX模型导出

ONNX(Open Neural Network Exchange)是一种开放的模型表示格式，支持跨框架部署。

3.1 导出ONNX模型

model.eval()
dummy_input = torch.randn(1, 1, 28, 28).to(device)

torch.onnx.export(
    model,                     # 模型
    dummy_input,               # 示例输入
    "model.onnx",              # 输出路径
    export_params=True,        # 导出训练参数
    opset_version=11,          # ONNX版本
    do_constant_folding=True,  # 优化
    input_names=['input'],     # 输入名称
    output_names=['output'],   # 输出名称
    dynamic_axes={             # 动态batch维度
        'input': {0: 'batch_size'},
        'output': {0: 'batch_size'}
    }
)

3.2 验证ONNX模型

import onnx
import onnxruntime as ort

# 验证模型
onnx_model = onnx.load("model.onnx")
onnx.checker.check_model(onnx_model)

# 使用ONNX Runtime运行推理
ort_session = ort.InferenceSession("model.onnx")
input_name = ort_session.get_inputs()[0].name
test_data = np.random.randn(1, 1, 28, 28).astype(np.float32)
ort_outputs = ort_session.run(None, {input_name: test_data})
print(f"ONNX输出形状: {ort_outputs[0].shape}")

4. 模型量化技术

量化通过降低数值精度来减小模型大小并提升推理速度。

4.1 动态量化

动态量化在推理时动态量化权重：

# 加载原始模型
model_fp32 = SimpleConvNet()
model_fp32.load_state_dict(torch.load("simple_model.pth"))
model_fp32.eval()

# 应用动态量化
model_int8_dynamic = torch.quantization.quantize_dynamic(
    model_fp32,
    {nn.Linear},  # 量化线性层
    dtype=torch.qint8
)

# 比较模型大小
print(f"FP32模型大小: {get_model_size(model_fp32):.2f}MB")
print(f"INT8模型大小: {get_model_size(model_int8_dynamic):.2f}MB")

4.2 静态量化

静态量化需要校准步骤：

# 准备量化模型
model_fp32_static = QuantizableConvNet()
model_fp32_static.load_state_dict(torch.load("simple_model.pth"))
model_fp32_static.eval()

# 配置量化
model_fp32_static.qconfig = torch.quantization.get_default_qconfig('fbgemm')

# 准备模型
model_fp32_prepared = torch.quantization.prepare(model_fp32_static)

# 校准
with torch.no_grad():
    for data, _ in test_loader:
        model_fp32_prepared(data)

# 转换为量化模型
model_int8_static = torch.quantization.convert(model_fp32_prepared)

4.3 量化性能对比

# 推理时间比较
test_input_cpu = torch.randn(100, 1, 28, 28)

# FP32模型时间
start = time.time()
with torch.no_grad():
    for _ in range(50):
        _ = model_fp32(test_input_cpu)
fp32_time = time.time() - start

# INT8模型时间
start = time.time()
with torch.no_grad():
    for _ in range(50):
        _ = model_int8_static(test_input_cpu)
int8_time = time.time() - start

print(f"FP32模型: {fp32_time:.4f}s")
print(f"INT8模型: {int8_time:.4f}s")
print(f"加速比: {fp32_time/int8_time:.2f}x")

5. 模型服务化示例

5.1 创建推理API

from PIL import Image
import io
import json
from flask import Flask, request, jsonify

app = Flask(__name__)

# 加载TorchScript模型
model = torch.jit.load("traced_model.pt")
model.eval()

@app.route('/predict', methods=['POST'])
def predict():
    if 'file' not in request.files:
        return jsonify({'error': 'no file uploaded'})
    
    file = request.files['file']
    img_bytes = file.read()
    img = Image.open(io.BytesIO(img_bytes)).convert('L')
    
    # 预处理
    transform = transforms.Compose([
        transforms.Resize((28, 28)),
        transforms.ToTensor(),
        transforms.Normalize((0.1307,), (0.3081,))
    ])
    tensor = transform(img).unsqueeze(0)
    
    # 推理
    with torch.no_grad():
        output = model(tensor)
        probabilities = F.softmax(output, dim=1)
        prediction = torch.argmax(probabilities, dim=1).item()
        confidence = probabilities[0][prediction].item()
    
    return jsonify({
        'prediction': int(prediction),
        'confidence': float(confidence)
    })

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)