MMSegmentation 预训练模型推理指南：从入门到实践

2026-02-04 05:04:50作者：魏献源Searcher

前言

语义分割是计算机视觉领域的重要任务，旨在为图像中的每个像素分配类别标签。MMSegmentation 作为一款强大的语义分割工具箱，提供了丰富的预训练模型和便捷的推理接口，帮助开发者快速实现语义分割功能。本文将详细介绍如何使用 MMSegmentation 进行图像语义分割推理。

一、推理器：最便捷的推理方式

MMSegmentation 提供的 MMSegInferencer 是一个高级接口，封装了模型加载、预处理、推理和后处理的完整流程，让开发者能够用最少的代码实现语义分割功能。

1.1 基础使用示例

from mmseg.apis import MMSegInferencer

# 初始化推理器（自动下载预训练模型）
inferencer = MMSegInferencer(model='deeplabv3plus_r18-d8_4xb2-80k_cityscapes-512x1024')

# 单图推理并显示结果
inferencer('demo/demo.png', show=True)

执行上述代码后，你将看到原始图像与分割结果的叠加显示，不同语义类别会以不同颜色区分。

1.2 批量处理能力

MMSegInferencer 支持多种输入形式：

# 处理图像列表
images = ['img1.jpg', 'img2.jpg', ...]
inferencer(images, show=True, wait_time=0.5)

# 处理整个目录
image_dir = 'path/to/images'
inferencer(image_dir, show=True, wait_time=0.5)

# 保存结果到指定目录
inferencer(images, out_dir='outputs', img_out_dir='vis', pred_out_dir='pred')

1.3 结果输出格式

推理器提供两种结果返回方式：

# 默认返回字典格式
result = inferencer('demo.png')
print(result.keys())  # 输出: dict_keys(['visualization', 'predictions'])

# 返回SegDataSample对象（更丰富的结构化数据）
result = inferencer('demo.png', return_datasamples=True)
print(type(result))  # 输出: <class 'mmseg.structures.seg_data_sample.SegDataSample'>

二、高级配置选项

2.1 初始化参数详解

MMSegInferencer 提供了多种初始化选项以满足不同需求：

inferencer = MMSegInferencer(
    model='模型名称或配置对象',
    weights='自定义权重路径',  # 可选
    classes=['道路', '建筑', '天空'],  # 自定义类别标签
    palette=[[128,64,128], [70,70,70], [70,130,180]],  # 自定义颜色
    dataset_name='cityscapes',  # 使用预设的类别和配色
    device='cuda:0',  # 指定计算设备
    scope='mmseg'  # 模型作用域
)

2.2 可视化控制参数

推理时可以通过以下参数控制结果展示：

inferencer(
    'demo.png',
    show=True,  # 是否显示结果
    wait_time=0.5,  # 显示间隔时间（秒）
    img_out_dir='vis',  # 可视化结果保存子目录
    opacity=0.6  # 分割掩膜透明度（0-1）
)

三、底层API详解

对于需要更精细控制的场景，MMSegmentation 提供了底层API。

3.1 模型初始化

from mmseg.apis import init_model

# 基本初始化
model = init_model(
    config='configs/pspnet/pspnet_r50-d8_4xb2-40k_cityscapes-512x1024.py',
    checkpoint='checkpoints/pspnet_r50-d8_512x1024_40k_cityscapes.pth',
    device='cuda:0'
)

3.2 执行推理

from mmseg.apis import inference_model

result = inference_model(model, 'demo.png')

返回的 SegDataSample 对象包含丰富信息：

pred_sem_seg: 预测的分割掩膜
seg_logits: 模型原始输出（未归一化的logits）
其他元数据和标注信息（如有）

3.3 结果可视化

from mmseg.apis import show_result_pyplot

# 基础可视化
vis_img = show_result_pyplot(
    model, 
    'demo.png', 
    result,
    opacity=0.5,
    title='分割结果'
)

# 保存结果
show_result_pyplot(
    model,
    'demo.png',
    result,
    out_file='output/result.png',
    show=False  # 不显示窗口
)

四、实用技巧与最佳实践

模型选择建议：
- 对于实时应用：选择轻量级模型如FastSCNN
- 对于高精度需求：选择DeepLabV3+或MaskFormer
- 特定场景：使用在该场景数据集上训练的专用模型
性能优化：
- 使用半精度推理（FP16）加速计算
- 批量处理图像提高吞吐量
- 合理设置opacity值平衡可视化效果
结果解析：
- 预测结果是每个像素的类别索引
- 需要配合类别标签才能得到有意义的语义信息
- 可使用argmax从seg_logits得到最终预测

五、常见问题解答

Q: 如何获取所有可用模型列表？ A: 使用 MMSegInferencer.list_models('mmseg') 查看所有预训练模型

Q: 推理结果中的数值代表什么？ A: 默认输出是每个像素的类别索引，需要配合类别标签解释

Q: 如何自定义输出颜色？ A: 初始化时通过palette参数指定RGB颜色列表

Q: 模型推理速度慢怎么办？ A: 尝试使用更小模型、启用FP16或使用更高效的后端

通过本文的介绍，相信你已经掌握了使用MMSegmentation进行语义分割推理的各种方法。无论是简单的单图处理还是复杂的批量任务，MMSegmentation都提供了合适的工具和接口。建议从简单的Inferencer开始，逐步深入到底层API，根据实际需求选择最适合的方案。

mmsegmentation

OpenMMLab Semantic Segmentation Toolbox and Benchmark.

项目地址：https://gitcode.com/GitHub_Trending/mm/mmsegmentation

登录后查看全文

MMSegmentation 预训练模型推理指南：从入门到实践

前言

一、推理器：最便捷的推理方式

1.1 基础使用示例

1.2 批量处理能力

1.3 结果输出格式

二、高级配置选项

2.1 初始化参数详解

2.2 可视化控制参数

三、底层API详解

3.1 模型初始化

3.2 执行推理

3.3 结果可视化

四、实用技巧与最佳实践

五、常见问题解答

最新内容推荐

项目优选

MMSegmentation 预训练模型推理指南：从入门到实践

前言

一、推理器：最便捷的推理方式

1.1 基础使用示例

1.2 批量处理能力

1.3 结果输出格式

二、高级配置选项

2.1 初始化参数详解

2.2 可视化控制参数

三、底层API详解

3.1 模型初始化

3.2 执行推理

3.3 结果可视化

四、实用技巧与最佳实践

五、常见问题解答

相关内容推荐

最新内容推荐

项目优选