YOLOv5 分割模型获取多边形掩码的技术解析

2025-05-01 19:17:29作者：韦蓉瑛

背景介绍

在计算机视觉领域，YOLOv5作为一款高效的目标检测框架广受欢迎。其最新版本增加了实例分割功能，能够同时完成目标检测和像素级分割任务。然而，与YOLOv8不同，YOLOv5的分割模型输出的是位图掩码而非多边形边界，这在某些应用场景下需要额外的后处理步骤。

技术挑战

当使用YOLOv5分割模型处理自定义数据集（如柑橘图像）时，开发者常遇到以下技术难点：

模型输出的是概率掩码而非直接可用的多边形边界
需要从位图掩码中提取精确的轮廓用于尺寸测量等应用
输入图像尺寸与模型期望的步幅不匹配导致运行时错误

解决方案

掩码提取与后处理流程

YOLOv5分割模型的输出是每个像素属于特定类别的概率图。要获取多边形边界，需要经过以下处理步骤：

模型推理：将预处理后的图像输入模型获取原始输出
掩码提取：从模型输出中提取特定类别的概率掩码
二值化处理：通过阈值处理将概率图转换为二值掩码
轮廓检测：使用OpenCV的findContours函数检测物体边界
多边形近似：对检测到的轮廓进行多边形简化

以下是核心代码实现示例：

import cv2
import numpy as np

# 获取模型输出的概率掩码
predicted_mask = results.pred[0][..., 0].sigmoid().cpu().numpy()

# 二值化处理
binary_mask = cv2.threshold(predicted_mask, 0.5, 1, cv2.THRESH_BINARY)[1]

# 轮廓检测和多边形近似
contours, _ = cv2.findContours(binary_mask.astype(np.uint8), 
                              cv2.RETR_TREE, 
                              cv2.CHAIN_APPROX_SIMPLE)
polygons = [cv2.approxPolyDP(contour, epsilon, True) for contour in contours]

输入预处理注意事项

YOLOv5分割模型对输入尺寸有严格要求，必须满足：

图像高度和宽度应为模型步幅的整数倍（通常为32或64）
需要正确的颜色空间转换（BGR转RGB）
适当的归一化处理

预处理代码示例：

# 调整图像尺寸为步幅的整数倍
stride = 32
new_width = image.shape[1] - image.shape[1] % stride
new_height = image.shape[0] - image.shape[0] % stride
resized_image = cv2.resize(image, (new_width, new_height))

# 转换为模型期望的输入格式
image_tensor = F.to_tensor(resized_image).unsqueeze(0)