PaddleSeg数据集切分顺序错乱问题分析与解决方案

2025-05-26 20:27:23作者：凤尚柏Louis

Easy-to-use image segmentation library with awesome pre-trained model zoo, supporting wide-range of practical tasks in Semantic Segmentation, Interactive Segmentation, Panoptic Segmentation, Image Matting, 3D Segmentation, etc.

项目地址：https://gitcode.com/gh_mirrors/pa/PaddleSeg

问题背景

在使用PaddleSeg进行图像分割任务时，数据集准备是一个关键步骤。其中，split_dataset_list.py脚本用于将原始数据集切分为训练集、验证集和测试集。然而，在实际使用过程中，用户反馈该脚本生成的训练集(train.txt)和验证集(val.txt)文件内容顺序完全一致，这显然不符合预期。

问题分析

通过分析问题现象和脚本实现原理，我们可以发现：

该脚本原本设计目的是按照指定比例随机切分数据集
但在某些情况下，随机种子设置或随机化处理可能存在问题
导致最终生成的文件内容顺序相同，失去了随机化的效果

解决方案

针对这一问题，我们可以参考成熟的实现方案进行改进：

路径拼接与列表构建：首先将图片路径和对应的标签路径用空格拼接成字符串
随机打乱：使用Python的random.shuffle函数对构建好的列表进行随机打乱
比例切分：按照指定的比例将打乱后的列表切分为训练集、验证集和测试集

实现建议

以下是改进后的实现思路：

import random

# 构建图片-标签对列表
image_label_pairs = []
for img_path in image_paths:
    # 根据图片路径生成对应的标签路径
    label_path = img_path.replace('images', 'labels').replace('.jpg', '.png')
    image_label_pairs.append(f"{img_path} {label_path}")

# 随机打乱
random.shuffle(image_label_pairs)

# 按比例切分
total = len(image_label_pairs)
train_num = int(total * 0.7)
val_num = int(total * 0.3)

train_set = image_label_pairs[:train_num]
val_set = image_label_pairs[train_num:train_num+val_num]