StableCascade项目训练数据集格式问题解析

2025-06-02 03:11:43作者：齐添朝

问题背景

在使用StableCascade项目进行自定义数据集训练时，许多开发者遇到了训练无法启动的问题，控制台输出大量"didn't find ['jpg', 'png'] in ['key', 'url', 'txt']"的警告信息。这类问题通常源于数据集格式不符合项目要求，导致数据加载器无法正确解析图像和文本配对。

错误现象分析

从日志中可以观察到两种典型的错误模式：

"didn't find ['jpg', 'png'] in ['key', 'url', 'txt']" - 表示数据集中缺少图像文件
"didn't find ['txt'] in ['key', 'url', 'png']" - 表示数据集中缺少文本描述文件

这些警告表明数据加载器在尝试匹配图像和对应的文本描述时遇到了困难。在理想情况下，每个数据样本应该同时包含图像文件(如jpg或png)和文本描述文件(txt)。

数据集结构对比

标准数据集结构

正确的数据集示例显示每个样本应包含四个键值：

__key__: 样本唯一标识符
__url__: 数据来源路径
jpg或png: PIL图像对象
txt: 对应的文本描述

示例结构：

{
    '__key__': 'fernando/004',
    '__url__': 'file:/notebooks/fernando.tar',
    'jpg': <PIL.Image.Image image mode=RGB size=1280x960>,
    'txt': 'a photo of a dog [fernando]'
}

错误数据集结构

问题数据集的结构显示样本中缺少必要的配对文件：

{
    '__key__': 'mbl_2024_02_14_13_12/IMG_0821',
    '__url__': 'file:/tmp/mbl_2024_02_14_13_12.tar',
    'txt': 'a photo of a cat [mbl]\r\n'
}

{
    '__key__': 'mbl_2024_02_14_13_12/IMG_1002',
    '__url__': 'file:/tmp/mbl_2024_02_14_13_12.tar',
    'png': <PIL.Image.Image image mode=RGB size=2850x2850>
}

解决方案

根据StableCascade项目的文档要求，正确的数据集准备流程应该是：

文件命名规范：
- 所有图像和描述文件必须采用相同的编号/ID作为文件名
- 例如：0000.jpg、0000.txt、0001.jpg、0001.txt等
文件配对要求：
- 每个图像文件必须有一个对应的文本描述文件
- 两者使用相同的基础文件名，仅扩展名不同
打包数据集：
- 使用命令tar --sort=name -cf dataset.tar dataset/将文件夹打包
- 确保文件在tar包中按名称排序
配置文件设置：
- 在配置文件中指定路径：webdataset_path: file:/path/to/your/local/dataset.tar