Data-Juicer项目中图像数据预处理与caption生成实践指南

2025-06-14 22:00:02作者：瞿蔚英Wynne

引言

在Data-Juicer项目中处理多模态数据时，图像与文本的联合处理是一个常见需求。本文将详细介绍如何正确准备图像数据集格式，以及在使用image_captioning_mapper等类似算子时的注意事项。

图像数据格式准备

Data-Juicer要求图像数据遵循特定的格式规范。对于仅包含图像的数据集，每条样本应包含以下字段：

text字段：使用特殊token<__dj__image>作为占位符
images字段：包含图像文件路径的列表

示例格式如下：

{
  "text": "<__dj__image>",
  "images": ["/path/to/image1.jpg"]
}

可以通过简单的Python脚本批量生成这种格式的数据集：

import os
import jsonlines
from data_juicer.utils.mm_utils import SpecialTokens

image_dir = 'your_image_directory'
output_file = 'dataset.jsonl'

with jsonlines.open(output_file, 'w') as writer:
    for filename in os.listdir(image_dir):
        writer.write({
            'text': SpecialTokens.image,
            'images': [os.path.join(image_dir, filename)]
        })

使用image_captioning_mapper的注意事项

当使用image_captioning_mapper为图像生成caption时，需要注意以下几点：

模型兼容性：该算子默认支持BLIP-2等特定架构的模型
VLM模型适配：对于InternVL等视觉语言模型(VLM)，需要自定义算子实现
缓存机制：测试时可设置use_cache: false避免缓存干扰

常见问题解决方案

"You need to specify either text or text_target"错误：
- 检查模型是否兼容
- 确认输入数据格式正确
- 考虑实现自定义算子适配特定模型
无输出结果：
- 关闭缓存机制重新测试
- 检查处理后的样本是否被过滤
- 验证输出路径权限