GroundingLMM 项目数据集准备全指南

2025-06-10 12:28:48作者：裘晴惠Vivianne

Grounding Large Multimodal Model (GLaMM), the first-of-its-kind model capable of generating natural language responses that are seamlessly integrated with object segmentation masks.

项目地址：https://gitcode.com/gh_mirrors/gr/groundingLMM

项目背景与数据集概述

GroundingLMM 是一个多模态大语言模型项目，旨在实现图像理解、区域标注、视觉问答等多种功能。要训练这样一个强大的模型，需要准备多种类型的数据集，每种数据集对应不同的视觉语言任务。

数据集目录结构总览

在开始下载具体数据集前，先了解整个项目的目录结构规划：

├── GranDf
├── GranDf_HA_images
├── Semantic_Segm
├── Refer_Segm
├── RefCoco_Reg
├── visual_genome
├── llava_dataset
├── coco_2017
├── coco_2014
└── flikcr_30k

1. GranD-f 基础对话数据集

GranD-f 是项目核心数据集，包含四种子集：

高质量人工标注集：项目团队专门标注
Open-PSG GCG：基于场景图生成的对话
RefCOCO-g GCG：基于指代表达的对话
Flickr-30k GCG：基于Flickr图像的对话

数据准备要点

标注文件需放置在 GranDf/annotations 目录下
图像文件按训练/验证集分开存放
需要额外下载COCO和Flickr30k的原始图像

2. 语义分割数据集

语义分割数据用于训练模型理解图像中的物体边界和类别，包含五个主流数据集：

ADE20K：MIT发布的场景解析数据集
COCO-Stuff：COCO的扩展版，增加"stuff"类别
PASCAL-Part：包含物体部件的细粒度标注
PACO-LVIS：针对部分和属性的标注
Mapillary：街景图像数据集

使用建议

各数据集标注格式不同，需统一处理
建议先从小规模数据开始验证流程
注意不同数据集的类别体系差异

3. 指代表达数据集

用于训练模型理解基于语言描述的图像区域定位，包含：

RefCOCO/RefCOCO+/RefCOCOg：基于COCO图像的指代表达
RefCLEF：较早的指代表达数据集

注意事项

需要与COCO2014图像配合使用
不同子集的标注侧重点不同
RefCLEF使用独立的图像集

4. 区域级标注数据集

用于训练模型生成针对特定图像区域的描述，包含：

RefCOCO系列：基于指代表达的标注
Visual Genome：丰富的区域-描述对
Flickr30k：社交媒体图像的描述

数据处理技巧

注意边界框标注的归一化处理
可结合视觉特征和文本特征联合训练
不同数据集的描述风格差异较大

5. 图像描述数据集

主要使用COCO Caption数据集，这是最常用的图像描述基准数据集。

最佳实践

可利用已有的预训练特征加速训练
注意平衡不同长度描述的样本
可尝试多种描述生成策略

6. 视觉问答数据集

使用LLaVA-instruct-150k，这是一个大规模的视觉问答指令数据集。

使用建议

问题类型多样，适合训练通用VQA能力
可与纯文本QA数据结合训练
注意处理开放式问题的评估

7. GranD预训练数据集

这是项目的核心预训练数据，包含多种任务格式：

简短描述生成
指代表达生成
指代表达分割

关键点

使用LMDB格式提高IO效率
多任务联合训练提升模型泛化能力
注意任务间的样本平衡

实际应用建议

从小规模开始：先验证流程可用性
分批下载：大数据集可分步获取
版本控制：记录各数据集的版本信息
数据检查：下载后验证数据完整性
预处理缓存：对常用特征进行预处理

通过系统性地准备这些数据集，研究者可以完整复现GroundingLMM项目的训练过程，或基于此框架开发新的多模态模型。不同数据集间的协同效应将显著提升模型的多任务处理能力。

groundingLMM

Grounding Large Multimodal Model (GLaMM), the first-of-its-kind model capable of generating natural language responses that are seamlessly integrated with object segmentation masks.

项目地址：https://gitcode.com/gh_mirrors/gr/groundingLMM

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.26 K

692

GroundingLMM 项目数据集准备全指南

项目背景与数据集概述

数据集目录结构总览

1. GranD-f 基础对话数据集

数据准备要点

2. 语义分割数据集

使用建议

3. 指代表达数据集

注意事项

4. 区域级标注数据集

数据处理技巧

5. 图像描述数据集

最佳实践

6. 视觉问答数据集

使用建议

7. GranD预训练数据集

关键点

实际应用建议

相关内容推荐

最新内容推荐

项目优选