MGM项目中LLaVA预训练图像数据的使用说明

2025-06-25 18:08:03作者：戚魁泉Nursing

在开源项目MGM(MiniGemini)的数据处理过程中，开发者发现了一个值得注意的数据使用细节。项目中的minigemini_instruction.json文件包含了来自LLaVA-Pretrain数据集的图像路径，但这一信息在最初的README文档中并未明确说明。

经过项目团队确认，这些LLaVA预训练图像的使用源于项目采用的ShareGPT4V-100K数据集。ShareGPT4V-100K在其构建过程中已经整合了LLaVA-Pretrain的图像用于caption任务。为了保持数据的完整性和一致性，MGM项目保留了这些数据引用路径。

对于希望复现或使用MGM项目的开发者，团队提供了明确的数据准备指引：需要将LLaVA-Pretrain的图像数据放置在项目目录的特定路径下，即data/MiniGemini-Finetune/llava/LLaVA-Pretrain/images目录中。这一说明已经补充到项目的README文档中，以确保后续使用者能够正确配置数据环境。

这一发现和后续的文档更新体现了开源项目中数据溯源和文档完整性的重要性。对于多阶段、多来源的数据处理流程，明确记录每个数据组件的来源和使用方式，有助于提高项目的可复现性和透明度。

登录后查看全文