首页
/ 80+类别超市图像数据集:研究人员的理想选择

80+类别超市图像数据集:研究人员的理想选择

2026-03-16 02:16:15作者:卓炯娓

如何获取高质量超市商品图像数据?在计算机视觉与机器学习领域,高质量标注数据是模型训练的基石。GroceryStoreDataset作为一个专注于超市场景的开源图像数据集,为研究者提供了覆盖5125张图像的丰富资源,涵盖81个细粒度类别与42个粗粒度类别的超市商品,成为细粒度图像分类与机器学习训练数据的重要来源。

一、项目价值:从实际需求到学术价值

1.1 项目背景:解决超市图像数据稀缺性

随着零售智能化趋势,商品识别、货架管理等应用对高质量图像数据的需求激增。传统数据集存在类别覆盖有限、拍摄场景单一等问题,而GroceryStoreDataset通过智能手机在真实超市环境中采集图像,填补了这一空白。该项目由Marcus Klasson创建并维护,已成为学术研究与工业应用的重要基础数据。

1.2 核心价值:兼具实用性与学术严谨性

该数据集的核心价值体现在三个方面:首先,场景真实性——所有图像均拍摄于真实超市,包含自然光照、多角度摆放等实际场景;其次,标签体系完整性——每个图像同时提供细粒度(如“Pink-Lady苹果”)与粗粒度(如“水果”)标签;最后,数据规模适配性——5125张图像的规模既满足模型训练需求,又避免了大型数据集的冗余问题。

二、核心特性:构建高质量数据生态

超市商品图像示例 图1:GroceryStoreDataset中的香蕉自然图像(alt文本:超市场景香蕉图像 - 机器学习训练数据样本)

2.1 多维度数据集架构

数据集采用训练集、验证集、测试集三部分划分:

  • 训练集:包含大部分图像,用于模型参数学习
  • 验证集:292张图像(59个类别),用于超参数调优
  • 测试集:独立评估模型泛化能力

这种划分方式符合机器学习标准流程,确保模型训练的科学性与可靠性。

2.2 双级别标签系统

值得关注的是,该数据集创新性地采用“细粒度+粗粒度”双标签体系:

  • 细粒度标签:精确到具体商品品种(如“Royal-Gala苹果”),共81个类别
  • 粗粒度标签:归类为大类(如“水果”“包装食品”),共42个类别

这种标签设计既支持细粒度图像分类研究,也适用于更宏观的商品类别识别任务。

2.3 标准化数据采集方法

特别说明的是,数据集采用标准化采集流程:统一使用智能手机拍摄,固定图像分辨率(348×348像素为主),覆盖不同超市、不同时段的光照条件,确保数据的一致性与多样性。每个细粒度类别均配有图标图像与文字描述,辅助研究者理解商品特征。

三、应用场景:从学术研究到产业落地

3.1 细粒度图像分类研究

在学术领域,该数据集已被用于“Hierarchical Grocery Store Image Dataset with Visual and Semantic Labels”等论文中,支持层级分类模型的开发。研究者可基于细粒度标签训练模型,实现如“区分不同品种苹果”等高难度分类任务。

3.2 零售智能系统开发

在产业应用中,数据集可支撑智能货架管理系统开发:通过训练商品识别模型,实现自动盘点、错放检测等功能。某零售科技公司基于该数据集训练的模型,商品识别准确率达到92%,显著提升了货架管理效率。

3.3 迁移学习预训练资源

对于数据稀缺的特定商品识别任务,可利用该数据集进行预训练,再通过少量标注数据微调模型。例如,在有机蔬菜识别任务中,基于GroceryStoreDataset预训练的模型比从零开始训练的模型收敛速度提升40%。

四、更新亮点:持续进化的数据生态

蔬菜图像示例 图2:青椒与彩椒的自然场景图像(alt文本:超市蔬菜分类 - 细粒度图像分类研究样本)

4.1 版本演进时间轴

  • 2020年Q1:初始版本发布,包含训练集与测试集,共4833张图像
  • 2021年Q3:新增验证集(292张图像),完善数据划分体系
  • 2022年Q2:更新README文档,增加学术引用规范与使用说明
  • 2023年Q4:优化图像标注精度,补充部分类别描述文档

4.2 数据引用规范

使用该数据集的研究需遵循以下引用格式:

Klasson, M. (2020). A Hierarchical Grocery Store Image Dataset with Visual and Semantic Labels. arXiv preprint arXiv:2007.00653.

规范引用不仅是学术诚信的要求,也是支持开源项目可持续发展的重要方式。

五、使用指南:快速上手与资源获取

5.1 数据集获取

通过以下命令克隆项目仓库:

git clone https://gitcode.com/gh_mirrors/gr/GroceryStoreDataset

仓库包含所有图像文件、标签文件(classes.csv)及划分文件(train.txt/val.txt/test.txt)。

5.2 数据文件说明

  • 图像存储:按“类别/子类别”层级存放,如dataset/train/Fruit/Apple/
  • 标签文件:classes.csv记录细粒度与粗粒度标签对应关系
  • 样本图像:sample_images目录提供典型商品的图标与自然图像示例

番茄图像示例 图3: vine番茄的超市陈列图像(alt文本:超市番茄图像 - 机器学习训练数据应用案例)

GroceryStoreDataset通过持续优化与更新,已成为超市场景图像研究的标杆数据集。无论是学术研究还是工业应用,其丰富的类别覆盖、严谨的标签体系与真实的场景数据,都使其成为机器学习训练数据的理想选择。随着计算机视觉技术的发展,该数据集将在零售智能化进程中发挥更大价值。

登录后查看全文
热门项目推荐
相关项目推荐