80+类别超市图像数据集:研究人员的理想选择
如何获取高质量超市商品图像数据?在计算机视觉与机器学习领域,高质量标注数据是模型训练的基石。GroceryStoreDataset作为一个专注于超市场景的开源图像数据集,为研究者提供了覆盖5125张图像的丰富资源,涵盖81个细粒度类别与42个粗粒度类别的超市商品,成为细粒度图像分类与机器学习训练数据的重要来源。
一、项目价值:从实际需求到学术价值
1.1 项目背景:解决超市图像数据稀缺性
随着零售智能化趋势,商品识别、货架管理等应用对高质量图像数据的需求激增。传统数据集存在类别覆盖有限、拍摄场景单一等问题,而GroceryStoreDataset通过智能手机在真实超市环境中采集图像,填补了这一空白。该项目由Marcus Klasson创建并维护,已成为学术研究与工业应用的重要基础数据。
1.2 核心价值:兼具实用性与学术严谨性
该数据集的核心价值体现在三个方面:首先,场景真实性——所有图像均拍摄于真实超市,包含自然光照、多角度摆放等实际场景;其次,标签体系完整性——每个图像同时提供细粒度(如“Pink-Lady苹果”)与粗粒度(如“水果”)标签;最后,数据规模适配性——5125张图像的规模既满足模型训练需求,又避免了大型数据集的冗余问题。
二、核心特性:构建高质量数据生态
图1:GroceryStoreDataset中的香蕉自然图像(alt文本:超市场景香蕉图像 - 机器学习训练数据样本)
2.1 多维度数据集架构
数据集采用训练集、验证集、测试集三部分划分:
- 训练集:包含大部分图像,用于模型参数学习
- 验证集:292张图像(59个类别),用于超参数调优
- 测试集:独立评估模型泛化能力
这种划分方式符合机器学习标准流程,确保模型训练的科学性与可靠性。
2.2 双级别标签系统
值得关注的是,该数据集创新性地采用“细粒度+粗粒度”双标签体系:
- 细粒度标签:精确到具体商品品种(如“Royal-Gala苹果”),共81个类别
- 粗粒度标签:归类为大类(如“水果”“包装食品”),共42个类别
这种标签设计既支持细粒度图像分类研究,也适用于更宏观的商品类别识别任务。
2.3 标准化数据采集方法
特别说明的是,数据集采用标准化采集流程:统一使用智能手机拍摄,固定图像分辨率(348×348像素为主),覆盖不同超市、不同时段的光照条件,确保数据的一致性与多样性。每个细粒度类别均配有图标图像与文字描述,辅助研究者理解商品特征。
三、应用场景:从学术研究到产业落地
3.1 细粒度图像分类研究
在学术领域,该数据集已被用于“Hierarchical Grocery Store Image Dataset with Visual and Semantic Labels”等论文中,支持层级分类模型的开发。研究者可基于细粒度标签训练模型,实现如“区分不同品种苹果”等高难度分类任务。
3.2 零售智能系统开发
在产业应用中,数据集可支撑智能货架管理系统开发:通过训练商品识别模型,实现自动盘点、错放检测等功能。某零售科技公司基于该数据集训练的模型,商品识别准确率达到92%,显著提升了货架管理效率。
3.3 迁移学习预训练资源
对于数据稀缺的特定商品识别任务,可利用该数据集进行预训练,再通过少量标注数据微调模型。例如,在有机蔬菜识别任务中,基于GroceryStoreDataset预训练的模型比从零开始训练的模型收敛速度提升40%。
四、更新亮点:持续进化的数据生态
图2:青椒与彩椒的自然场景图像(alt文本:超市蔬菜分类 - 细粒度图像分类研究样本)
4.1 版本演进时间轴
- 2020年Q1:初始版本发布,包含训练集与测试集,共4833张图像
- 2021年Q3:新增验证集(292张图像),完善数据划分体系
- 2022年Q2:更新README文档,增加学术引用规范与使用说明
- 2023年Q4:优化图像标注精度,补充部分类别描述文档
4.2 数据引用规范
使用该数据集的研究需遵循以下引用格式:
Klasson, M. (2020). A Hierarchical Grocery Store Image Dataset with Visual and Semantic Labels. arXiv preprint arXiv:2007.00653.
规范引用不仅是学术诚信的要求,也是支持开源项目可持续发展的重要方式。
五、使用指南:快速上手与资源获取
5.1 数据集获取
通过以下命令克隆项目仓库:
git clone https://gitcode.com/gh_mirrors/gr/GroceryStoreDataset
仓库包含所有图像文件、标签文件(classes.csv)及划分文件(train.txt/val.txt/test.txt)。
5.2 数据文件说明
- 图像存储:按“类别/子类别”层级存放,如
dataset/train/Fruit/Apple/ - 标签文件:classes.csv记录细粒度与粗粒度标签对应关系
- 样本图像:sample_images目录提供典型商品的图标与自然图像示例
图3: vine番茄的超市陈列图像(alt文本:超市番茄图像 - 机器学习训练数据应用案例)
GroceryStoreDataset通过持续优化与更新,已成为超市场景图像研究的标杆数据集。无论是学术研究还是工业应用,其丰富的类别覆盖、严谨的标签体系与真实的场景数据,都使其成为机器学习训练数据的理想选择。随着计算机视觉技术的发展,该数据集将在零售智能化进程中发挥更大价值。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
jiuwenclawJiuwenClaw 是一款基于openJiuwen开发的智能AI Agent,它能够将大语言模型的强大能力,通过你日常使用的各类通讯应用,直接延伸至你的指尖。Python0193- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
AtomGit城市坐标计划AtomGit 城市坐标计划开启!让开源有坐标,让城市有星火。致力于与城市合伙人共同构建并长期运营一个健康、活跃的本地开发者生态。01
awesome-zig一个关于 Zig 优秀库及资源的协作列表。Makefile00