MedMNIST：医疗图像识别的标准化基准数据集

2026-02-06 05:23:42作者：何将鹤

MedMNIST是一个专门为医疗图像识别打造的大规模轻量级数据集和开源项目，旨在促进医学影像分析在深度学习领域的应用和发展。该项目基于广泛使用的MNIST数据集概念，但扩展到了医学领域，提供了大量标注好的医疗图像。

技术特性

MedMNIST包含了18个子数据集，其中12个为2D图像数据集，6个为3D图像数据集。所有图像都标准化为多种尺寸选项：MNIST类似的28×28像素，以及更大的64×64、128×128和224×224像素。数据集涵盖了生物医学图像中的主要数据模态，包括：

2D数据集：病理切片、胸部X光、皮肤镜图像、视网膜OCT等
3D数据集：器官CT扫描、肺部结节、肾上腺形状等

每个子数据集都包含标准化的训练-验证-测试分割，图像被预处理为统一的格式，无需用户具备医学背景知识即可使用。数据集支持多种分类任务，包括二分类、多分类、多标签分类和序数回归。

安装和使用

可以通过pip直接安装MedMNIST：

pip install medmnist

或者从源代码安装：

pip install --upgrade git+https://gitcode.com/gh_mirrors/me/MedMNIST.git

快速开始

使用标准28尺寸版本：

from medmnist import PathMNIST
train_dataset = PathMNIST(split="train")

启用自动下载：

from medmnist import NoduleMNIST3D
val_dataset = NoduleMNIST3D(split="val", download=True)

使用更大的MedMNIST+版本：

from medmnist import ChestMNIST
test_dataset = ChestMNIST(split="test", download=True, size=224)

数据集详情

MedMNIST包含以下主要数据集：

PathMNIST - 结直肠癌组织病理学图像，9类别分类
ChestMNIST - 胸部X光图像，14种疾病的多标签分类
DermaMNIST - 皮肤镜图像，7种皮肤病变分类
OCTMNIST - 视网膜光学相干断层扫描，4种视网膜疾病分类
OrganMNIST3D - 3D器官CT扫描，11种身体器官分类

每个数据集都提供了详细的元数据信息，包括数据来源、任务类型、标签含义、样本数量和许可证信息。

应用场景

MedMNIST可用于以下几个方面：

模型训练：对于深度学习初学者或医疗AI开发者，MedMNIST是一个理想的实践平台，可以帮助快速入门医疗图像分类。

算法评估：研究人员可以使用这个数据集来测试和比较新算法或改进的模型，评估其在医疗图像识别任务上的性能。

医学研究：医生和生物信息学家可以探索如何将机器学习应用于临床诊断，提高疾病检测的准确性和效率。

教育用途：作为跨学科研究领域，生物医学图像分析对于来自其他社区的研究人员来说很难上手，因为它需要计算机视觉、机器学习和临床科学方面的背景知识。MedMNIST提供了易于使用的教育资源。

项目特点

多样性：涵盖不同的数据模态、数据集规模（从100到100,000个样本）和任务类型，能够公平评估机器学习算法在不同设置下的通用性能。

标准化：每个子数据集都预处理为相同的格式，并提供标准的训练-验证-测试分割，便于算法比较。

用户友好：小尺寸图像轻量且理想，适合评估机器学习算法。同时提供更大尺寸版本，支持医学基础模型开发。

开放许可：大多数数据集遵循Creative Commons Attribution 4.0 International许可，DermaMNIST遵循Creative Commons Attribution-NonCommercial 4.0 International许可。代码使用Apache-2.0许可证。

命令行工具

MedMNIST提供了一系列命令行工具：

列出所有可用数据集：python -m medmnist available
下载数据集：python -m medmnist download --size=28
清理下载的文件：python -m medmnist clean
查看数据集信息：python -m medmnist info --flag=pathmnist

技术实现

项目基于Python开发，主要依赖PyTorch、NumPy、Pandas、scikit-learn等机器学习库。代码结构清晰，包含：

medmnist/dataset.py - PyTorch数据集和数据加载器
medmnist/evaluator.py - 标准化评估函数
medmnist/info.py - 数据集信息字典

数据集以NumPy序列化文件（.npz格式）提供，包含训练图像、训练标签、验证图像、验证标签、测试图像和测试标签六个键。

通过MedMNIST，无论是学生还是专业人士，都能更便捷地参与到医疗图像识别的研究中，推动人工智能在医疗健康领域的进步。

MedMNIST

[pip install medmnist] 18x Standardized Datasets for 2D and 3D Biomedical Image Classification

项目地址：https://gitcode.com/gh_mirrors/me/MedMNIST

登录后查看全文