首页
/ CleanVision 开源项目教程

CleanVision 开源项目教程

2026-01-17 08:15:47作者:何举烈Damon

项目介绍

CleanVision 是一个数据中心的 AI 包,专门用于自动检测图像数据集中的各种问题,例如(近)重复、模糊、过/欠曝光等。这个包设计为任何计算机视觉项目的快速第一步,以发现数据集中可能需要在应用机器学习之前解决的问题。

项目快速启动

安装 CleanVision

你可以通过 pip 安装 CleanVision:

pip install cleanvision

如果你想安装所有可选依赖项,可以使用以下命令:

pip install "cleanvision[all]"

快速开始

以下是如何快速审计你的图像数据的示例:

from cleanvision import Imagelab

# 指定包含图像文件的文件夹路径
imagelab = Imagelab(data_path="FOLDER_WITH_IMAGES/")

# 自动检查数据集中的预定义问题列表
imagelab.find_issues()

# 生成数据集中发现问题的整洁报告
imagelab.report()

应用案例和最佳实践

目标问题检测

你可以专注于特定问题:

issue_types = {"light": [], "blurry": []}
imagelab.find_issues(issue_types)

# 生成仅包含指定问题类型的报告
imagelab.report(issue_types.keys())

与 Hugging Face 数据集集成

你可以轻松地使用 CleanVision 与 Hugging Face 数据集:

from datasets import load_dataset

dataset = load_dataset("imagefolder")
imagelab = Imagelab(dataset=dataset)
imagelab.find_issues()
imagelab.report()

典型生态项目

CleanVision 可以与许多其他计算机视觉项目集成,例如:

  • 分类:用于检测图像分类数据集中的问题。
  • 分割:用于检测图像分割数据集中的问题。
  • 目标检测:用于检测目标检测数据集中的问题。
  • 姿态估计:用于检测姿态估计数据集中的问题。
  • 关键点检测:用于检测关键点检测数据集中的问题。
  • 生成模型:用于检测生成模型数据集中的问题。

通过使用 CleanVision,你可以在应用机器学习之前,自动发现并解决图像数据集中的常见问题,从而提高模型的质量。

登录后查看全文
热门项目推荐
相关项目推荐