首页
/ PPBC-scraper: 中国植物图像库爬虫

PPBC-scraper: 中国植物图像库爬虫

2026-02-01 04:19:31作者:裘晴惠Vivianne

本项目是一个用于从中国植物图像库下载植物图片的爬虫程序。当需要进行植物图像相关的课题研究或训练集准备时,这个爬虫能够有效地帮助用户获取大量的花卉植物图片。

项目描述

本项目是为了满足课题设计需求,实现对中国植物图像库的图片抓取。爬虫利用Python语言及Scrapy框架进行开发。使用前,用户需要确定所需植物种类,并在图像库中找到相应的种(Species)及其唯一标识——sp号。

使用说明

  1. 查找植物种(Species): 在中国植物图像库中找到所需植物,例如通过分类目录:被子植物门 Angiospermae >> 白花丹科 Plumbaginaceae >> 白花丹属 Plumbago >> 白花丹 Plumbago zeylanica。记录下植物的sp号。

  2. 配置爬虫: 将获取到的sp号填入ppbc.py文件中的相应位置,按照需要进行设置。

  3. 运行爬虫: 根据配置,爬虫将从中国植物图像库下载对应的植物图片。Scrapy内置的缩略图功能默认不等比例压缩,本项目重写了PicscrapyPipeline部分函数,在爬取图片的同时使用PIL进行等比例压缩,既保存原图,也保存压缩后的图片。

  4. 图片存储: 图片将按编号顺序命名,并根据花卉名称分文件夹保存。

技术参数

  • Scrapy版本: 1.5.0
  • Python版本: 3.6.4

注意事项

  • 使用本爬虫前,请确保已了解并遵循中国植物图像库的相关使用条款。
  • 本爬虫仅供学术研究使用,不得用于任何商业用途。

使用本项目时,请确保您的使用方式符合相关法律法规以及道德规范。

登录后查看全文
热门项目推荐
相关项目推荐