
PPBC-抓取工具:中国植物图像库爬虫
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
简介:PPBC爬虫是一款专为中国植物图像库设计的数据采集工具,旨在高效地抓取网站上的植物图片和信息,便于研究人员及爱好者进行深入学习与交流。
PPBC中国植物图像库爬虫最近在做一个课设需要大量花卉植物的图片来做训练集,于是编写了一个爬虫来从中国植物图像库抓取图片。使用前需找到所需植物的具体种(Species),例如:被子植物门 Angiospermae >> 白花丹科 Plumbaginaceae >> 白花丹属 Plumbago >> 白花丹 Plumbago zeylanica,其中白花丹的唯一标识为sp号26094。获取多个sp号后可以一起爬取,在ppbc.py文件中设置具体参数。
scrapy自带缩略图功能但不是等比例压缩,通过重写PicscrapyPipeline部分函数,在使用Pipeline抓取图片的同时利用PIL进行等比例压缩,并保存原图和压缩后的图像。所有图片按照编号顺序命名并根据花卉名称分类存储在不同的文件夹中。
所使用的Scrapy版本为1.5.0,Python版本为3.6.4。
全部评论 (0)
还没有任何评论哟~


