
爬虫实践——获取房天下所有楼盘数据并存储(含代码)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目详细介绍如何利用Python编写爬虫程序,从房天下网站收集全部楼盘信息,并进行有效存储。包括详细源代码展示。
1. 创建项目使用命令创建scrapy项目:`scrapy startproject fang` 进入到spiders文件夹中: `cd fang/fang/spiders` 创建爬虫文件:`scrapy genspider sfw https://www.fang.com/SoufunFamily.htm`
2. 使用xpath解析页面,获取所需元素。可以通过快捷键“ctrl+shift+x”调出xpath插件,并使用xpath语法来获取全国的“省、市”。
3. 获取省和市时需要注意:当某个城市的信息分布在多行中时,从第二行开始就没有省份信息了,因此需要进行判断并为每个城市添加对应的省份。在编写爬虫代码时,可以继承`SwfSpider(scrapy.Spider)`类来实现这一功能。
全部评论 (0)
还没有任何评论哟~


