
Lianjia House Spider: Springboot + Webmagic 链家二手房爬虫~
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Lianjia House Spider是一款基于Springboot和Webmagic框架开发的链家网二手房信息采集工具。它能够高效地抓取网站上的房源数据,为用户提供便捷的信息检索服务。
基于Java8 + Springboot + Webmagic + Mysql + Redis的链家二手房爬虫简介
这是一款开源的链家二手房爬虫项目,采用WebMagic框架与Springboot技术栈开发而成,上手即用且功能强大,能够根据需求指定需要抓取的城市名称或者选择全国范围进行数据采集。
在数据库存储方面,默认使用Mysql作为后端存储系统。当用户搜索特定城市时(如“南京”),程序会通过JDBC接口自动创建对应日期的表名:“南京_20191127”。爬虫线程数量默认设置为单一线程,每翻页一次即进行一次批量插入操作。
考虑到链家网站对抓取页面数有限制(最多只能访问前100页),本项目采取策略是先获取目标城市的全部行政区划信息,然后针对每个区内的街道逐一展开数据采集工作。这样可以确保尽可能多地收集到该城市的所有房源资料。(值得注意的是,在此过程中会忽略掉部分别墅与车位等特殊类型的房产记录)
为了使用该项目,请事先安装好MySQL数据库环境,并按照文档指引完成相应配置即可开始执行爬虫任务了。
本项目未采用WebMagic自带的Pipeline机制来进行数据入库操作,而是直接通过JDBC接口实现。
全部评论 (0)
还没有任何评论哟~


