jianshu-crawl是一款利用Scrapy与Selenium技术开发的数据采集工具,专注于全面获取简书网站上的各类信息内容。
使用Scrapy与Selenium在Ubuntu 18.04系统上结合Python 3.8版本及Scrapy 2.1来爬取简书全站内容的方法包括:抓取文章的文字、标题、作者信息(如头像)、发布日期以及存储文章的链接和ID。以下是实现这一目标的基本步骤:
- **思路分析**:
- 简书上的每一篇文章都有一个特定格式的URL,遵循`jianshu.com/p/文章ID`的形式。
- **实现前戏**:创建Scrapy项目并建立CrawlSpider爬虫文件(包括pipelines和middleware)。
1. 分析简书文章链接规则。根据观察,其标准形式为`jianshu.com/p/文章ID`。
2. 在初始化的Crawlsipder中设置URL模式:
- 定义一个名为“js”的类来继承自Scrapy框架中的CrawlSpider;
- 设置允许爬取的域名(这里仅是简书网站,即[jianshu.com])。
具体到代码实现上可以如下所示:
```python
class JsSpider(CrawlSpider):
name = js
allowed_domains = [jianshu.com]
```
通过以上步骤和配置文件设置后,即可构建一个高效的爬虫来抓取简书上的所有文章信息,并能够将其存储至MySQL数据库中以提高数据处理效率。