
使用Python3开发的知网数据爬虫,支持高级检索并提取文献的基本信息、下载链接及摘要等功能。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
这是一款基于Python 3语言编写的中国知网数据抓取工具,能够执行高级搜索任务,并自动获取论文基本信息、下载地址和文摘等关键内容。
知网数据可以通过发送解析包的方式抓取,在性能上相较于使用selenium等方式略胜一筹。利用高级检索功能可以更高效地搜索文献。根据网络状况及知网的反爬机制,可以选择性开启详细信息抓取以及下载caj格式文献的功能。通过Excel表格能够快速查看所需文献摘要等信息,并可根据提供的链接选择性下载,以避免因下载速度过快而导致被封禁。
使用方法如下:
在验证码处理部分采用了`tesserocr`库,但目前其识别效果并不理想,默认情况下需要手动输入验证码进行验证。
若本地未安装`tesseract`工具,则可以先安装该软件,再执行以下命令:
```
pip install tesserocr
```
或者将 `CrackVerifyCode.py` 文件中的第15、63和64行代码注释掉后直接运行上述命令。
为了确保所有依赖项均已正确安装,请运行如下命令:
```shell
pip install -r requirements.txt
```
全部评论 (0)
还没有任何评论哟~


