
Python课程设计——爬虫项目(轻松应对大作业).zip
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本资源包含Python编程中的爬虫技术相关课程设计与实战案例,适用于需要完成大作业或提升技能的学习者。
Python大作业:爬虫程序功能是爬取指定公众号的微信文章标题、作者、链接及图标文件(暂不支持保存成pdf)。该程序提供一个对外接口spider(self, count=10, offset=-10),调用此接口后,通过交互操作读取所需信息。需要输入fiddler抓取的请求头。
接口的第一个参数是步进,代表每次请求推送的文章数量;第二个参数为偏移量(即第一条数据的位置)。该接口返回四个数据:采集的数据以包含字典形式的列表呈现、当前offset值、当前count数以及是否成功采集的信息。程序会自动生成CSV文件并转换格式以免中文在Excel中出现乱码,同时会在./image下保存所有的文章图标,命名为$id.png,其中ID为程序内部使用的唯一标识符,对应CSV表格中的第一列的ID。
如果遇到IP被封或服务器返回异常情况时,程序将自动保存当前进度,并记录最新的偏移量和步进。一段时间后可以重新打开程序并选择加载配置继续抓取工作。输出结果以.csv文件形式呈现。
全部评论 (0)
还没有任何评论哟~


