
Zhihu-Selenium: 利用Selenium获取知乎个人数据
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Zhihu-Selenium是一款利用Selenium工具自动化采集知乎平台个人用户数据的Python脚本。它能够帮助研究人员和数据分析人员提取知乎站内信息,进行网络行为分析、社交图谱研究等应用。
接下来要实现的功能是使用selenium爬取用户自己创建的收藏夹中的文章或答案,并设计一个爬取队列来抓取所有自建收藏夹的文章和答案内容。同时,需要维护好答案、文章与收藏夹之间的关联关系。
关注的收藏夹页面布局与个人创建的收藏夹页面非常相似(99%),因此可以考虑重构代码以提高效率,从而能够更有效地爬取关注的问题下的回答。
在数据结构方面,约定所有知乎相关的原始数据表前缀为zhihu。为了实现对知乎内容的有效抓取和调度,设计了队列等调度相关功能的表,并将其命名为que_开头的名称。如果需要进行跨库的数据抽取操作,则相应的表以etl_作为前缀。
在代码组织方面,与知乎相关的java包应放在com.yan.zhihu下;若采用MySQL存储方式,则对应的代码应该位于com.yan.zhihu.mysql目录中(同理,如果是MongoDB的存储则放置于对应mongo子目录)。
全部评论 (0)
还没有任何评论哟~


