
用R语言进行搜狗疫情数据爬取
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目利用R语言编写脚本,实现对搜狗网站实时疫情数据的自动化抓取与处理。通过实践掌握网络爬虫技术及数据分析方法。
最近大家都很关注新型冠状肺炎疫情的发展情况。由于疫情影响,春节假期被延长,高速公路也采取了封闭措施,大多数人选择远程办公。趁着周末时间,可以编写一个爬虫程序来获取搜狗提供的疫情数据,并提取各个省份及各市区的确诊、治愈和死亡人数信息。
在分析网页时会发现,在使用浏览器的检查功能根据标签写XPath的情况下是无法直接抓取到所需的数据的。例如,湖北的相关数据位于div.total标签内,但在原始HTML代码中却找不到这个标签的位置。此外,“read_html”函数只能读取页面源码中的内容,因此如果想要通过该特定标签来获取信息的话会遇到困难。
全部评论 (0)
还没有任何评论哟~


