
利用Selenium Webdriver启动浏览器抓取网站信息
5星
- 浏览量: 0
- 大小:None
- 文件类型:PDF
简介:
本教程介绍如何使用Selenium WebDriver自动化控制浏览器操作,实现高效、稳定的网页数据采集。
前段时间有个数据源网站突然更新,导致原本通过websocket爬取的数据无法正常获取了。无奈之下只能采用更原始的方法来爬取所需的数据。
我曾爬取过不少的网站数据,这里不讨论爬虫使用的合理性和合法性问题。纯粹分享一些我知道的技术知识。
对于爬虫而言,可以将网站大致分为三类:
1. 网站直接通过接口获取数据(包括json和页面)。简单的做法是通过传递参数来获取不同的数据,这种方式相对简单,使用requests模块就可以轻松拿到所需的数据。如果是json格式的数据,则可以直接解析;如果返回的是网页源代码的话会稍微复杂一些,但也不难处理,可以利用scrapy框架并结合xpath工具进行高效爬取。
2. 第二类网站需要更复杂的手段来获取数据(省略了原文中关于第三种类型的描述)。
全部评论 (0)
还没有任何评论哟~


