
通过递归方法,可以获取网站的所有内链和外链。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
【爬虫实践】通过递归机制,实现获取目标网站的所有内链和外链的环境配置:Windows 7 系统,搭配 Python 3.6 版本以及 Pycharm 2017 开发环境。本次实践旨在从一个网站的首页出发,全面地爬取该网站内部链接和外部链接,从而构建出一张完整的网站地图。通常情况下,一个网站的页面深度大约在 5 层左右,而其广度则可能涉及 10 个网页。考虑到大多数网站的页面总数均在 10 万以内(即 10 的 5 次方),但 Python 递归默认的深度限制为 1000,因此需要借助 sys 模块来突破这一限制。为了便于运行控制和调试,此处引入了一个计数器变量 iii,您可以根据实际需求选择是否取消使用该计数器。鉴于代码的简洁性和易于理解性,直接呈现代码如下:`.#coding=utf-8from urllib.parse import url
全部评论 (0)
还没有任何评论哟~


