本书通过丰富的实例详细讲解了使用Python进行网页数据抓取的技术和方法,适合初学者及有一定基础的读者深入学习。
本篇博文主要讲解Python爬虫实例,重点包括爬虫技术架构以及组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器。以下是简单的爬虫架构程序入口函数(爬虫调度段):
```python
#coding:utf8
import time, datetime
from maya_Spider import url_manager, html_downloader, html_parser, html_outputer
class Spider_Main(object):
# 初始化操作
def __init__(self):
# 设置url管理器
self.urls = url_manager.Url
```
注意:原文中的`maya_Spider`模块需要根据实际情况替换为实际使用的文件或库名称。