
C#爬虫程序源代码.rar
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本资源包含了使用C#编程语言编写的网页抓取(爬虫)程序的完整源代码,适用于希望学习或直接应用于自动化数据采集的开发者。
软件部分功能基于Soukey软件进行开发,并使用VS2010和.NET3.5技术栈构建而成。
此版本具备以下特性:
1. 多任务多线程数据采集,支持POST请求;
2. 可以抓取Ajax页面的数据;
3. 支持Cookie管理及手动登录后采集数据;
4. 事务处理功能完善;
5. 数据导出灵活多样(文本、Excel、Access、MSSql和MySQL等格式);
6. 允许在线发布收集到的信息;
7. 能够抓取导航页,不限制页面深度;
8. 自动翻页浏览网站内容;
9. 支持文件下载功能,包括图片与Flash等其他类型文件的采集。
10. 提供强大的数据处理工具,支持替换、添加前后缀及截词操作,并且可以使用正则表达式进行更复杂的文本转换。
11. 任务配置灵活多样:既可定义基础参数,亦可通过外部字典扩展网址参数;
12. 支持同一采集任务在多个实例中同时运行;
13. 集成计划任务管理器,支持.NETSpider采集作业、独立程序调用及数据库存储过程等类型的任务执行(其中部分功能仍在开发阶段)。
14. 计划任务可以按天或周为周期重复,并且允许自定义间隔时间设置;最小单位设定为半小时;
15. 具备自动触发机制,可在完成采集作业后启动其他相关操作(包括外部程序或存储过程的执行)。
16. 系统提供全面的日志记录功能,涵盖系统运行状态、任务执行情况及错误报告等各方面信息。
全部评论 (0)
还没有任何评论哟~


