
Google、Baidu、Bing网页搜索的Java实现
5星
- 浏览量: 0
- 大小:None
- 文件类型:7Z
简介:
本项目提供了一个使用Java语言编写的简单示例代码库,用于与Google、百度和必应等主流搜索引擎进行网页爬取及数据获取,助力开发者便捷集成搜索引擎功能。
这个程序的功能是利用常用的搜索引擎搜索关键词,并获取搜索结果。然后访问每个搜索结果页面,抓取排在前面的所有网页的文本信息。
该程序采用多线程(不超过20个以保证不影响其他程序)以及超时设置(默认10秒),操作起来非常方便和高效。
包括Google、百度和Bing三种主流搜索引擎的Java调用。其中,Google和百度搜索通过HTTP请求实现,而Bing则使用了Bing Java SDK来完成。进行Bing搜索需要一个微软提供的appid,可以自行申请或使用其他已有的appid(注意每个appid每天有查询次数限制)。在执行Google搜索时尤其需要注意设置user-agent域,可以直接用Firefox 9.0的user agent字符串或者查找并替换相应的值(修改位置为HtmlDownloader.java文件中)。
实际测试过程中发现,Google和百度的结果质量较高,而Bing服务器有时难以连接。
全部评论 (0)
还没有任何评论哟~


