Advertisement

北大天网搜索引擎TSE源码。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
TSE(Tiny Search Engine)======================= (Temporary) Web home: http://162.105.80.44/~yhf/Realcourse/TSE is free utility for non-interactive download of files from the Web. It supports HTTP. According to query word or url, it retrieve results from crawled pages.It can follow links in HTML pages and create output files in Tianwang(http://e.pku.edu.cn/) format or ISAM format files. Additionally, it provies link structures which can be used to rebuild the web frame.---------------------------Main functions in the TSE: 1) normal crawling, named SE, e.g: crawling all pages in PKU scope. and retrieve results from crawled pages according to query word or url, 2) crawling images and corresponding pages, named ImgSE.---------------------------INSTALL:1) execute tar xvfz tse.XXX.gz---------------------------Before running the program, noteNote: The program is default for normal crawling (SE).For ImgSE, you should:1. change codes with the following requirements,1) In Page.cpp file, find two same functions CPage::IsFilterLink(string plink)One is for ImgSE whose urls must include tupian, photo, ttjstk, etc.the other is for normal crawling.For ImgSE, remember to comment the paragraph and choose rightCPage::IsFilterLink(string plink).For SE, remember to open the paragraph and choose righCPage::IsFilterLink(string plink).2) In Http.cpp file i. find if( iPage.m_sContentType.find(image) != string::npos ) Comment the right paragraph.3) In Crawl.cpp file, i. if( iPage.m_sContentType != text/html Comment the right paragraph. ii. find if(file_length < 40) Choose right one line. iii. find iMD5.GenerateMD5( (unsigned char*)iPage.m_sContent.c_str(), iPage.m_sContent.length() ) Comment the right paragraph. iv. find if (iUrl.IsImageUrl(strUrl)) Comment the right paragraph.2.sh Clean; (Note not remove link4History.url, you should commnet rm -f link4History.url line first) secondly use link4History.url as a seed file. link4History is produced while normal crawling (SE).---------------------------EXECUTION:execute make clean; sh Clean;make.1) for normal crawling and retrieving ./Tse -c tse_seed.img According to query word or url, retrieve results from crawled pages ./Tse -s2) for ImgSE ./Tse -c tse_seed.img After moving Tianwang.raw.* data to secure place, execute ./Tse -c link4History.url---------------------------Detail functions:1) suporting multithreads crawling pages2) persistent HTTP connection3) DNS cache4) IP block5) filter unreachable hosts6) parsing hyperlinks from crawled pages7) recursively crawling pagesh) Outputing Tianwang format or ISAM format files---------------------------Files in the packageTse --- Tse execute filetse_unreachHost.list --- unreachable hosts according to PKU IP blocktse_seed.pku --- PKU seedstse_ipblock --- PKU IP block...Directories in the packagehlink,include,lib,stack,uri directories --- Parse links from a page---------------------------Please report bugs in TSE to MAINTAINERS: YAN Hongfei * Created: YAN Hongfei, Network lab of Peking University. * Created: July 15 2003. version 0.1.1 * # Can crawl web pages with a process * Updated: Aug 20 2003. version 1.0.0 !!!! * # Can crawl web pages with multithreads * Updated: Nov 08 2003. version 1.0.1 * # more classes in the codes * Updated: Nov 16 2003. version 1.1.0 * # integrate a new version linkparser provided by XIE Han * # according to all MD5 values of pages content, * for all the pages not seen before, store a new page * Updated: Nov 21 2003. version 1.1.1 * # record all duplicate urls in terms of content MD5

全部评论 (0)

还没有任何评论哟~
客服
客服
  • TSE
    优质
    北京大学天网搜索引擎(TSE)源码是由北大团队开发的一款开放源代码的全文检索系统,旨在为用户提供高效、准确的信息搜索服务。 TSE(Tiny Search Engine)是一个用于从互联网非交互式下载文件的免费工具。它支持HTTP协议,并根据查询词或URL检索已爬取页面的结果。 主要功能包括: 1. 正常抓取,称为SE,例如:抓取北京大学范围内的所有网页。 2. 抓取图片及其对应页面的功能,命名为ImgSE。 安装步骤: 1. 执行“tar xvfz tse.XXX.gz”。 运行程序前的注意事项: 默认情况下TSE用于正常爬虫(SE)模式。对于使用ImgSE功能需进行以下更改: 1. 在Page.cpp文件中找到两个相同的函数CPage::IsFilterLink(string plink),一个用于ImgSE,要求URL必须包含“tupian”,“photo”等字样;另一个为正常的抓取模式。根据需要选择并注释相应代码。 2. 在Http.cpp文件中: i. 找到 if( iPage.m_sContentType.find(image) != string::npos ) 并按需进行适当的修改或注释; 3. 在Crawl.cpp 文件中,分别对以下内容进行适当处理: i. 根据需求选择并注释if( iPage.m_sContentType != text/html ii. 选择正确的行 iii. 对“iMD5.GenerateMD5((unsigned char*)iPage.m_sContent.c_str(), iPage.m_sContent.length())”进行适当的修改或注释; iv. 根据需要对if (iUrl.IsImageUrl(strUrl)) 进行处理。 执行程序: 1. 执行 make clean; sh Clean; make. 2. 对于正常抓取和检索,使用命令 ./Tse -c tse_seed.img. 按照查询词或URL从已爬取的页面中获取结果。 3. 使用ImgSE功能时,先执行 ./Tse -c tse_seed.img, 然后移动 Tianwang.raw.* 数据到安全的地方, 再使用 link4History.url 作为种子文件。 详细功能包括: 1. 支持多线程爬取页面; 2. 持久HTTP连接; 3. DNS缓存; 4. IP封锁; 5. 过滤无法访问的主机; 6. 解析从已爬取页面中提取的超链接; 7. 递归地抓取网页。 8. 输出Tianwang格式或ISAM格式文件。 包中的文件: - Tse:可执行程序 - tse_unreachHost.list: 根据PKU IP封锁列表无法访问的主机 - tse_seed.pku: PKU种子页 目录包括: hlink, include, lib, stack, uri 目录用于解析页面内的链接。 TSE由北京大学网络实验室的YAN Hongfei创建,版本更新情况如下: * 创建时间:2003年7月15日,版本号为 0.1.1 * 更新日期:2003年8月20日,引入多线程爬取页面功能; * 更新日期: 2003年11月8日, 版本号为 1.0.1; * 更新时间:2003年11月16日,版本号为 1.1.0 * 更新时间:2003年11月21日,版本号为 1.1.1
  • 优质
    网盘搜索引擎源码是一款用于开发和构建针对各大网盘平台资源进行索引与搜索的应用程序代码。通过该源码可快速搭建个性化的网盘内容检索系统,方便用户高效查找所需文件。 网盘搜索引擎适合初学者使用,能够搜索各类文件和资源,是一个很好用的系统。
  • 简易
    优质
    《简易搜索引擎源码》是一套基础级别的搜索引擎开发教程与代码集合,适合编程爱好者和学生学习使用。通过这套源码,读者可以快速掌握搜索引擎的基本原理和技术实现方法,为深入研究和开发复杂系统打下坚实的基础。 一个简单但功能齐全的搜索引擎,能够实现热词推荐和分类等功能。
  • 导航
    优质
    《搜索引擎导航源码》是一套用于构建和定制搜索引擎结果页面的代码资源,帮助开发者实现个性化的网页搜索功能。 寻找HTML5网页搜索源码以及导航搜索引擎的源代码。
  • 9个
    优质
    本资源包含9种不同类型的搜索引擎源代码,适合开发者学习研究,深入理解搜索引擎的工作原理和实现方式。 此源码无需任何修改即可上传至子目录或根目录使用,避免了对他人代码进行更改的繁琐过程。若用户对现有搜索结果不满意,可以轻松将其更改为其他搜索引擎的结果页面,并且增加了多语言搜索功能,有助于扩大网站访问人群、提高国家和地区覆盖范围以及用户的回头率和粘性。此类源码共有九种版本,在此压缩包中均可找到。此外,还包含演示截图及详细说明供参考。
  • Java新闻
    优质
    本项目为一个基于Java开发的新闻搜索引擎源代码,旨在帮助用户高效检索各类新闻信息。包含了爬虫技术、全文索引和搜索算法等内容。 我花费了两周时间开发了一个小型新闻搜索引擎。该系统的核心部分采用了开源项目Lucene,并分为以下几个模块:网页采集、网页解析、分词及建立索引、相关推荐实现、查询处理以及前台UI设计。整个系统包含大约1800篇网页新闻数据,下载后可以直接运行演示程序。我个人认为这个作品还不错。
  • - 正式官
    优质
    搜猫搜索引擎致力于为用户提供快速、精准的搜索服务。作为正式官网,这里汇集了海量信息资源和实用功能,旨在打造最佳的在线探索体验。 搜猫是一家专注于搜索引擎开发的公司团队。其产品包括:搜猫搜索引擎、搜猫搜索3.0版、搜猫搜索4.0版、搜猫搜索5.0版、搜猫搜索6.0版,以及模仿百度、谷歌、搜狗、有道和115等知名搜索引擎的产品,并提供聚合搜索引擎服务。