
天津大学社会信息检索的TFIDF大作业。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本资源系天津大学社会信息检索课程的一项大型作业,依托于爬取获得的语料库,完成了以下三个主要功能:首先,进行了TFIDF计算,能够根据用户自定义命名的文件夹,自行抓取一定数量的网页和微博数据,并将这些数据汇聚形成语料集合,并存入指定的文件夹中;其次,实现了两句话的相似度计算,在线状态下能够对网页页面的任意两句话进行对比分析,并采用内积、余弦以及Jaccard三种不同的衡量方式来评估其相似程度;最后,构建了一个基于向量空间模型(VSM)的搜索引擎,同时具备对导入文件夹中的语料进行TFIDF统计的功能。 详细的任务分解如下:1) TFIDF模块:用户需自行创建并命名文件夹以存放抓取的网页和微博数据;2) SIM模块:在线环境下支持输入任意两句话并计算其相似度;3) SJet模块:提供基于向量空间模型的搜索引擎实现。
全部评论 (0)
还没有任何评论哟~


