
IR Project 1: 使用倒排索引与向量空间模型的信息检索简易项目
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目为信息检索课程设计,采用倒排索引和向量空间模型实现基本搜索功能,旨在简化并理解现代搜索引擎的核心技术。
项目1 是一个使用倒排索引和向量空间模型的简单信息检索项目。
源代码仅为一个Python文件 ir.py。
该代码是用Python 2.7编写的。
在代码中,需要分别设置 query_file 和 base_dir 变量为查询文件和博客目录的位置。
查询文件格式如下:企鹅851 March 每行包含一条查询,不带引号。
实现的每个信息检索模型都有一个后缀(名称):
- TFIDF:stem
- LogtfIDF:stem-logtf
- TFIDF-Positional:stem-positional
- BM25:stem-bm25
- 语言模型:stem-lm
- 拉普拉斯平滑语言模型:stem-lmls
为了对两个或多个模型的分数进行线性求和,可以将 main(methods) 中的方法参数设置为打算在最终结果中使用的后缀列表。例如:
main(methods=[stem, stem-logtf])
全部评论 (0)
还没有任何评论哟~


