
这是一个简单的问答系统,它采用TF-IDF、词向量和倒排表等技术。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
问答系统采用简化的实现方式,通过整合TF-IDF、词向量以及倒排表等技术,并利用中文词库数据集(数据集名为:综合类中文词库.xlsx,作为PART1),来构建系统。此外,dev-v2.0.json文件包含问题和答案的对应对,但其数据格式为JSON,因此需要开发相应的解析器以提取其中的问题和答案信息。 手套。6B 文件需从网络上下载,下载链接为: ://nlp.stanford.edu/projects/glove/,建议使用d = 100的单词向量(用于PART3)。 运行环境要求使用Python 3(必须是Python 3版本)。 任务描述涉及分词工具的编写,该工具采用枚举法实现分词,即首先列出所有可能的分割结果,随后利用UNIGRAM模型选择最优的分词结构。该部分的核心挑战在于如何生成所有可能的分割结果。具体而言,首先需要构建一个有向图,并借助维特比算法计算出最佳的分词方案。 该有向图的构建以及维特比算法的计算是该部分的关键环节。
全部评论 (0)
还没有任何评论哟~


