
基于SVD和SGNS的汉语子词向量构建与评估NLP作业(含Python代码).zip
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
本资源提供了一个使用SVD及SGNS方法构建汉语子词向量的全面教程,包含详细的Python实现代码。适合自然语言处理领域的学习者研究和实践使用。
1. 词汇表:使用第一次编程作业获得的子词词汇表中的子词构建向量。
2. 数据集:语料库采用corpus.txt文件,该文件包含第一次编程作业中训练集与测试集合并后的数据。如计算资源有限,则可以选择一个较小的数据子集进行处理,但最终评测将不考虑这一点。
3. SVD方法应用:使用SVD分解获取高维分布表示时设定K值为5,并自定义降维后向量的维度大小以获得每个词汇的vec_sta向量。利用这些向量计算pku_sim_test.txt文件中每一行内两个子词之间的余弦相似度,记作sim_svd。若某一行中的任一词语在语料库中未出现,则该行两个词语间的sim_svd值设为0。
4. SGNS方法应用:采用SGNS算法时设定窗口大小K=2,并自定义向量维度以获取每个子词的vec_sgns表示。利用这些向量计算pku_sim_test.txt文件内每一行中两个子词之间的余弦相似度,记作sim_sgns。若某一行中的任一词语未出现在语料库中,则该行两个词语间的sim_sgns值设为0。
5. 输出要求:
两种方法的输出结果需严格遵循以下格式(因评测过程由机器自动完成,请务必按照如下格式进行):
全部评论 (0)
还没有任何评论哟~


