
Quora查询与短文本相似度评估。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Quora Question Pairs,一种针对短文本主题相似性的研究,采用了Siamese网络结构。具体而言,该网络架构利用了BLSTM(双向长短期记忆网络)网络的最后一个神经元的输出作为特征,并经过训练,取得了93%的准确率。然而,在测试阶段,由于过拟合问题,模型的准确率下降至83%。为了缓解过拟合现象,尝试了期权和正则化等方法,但尚未完全解决。此外,数据预处理工作也未完成。值得注意的是,单层LSTM网络存在问题,虽然可以通过进一步探索来定位具体原因,但已经基本掌握了问题的本质。相关数据存储于“data”文件夹下:/data/csv/train.csv包含Quora公开的数据集以及数据标签;/data/csv/test_part_aa 和 /data/csv/test_part_bb 包含了测试数据集,这些数据是在执行“test.py”脚本后进行分割得到的,可以通过“cat”命令将它们连接起来。此外,/data/vovab.model 是用于构建 VocabularyProcessor 模型的参数(设置了最大长度为60),而 /data/lr_sentiment.model 则是一个逻辑回归回归模型,用于情感预测任务。
全部评论 (0)
还没有任何评论哟~


