
MatchModels:2019年中国高校计算机大赛-大数据挑战赛第15名成果报告
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
《MatchModels》是参加2019年中国高校计算机大赛-大数据挑战赛并获得第15名的成绩报告,详细记录了项目背景、模型设计与实现过程。
2019中国高校计算机大赛-大数据挑战赛WriteUp
我们是最终排名第15名的改革春风吹满地队伍,在此对方法和模型进行简要整理。
传统模型:
查询与标题去重:在训练词向量及统计词频时,需要去除query和title中的重复内容。
图特征:
计划生成无向图以及权重图。对于最大规模的一亿三千万数据量的无向图,我们将其转换为Int32格式的ID值以减少内存消耗。
技巧:利用Pickle保存文件可以加速读取过程,并且文件体积较小。
无向图特征:
- 最大完全子图max_clique :此方法对模型效果提升不明显,最终被舍弃。
- 边连接数max_degrees :统计每个节点的边连接数量
- 最大连通子图规模max_components :计算每个实例的最大连通子图大小
- pagerank值:根据Google的PageRank算法为每个节点赋予权重。
全部评论 (0)
还没有任何评论哟~


