
大量数据中,相似重复记录的检测。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
鉴于当前社工库中积累的海量数据存在冗余信息和查询效率低下等问题,本文致力于解决这一挑战,并提出了一种高效的基于划分的近邻排序算法。该算法能够整合来自不同渠道、采用不同存储方式的社工数据,最终构建一个可以二维表形式呈现的大规模数据集。通过巧妙地运用划分思想,算法将庞大的数据集分割成若干个较小的簇,随后针对每个簇中的小型数据集,利用改进的近邻排序算法进行检测,从而有效地识别出最终的相似重复记录。实验和对比分析的结果充分表明,将划分策略与近邻排序算法相结合,不仅显著提升了海量数据相似重复记录检测的时间效率,同时还显著提高了检测的准确性。
全部评论 (0)
还没有任何评论哟~


