
SIFRank_zh:一种利用预训练模型进行中文关键词抽取的技术(论文SIFRank)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
SIFRank_zh是一种基于预训练语言模型的创新技术,专为从文本中高效准确地提取关键短语和词汇而设计。该方法通过充分利用现有大规模语料库中的知识来改进中文文档的关键信息识别能力。
SIFRank_zh是我们论文的相关代码,在原版的基础上对英文关键短语抽取进行了迁移至中文的改动,并调整了部分管道。
版本介绍:
2020/03 / 03——最初版本,仅包含最基本的功能,细节方面仍需优化和扩展。
核心算法包括预训练模型ELMo及句向量模型SIF词向量:
1. ELMo优势:通过大规模的预训练,相较于早期的TFIDF、TextRank等基于统计和图的方法具有更丰富的语义信息;2. 动态特性可以改善一词多义问题;3. 采用Char-CNN编码方式对生僻字友好;4. 不同层的ELMo能够捕捉不同层次的信息。
句子矢量SIF优势:1)根据词频进行平滑逆频率变换,更好地捕捉到句子的核心主题;2)更有效地过滤掉通用词汇。
最终关键短语识别流程为先分词和词性标注,再通过正则表达式确定名词短语(例如:“形容词+名词”),并将其中的名词作为前缀关键字。
全部评论 (0)
还没有任何评论哟~


