Advertisement

中文维基百科词向量.zip

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本资源为中文维基百科文章预训练的词向量模型,包含大量词条和概念的词汇表示,可用于自然语言处理任务。 维基百科词向量文件sgns.wiki.char.bz2解压后会生成以.char为扩展名的文件,包含35万多个汉字、词语及符号,并且每个词汇都有一个300维度的向量表示。当这些词向量被用作词嵌入层时,需要将所有词向量加载到内存中。如果计算机内存较小,则可能会导致内存溢出的问题。因此,在实际应用中可以选择截取8000至20000个词汇的词向量进行使用,以适应大多数设备配置的需求。 该项目提供了超过100种不同属性和特性的中文单词向量(嵌入),这些向量具有不同的表示形式(如密集型或稀疏型)以及上下文特征(例如单字、ngram及字符等)。此外,这些词向量是在多种语料库上训练得到的。用户可以根据具体需求轻松获取不同属性和特性的预训练词汇表,并将其应用于各种下游任务中。

全部评论 (0)

还没有任何评论哟~
客服
客服