
中文维基语料的Word2Vec训练模型
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目旨在利用大规模中文维基百科数据训练Word2Vec模型,以构建高质量的中文词向量,促进自然语言处理领域的研究与应用。
原文件是zhwiki-latest-pages-articles.xml.bz2,大小为1.7G,最新版本在19年7月下载。将其转换为txt文本格式,并进行繁体转简体、分词处理后,使用gensim进行了模型训练。
全部评论 (0)
还没有任何评论哟~


