
Word2Vec模型采用百科数据和搜狗新闻数据进行训练。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
中文word2vector词向量的实现说明如下:为了尽快完成中文词向量模型的训练,我们暂时不深入探讨其背后的理论基础。所采用的环境为笔记本电脑,配置为 i5-4210M CPU @ 2.60GHz × 4,配备 8GB RAM,运行 Ubuntu 16.04 LTS 独立系统,并使用 Python 3.6.1。依赖库包括 NumPy, SciPy, Gensim, OpenCC 和 Jieba 1。接下来,我们将详细介绍语料库的获取过程。首先,我们使用了维基百科的原始语料文件:zhwiki-latest-pages-articles.xml.bz2,文件大小为 1.6GB。其次,我们获取了 SogouCA 全网新闻数据(SogouCA)的原始语料文件:news_tensite_xml.full.tar.gz,文件大小为 746.3 MB。最后,我们对语料库进行了预处理工作。具体而言,针对搜狗新闻语料进行处理,该语料来源于国内及国际多个新闻站点的数据,涵盖了2012年6月至7月期间的国内、国际、体育、社会、娱乐等共18个频道的新闻数据,并提供了URL和正文信息。
全部评论 (0)
还没有任何评论哟~


