
CW2Vec: 基于字符的词向量训练方法
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
CW2Vec是一种创新的基于字符级别的词向量训练方法,通过捕捉单词内部结构信息来提高语言模型的表现力和泛化能力。
cw2vec基于字符训练词向量的论文表明了这种方法的有效性,并且也有其他有关于字符训练的论文支持这一观点。我们采用ZAKER新闻半年的数据进行实验,词汇表大小为200,000个单词。我们将使用Spearmans rank correlation coefficient作为测试方法来对比cw2vec和word2vec的结果。
目前,由于时间有限,还未完成模型之间的详细比较,但已经将训练好的模型及数据上传至指定平台供有兴趣的朋友进行测试。
cw2vec的优点在于它能够为未出现在训练集中的单词计算词向量,并且对于近义词可以考虑到字符的相似性。比如“学校”和“学生”,它们都含有相同的字符学,这使得cw2vec在处理这类词语时更具优势。
目前进展方面,word2vec模型已经完成训练,而基于cw2vec的数据清洗工作也已完成,并且完成了模型的初步训练。接下来将抽空对两种词向量进行详细对比分析,并分享出最终的结果和模型。
全部评论 (0)
还没有任何评论哟~


