
Chinese_WordSeg_Keras: 基于深度学习的中文分词探索
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Chinese_WordSeg_Keras项目致力于利用Keras框架下的深度学习技术进行高效准确的中文分词研究与实践。
基于深度学习的中文分词研究使用了微软研究院提供的Bakeoff中文语料库作为主要数据资源,该语料库包括带有标注(BEMS)的训练文本、测试文本及相应的测试脚本。此外还利用了Sogou新闻语料库来补充字向量的学习过程,尽管后者没有提供字符级别的标记信息。
在技术工具的选择上采用了Python中的Gensim和Keras两个重要组件:前者用于生成词向量,而Keras则是一个基于Theano的深度学习框架。此研究仅应用了简单的多层感知器(MLP)模型来处理中文分词任务。
具体实施步骤如下:
1. 使用Sogou新闻语料库构建初始字向量表征,设定每个字对应的向量维度为100,并通过50次迭代优化这些字的表示形式。
2. 从带有标注信息的数据集中读取训练样本并转换成适合Keras模型处理的形式。
3. 根据上述准备好的数据集进行建模:选取左右各三个字符作为上下文环境,输入层包含7*100个神经元(即每个字由一个长度为100的向量表示),隐藏层设置为100个节点,输出层有4个单元对应分词标记(BEMS)。整个训练过程大约重复了50次迭代。
4. 最后一步是利用未标注的数据集进行模型测试。
全部评论 (0)
还没有任何评论哟~


