
中文分词词库资源
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
中文分词词库资源是一份包含大量词汇及其分词结果的数据集,用于支持自然语言处理任务中对汉语文本进行有效分割。
在编写Java分词器的过程中,我使用了中科院的标注、北大标注集以及词频数据。这些资源能够满足大多数需求。现在我的分词器已经完成开发,特将使用的词库分享给大家。该词库包含约29.8万个词汇,其中包括三级地名、名胜古迹、知名的山川河流和1万多个成语,其中一部分词语来自搜狗输入法的词库。
全部评论 (0)
还没有任何评论哟~


