
THUOCL中文分词,已移除idf系数
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
THUOCL是一款专为中文文本处理设计的高效分词工具,它能够准确地将连续的中文文字切分成有意义的词语单元。最新版本中,为了优化性能和减少冗余信息的影响,我们已经移除了idf(逆文档频率)系数,使分词过程更加聚焦于词汇本身的特征与重要性。
THUOCL11类文本合并后总计包含15万条词条,可以作为分词词典用于人工智能自然语言处理。
全部评论 (0)
还没有任何评论哟~


