
THULAC:由清华大学研发的中文词法分析工具包
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
THULAC是由清华大学开发的一款高效的中文词法分析工具包,支持精准的分词和词性标注功能,广泛应用于自然语言处理领域。
THULAC(THU Lexical Analyzer for Chinese)是由清华大学自然语言处理与社会人文计算实验室开发的一套中文词法分析工具包,具备中文分词和词性标注的功能。它具有以下几个特点:
1. **能力强**:基于世界上规模最大的人工分词和词性标注的语料库(约5800万字)训练而成,模型性能卓越。
2. **准确率高**:在标准数据集Chinese Treebank (CTB5) 上进行测试时,THULAC的中文分词F1值可达97.3%,词性标注F1值可达到92.9%,与该数据集中最好的方法效果相当。
3. **速度快**:同时执行分词和词性标注的速度为每秒处理约15万字(即300KB/s),仅进行分词时速度可达每秒处理超过1MB的数据。
全部评论 (0)
还没有任何评论哟~


