
THUOCL:清华开放式中文词库
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
THUOCL是由清华大学开发的大型开放式中文词库,提供丰富的语料资源和词汇信息,涵盖多个领域,适用于自然语言处理研究与应用。
THUOCL(清华大学开放中文词库)是由清华大学自然语言处理与社会人文计算实验室开发的一套高质量的中文词库。该词库包含了来自主流网站的社会标签、搜索热词及输入法词库等资源。
THUOCL具有以下特点:
- 包含了文档频率统计信息DF值,方便用户根据需要个性化选择使用。
- 通过多轮人工筛选确保收录词汇的准确性。
- 持续开放更新,并不断推出更多类别词表以满足不同需求。
欢迎各界专业人士加入合作建设该开放式中文词库。
THUOCL适用于提升中文自动分词的效果。建议与本实验室开发的THULAC工具包结合使用,以进一步优化特定领域内的中文分词性能。
全部评论 (0)
还没有任何评论哟~


