
清华大学发布中文词库
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
清华大学近期发布了全新的中文词库,旨在为自然语言处理和人工智能研究提供更丰富、准确的语言资源。
THUOCL是由清华大学自然语言处理与社会人文计算实验室开发的一套高质量的中文词库。该词库的数据来源包括主流网站的社会标签、搜索热词以及输入法词库等。
THUOCL具有以下特点:
1. 包含了文档频率(Document Frequency)统计信息,帮助用户根据个人需求选择合适的词汇。
2. 经过多轮人工筛选和校验,确保收录的准确性。
3. 保持开放更新机制,并不断推出新的类别词表。
欢迎相关领域的专业人士加入合作建设这个开放式的中文词库。该词库可以用于提高中文自动分词的效果,在特定领域使用时建议搭配THULAC工具包以获得更好的效果。
全部评论 (0)
还没有任何评论哟~


