
THUCTC:高效中文文本分类的数据集工具包
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
THUCTC 是一个专为中文文本分类设计的高效数据集与工具包,支持快速构建和训练大规模文本分类模型。
THUCTC是由清华大学自然语言处理实验室开发的中文文本分类工具包,能够高效地实现用户自定义语料库的训练、评估及分类功能。文本分类通常涉及特征选择、特征降维以及分类模型学习三个步骤。如何选取合适的文本特征并进行有效的降维是中文文本分类中的一项挑战性问题。
全部评论 (0)
还没有任何评论哟~


