
CTB8.0(Chinese Treebank 8.0)学习资料数据集
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
CTB8.0是中国树库项目的重要成果,提供大规模、高质量的汉语语法标注语料,适用于句法分析和自然语言处理研究。
Chinese Treebank 8.0 数据集介绍:该数据集包含大约150万字的广播文本,并对这些中文新闻专线、政府文件、杂志文章、各种广播新闻对话节目、网络新闻组及博客进行了注释与解析。
中国树库项目始于1998年的宾夕法尼亚大学,随后移至科罗拉多大学和布兰代斯大学。该项目旨在提供一个大规模的词性标注且完全括号化的中文语料库。首个版本——中国树库1.0发布时包含来自新华社新闻专线的约十万句法注释词汇,并在2001年以中国树库2.0的形式进行了更新,该版内容约为十万个汉字。随后,在2004年和2005年分别发布了中文树库4.0(含大约四十万字)和5.0版本(包含约五十万字)。到了2007年,6.0版本发布,其中包括了七十八万字的内容;而到了2010年的Chinese Treebank 7.0,则进一步增加了新的带注释的新闻专线数据、广播材料及网络文本内容,总文字量达到了大约一百万个汉字。
全部评论 (0)
还没有任何评论哟~


