
开源哈萨克语语言 corpus
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
这是一个包含大量文本数据的哈萨克语语料库,旨在促进哈萨克语自然语言处理技术的发展和研究,并且完全免费开放给学术界使用。
我们已经从Wikipedia的数据集为哈萨克语构建了语料库。使用WikiExtractor解析数据后,再利用nltk工具创建n-gram模型。总共收集了2100万个单词,并且包含将近60万个不同的派生词。
全部评论 (0)
还没有任何评论哟~


简介:
这是一个包含大量文本数据的哈萨克语语料库,旨在促进哈萨克语自然语言处理技术的发展和研究,并且完全免费开放给学术界使用。
我们已经从Wikipedia的数据集为哈萨克语构建了语料库。使用WikiExtractor解析数据后,再利用nltk工具创建n-gram模型。总共收集了2100万个单词,并且包含将近60万个不同的派生词。


