
OntoNotes数据集
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
OntoNotes数据集是由LDC(语言数据联盟)开发的一个大规模语料库,包含了丰富的多语言文本、语音及其注释信息,广泛应用于自然语言处理研究。
Ontonotes 5.0 数据预处理按照官方给定的方式进行训练集、验证集、测试集的分割。
数据处理步骤如下:
步骤0:将代码复制到本地。
步骤1:下载官方的OntoNote 5.0的数据,解压后文件夹结构应为:
```
ontonotes - onotenotes-release-5.0/
- conll-2012/
- collect_conll.py
- README.md
```
步骤2:运行脚本以恢复单词。在当前文件夹打开终端,创建py27环境,并执行初始数据处理。
```shell
conda create --name py27 python=2.7
source activate py27
./conll-2012/v3/
```
全部评论 (0)
还没有任何评论哟~


