
从OntoNotes 5.0版本中获得,该数据集采用BIO格式进行命名实体识别。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
OntoNotes-5.0-NER-BIO是基于CoNLL-2003格式的版本,并包含了OntoNotes 5.0版本的命名实体识别(NER)的BIO标记方案。 该格式化的版本建立在详细的说明之上,以及在此存储库中开发的新脚本。 简而言之,Yuchen Zhang和Zhi Zhong提出了针对OntoNotes 5.0数据的Train-dev分割,同时他们还提供了将数据转换为CoNLL 2012格式的脚本。 然而,生成的输出结果并非采用BIO标记方案,因此无法直接应用于许多序列标注体系结构,例如BLSTM-CRF。 为了简化预处理流程,此仓库协议通过直接生成BIO格式来提供便利,您可以在实验中直接使用这些预处理后的数据。 第一步:获取官方的O
全部评论 (0)
还没有任何评论哟~


