Advertisement

从OntoNotes 5.0版本中获得,该数据集采用BIO格式进行命名实体识别。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
OntoNotes-5.0-NER-BIO是基于CoNLL-2003格式的版本,并包含了OntoNotes 5.0版本的命名实体识别(NER)的BIO标记方案。 该格式化的版本建立在详细的说明之上,以及在此存储库中开发的新脚本。 简而言之,Yuchen Zhang和Zhi Zhong提出了针对OntoNotes 5.0数据的Train-dev分割,同时他们还提供了将数据转换为CoNLL 2012格式的脚本。 然而,生成的输出结果并非采用BIO标记方案,因此无法直接应用于许多序列标注体系结构,例如BLSTM-CRF。 为了简化预处理流程,此仓库协议通过直接生成BIO格式来提供便利,您可以在实验中直接使用这些预处理后的数据。 第一步:获取官方的O

全部评论 (0)

还没有任何评论哟~
客服
客服
  • OntoNotes-5.0-NER-BIO:基于OntoNotes 5.0BIO
    优质
    本数据集采用OntoNotes 5.0资源,提供大规模、高质量的BIO标注文本,涵盖人名、地名、组织机构等各类实体,适用于训练和评估命名实体识别模型。 OntoNotes-5.0-NER-BIO 是基于CoNLL-2003格式,并应用了OntoNotes 5.0版本的命名实体识别(NER)BIO标记方案。此格式化版本依据相关说明和在此存储库中开发的新脚本构建而成。简言之,Yuchen Zhang 和 Zhi Zhong 在 CoNLL 2013 年提出了针对 OntoNotes 5.0 数据集的训练-验证数据划分,并提供了将其转换为CoNLL 2012格式的脚本。然而,这些结果并未采用BIO标记方案,因此无法直接用于许多序列标注架构中(如BLSTM-CRF)。此存储库通过简化预处理过程并生成BIO格式的数据,使得实验更为便捷。步骤一:获取官方数据。
  • SIGHAN 2006 MSRABIO
    优质
    本数据集为微软亚洲研究院(MSRA)于2006年发布的中文命名实体识别资源,采用BIO标注体系,涵盖人名、地名、组织机构等类别。 2006年SIGHAN命名实体识别任务的语料由MSRA提供,并已转换为BIO格式,可以直接用于NER训练。
  • CONLL-formatted-OntoNotes-5.0OntoNotes 5.0 的 CoNLL
    优质
    本数据集为OntoNotes 5.0项目的CoNLL格式版本,包含详细的语义标注信息,适用于命名实体识别、依存句法分析等自然语言处理任务。 conll-formatted-ontonotes-5.0 是 OntoNotes 5.0 版本的 CoNLL 格式版本。
  • BIO(NER)语料库.rar
    优质
    本资源为BIO标记体系的命名实体识别(NER)语料库压缩包,适用于训练和评估自然语言处理中的实体抽取模型。 BIO NER 命名实体识别语料集。
  • 文NER
    优质
    中文NER(Named Entity Recognition)数据集是一套专门用于识别中文文本中人名、地名和组织机构等命名实体的语料库,旨在促进自然语言处理技术的发展。 中文命名实体识别数据集非常实用。它涵盖了组织、机构和个人三个方面的实体。
  • 文Weibo
    优质
    本数据集为中文微博文本设计,旨在进行命名实体识别研究,涵盖人名、地名与组织名等类别,促进自然语言处理技术的发展。 自然语言处理的子任务命名实体识别在中文数据集方面非常全面。
  • .rar
    优质
    本资源包含一个用于训练和测试命名实体识别模型的数据集,适用于自然语言处理任务,帮助提高对人名、地名及组织机构等实体的识别精度。 该数据集用于训练命名实体识别模型的数据集,包含六种标签:人名、地名、时间、组织机构名、公司名及产品名,并遵循BIO编码规则。此数据集中包括三个文件——训练集、测试集与验证集。以下为样例内容: 以 O 及 O 康 B-COMPANY_NAME 宽 I-COMPANY_NAME 为代表 的 国 外 专 利 产 品 低 毒 杀 虫 剂 吡 B-PRODUCT_NAME 虫 I-PRODUCT_NAME 茚 I-PRODUCT_NAME 和 O 生 物 农 药 阿 B-PRODUCT_NAME 维 I-PRODU
  • MSRA(NER)
    优质
    MSRA NER是微软亚洲研究院开发的一个汉语命名实体识别数据集,包含大量标注的人名、地名和组织机构名称,广泛应用于自然语言处理研究。 我们收藏的二十余册出版物来自晋察冀抗日根据地(1937年—1945年)。
  • BIOES标注的文糖尿病
    优质
    这是一个采用了BIOES标注体系的中文糖尿病相关文本命名实体识别的数据集,旨在提升对糖尿病医学文献中关键信息的自动化提取能力。 这是一个用于中文命名实体识别的数据集,在糖尿病领域内对一些非结构化数据采用BIOES模式进行标注。该数据集非常适合初学者使用,能够帮助他们节省大量时间在数据标注上,并且有助于更快地理解命名实体识别任务。
  • 训练.7z
    优质
    命名实体识别训练数据集.7z包含用于训练和测试命名实体识别系统的标注文本数据。这些数据有助于提高对人名、地名等实体的自动识别精度。 NER(命名实体识别)涉及数据集的读取与解析工具,并提供详细的数据解释文档以及数据下载链接。