Advertisement

包含的中文命名实体识别语料包括MSRA、人民日报和Boson数据集。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该数据集作为命名实体识别任务的补充语料而设计,其中包含了微软亚研院(MSRA)提供的46365条标注数据、人民日报的23061条标注数据以及Boson收集的2000条标注数据。这些数据均已进行详细标注,并且具有极高的实用价值,特别适合初学者作为入门级的模型训练练习。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • MSRA++Boson
    优质
    本数据集整合了MSRA、人民日报及Boson三个来源的中文文本,涵盖大量人名、地名、组织名等实体标签,适用于训练高质量的中文命名实体识别模型。 适合作为命名实体识别的补充语料包括微软亚洲研究院MSRA:46365条语料、人民日报:23061条语料以及Boson: 2000条语料,这些数据都已经标注过,非常实用,适合新手作为模型练习使用。
  • MSRA(NER)
    优质
    MSRA NER是微软亚洲研究院开发的一个汉语命名实体识别数据集,包含大量标注的人名、地名和组织机构名称,广泛应用于自然语言处理研究。 我们收藏的二十余册出版物来自晋察冀抗日根据地(1937年—1945年)。
  • MSRA-NER
    优质
    MSRA-NER是微软亚洲研究院开发的一种先进的中文文本处理工具,专注于识别和分类文本中的名称实体,如人名、地名等,以支持信息抽取与问答系统。 MSRA-NER 数据集由微软亚洲研究院发布,其目标是识别文本中具有特定意义的实体,包括人名、地名和机构名。
  • NER
    优质
    中文NER(Named Entity Recognition)数据集是一套专门用于识别中文文本中人名、地名和组织机构等命名实体的语料库,旨在促进自然语言处理技术的发展。 中文命名实体识别数据集非常实用。它涵盖了组织、机构和个人三个方面的实体。
  • Weibo
    优质
    本数据集为中文微博文本设计,旨在进行命名实体识别研究,涵盖人名、地名与组织名等类别,促进自然语言处理技术的发展。 自然语言处理的子任务命名实体识别在中文数据集方面非常全面。
  • 已处理,适合用于CRF模型进行训练
    优质
    本数据集包含经过处理的人民日报文本资料,专为基于CRF(条件随机场)算法的命名实体识别系统训练而设计。 处理好的人民日报语料用于命名实体识别任务。这两个文件分别包含字符集和词语级数据。
  • MSRA 库 BIO 架构.zip
    优质
    本资料包包含微软亚洲研究院开发的命名实体识别语料库,采用BIO标注体系,适用于中文自然语言处理任务中的实体抽取研究。 2006年,微软亚洲研究院(Microsoft Research Asia, MSRA)发布了BIO格式的标注语料,总共有46365条记录。
  • .rar
    优质
    本资源包含一个用于训练和测试命名实体识别模型的数据集,适用于自然语言处理任务,帮助提高对人名、地名及组织机构等实体的识别精度。 该数据集用于训练命名实体识别模型的数据集,包含六种标签:人名、地名、时间、组织机构名、公司名及产品名,并遵循BIO编码规则。此数据集中包括三个文件——训练集、测试集与验证集。以下为样例内容: 以 O 及 O 康 B-COMPANY_NAME 宽 I-COMPANY_NAME 为代表 的 国 外 专 利 产 品 低 毒 杀 虫 剂 吡 B-PRODUCT_NAME 虫 I-PRODUCT_NAME 茚 I-PRODUCT_NAME 和 O 生 物 农 药 阿 B-PRODUCT_NAME 维 I-PRODU
  • 标注
    优质
    该命名实体识别标注语料包含丰富的文本数据,已经人工标注了各类命名实体如人名、地名和组织机构名等信息,适用于训练与评估相关模型。 已经标记好标签的中文命名实体识别语料库采用BIM标志形式。包括人名、地点、时间及机构名称。
  • 库——更新通知
    优质
    本数据集为人民日报语料库的定期更新版本,包含最新的新闻文章和评论,旨在支持自然语言处理研究与应用。 这个语料库自带分词功能。