Advertisement

命名实体识别的数据集.rar

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本资源包含一个用于训练和测试命名实体识别模型的数据集,适用于自然语言处理任务,帮助提高对人名、地名及组织机构等实体的识别精度。 该数据集用于训练命名实体识别模型的数据集,包含六种标签:人名、地名、时间、组织机构名、公司名及产品名,并遵循BIO编码规则。此数据集中包括三个文件——训练集、测试集与验证集。以下为样例内容: 以 O 及 O 康 B-COMPANY_NAME 宽 I-COMPANY_NAME 为代表 的 国 外 专 利 产 品 低 毒 杀 虫 剂 吡 B-PRODUCT_NAME 虫 I-PRODUCT_NAME 茚 I-PRODUCT_NAME 和 O 生 物 农 药 阿 B-PRODUCT_NAME 维 I-PRODU

全部评论 (0)

还没有任何评论哟~
客服
客服
  • .rar
    优质
    本资源包含一个用于训练和测试命名实体识别模型的数据集,适用于自然语言处理任务,帮助提高对人名、地名及组织机构等实体的识别精度。 该数据集用于训练命名实体识别模型的数据集,包含六种标签:人名、地名、时间、组织机构名、公司名及产品名,并遵循BIO编码规则。此数据集中包括三个文件——训练集、测试集与验证集。以下为样例内容: 以 O 及 O 康 B-COMPANY_NAME 宽 I-COMPANY_NAME 为代表 的 国 外 专 利 产 品 低 毒 杀 虫 剂 吡 B-PRODUCT_NAME 虫 I-PRODUCT_NAME 茚 I-PRODUCT_NAME 和 O 生 物 农 药 阿 B-PRODUCT_NAME 维 I-PRODU
  • MSRA(NER)
    优质
    MSRA NER是微软亚洲研究院开发的一个汉语命名实体识别数据集,包含大量标注的人名、地名和组织机构名称,广泛应用于自然语言处理研究。 我们收藏的二十余册出版物来自晋察冀抗日根据地(1937年—1945年)。
  • 训练.7z
    优质
    命名实体识别训练数据集.7z包含用于训练和测试命名实体识别系统的标注文本数据。这些数据有助于提高对人名、地名等实体的自动识别精度。 NER(命名实体识别)涉及数据集的读取与解析工具,并提供详细的数据解释文档以及数据下载链接。
  • 中文NER
    优质
    中文NER(Named Entity Recognition)数据集是一套专门用于识别中文文本中人名、地名和组织机构等命名实体的语料库,旨在促进自然语言处理技术的发展。 中文命名实体识别数据集非常实用。它涵盖了组织、机构和个人三个方面的实体。
  • 中文Weibo
    优质
    本数据集为中文微博文本设计,旨在进行命名实体识别研究,涵盖人名、地名与组织名等类别,促进自然语言处理技术的发展。 自然语言处理的子任务命名实体识别在中文数据集方面非常全面。
  • 基于Bert+BiLSTM+CRF
    优质
    本数据集采用BERT、BiLSTM和CRF模型结合的方法进行训练,旨在提高实体命名识别任务中的准确性和效率。 对于这篇文章的数据集,大家可以自行下载使用。
  • CONLL-附件资源
    优质
    本资源提供CONLL数据集相关的命名实体识别材料,包括训练文本、测试集及标签规范等,适用于自然语言处理研究与实践。 命名实体识别conll数据集提供了相关的附件资源。
  • 中文-5万余条标注信息-.rar
    优质
    本资源为中文命名实体识别的数据集,包含超过5万条详细标注的信息,适用于自然语言处理领域的研究与开发。 自然语言处理数据集包含5万多条中文命名实体识别的标注数据。
  • NLP中文例.rar
    优质
    本资源为一个实用的NLP项目案例,专注于使用机器学习技术进行中文文本中的命名实体识别。包含详细代码和注释,适合自然语言处理领域的初学者研究与实践。 经典论文《A Survey on Deep Learning for Named Entity Recognition》的实验实现包括了详细的文献综述、所使用的训练和测试数据集以及模型的具体细节。该研究深入探讨了深度学习技术在命名实体识别任务中的应用,为相关领域的研究人员提供了宝贵的参考信息。
  • 中文(MSRA+人民日报+Boson)
    优质
    本数据集整合了MSRA、人民日报及Boson三个来源的中文文本,涵盖大量人名、地名、组织名等实体标签,适用于训练高质量的中文命名实体识别模型。 适合作为命名实体识别的补充语料包括微软亚洲研究院MSRA:46365条语料、人民日报:23061条语料以及Boson: 2000条语料,这些数据都已经标注过,非常实用,适合新手作为模型练习使用。