Advertisement

该数据集为NER(命名实体识别)的训练用数据,以.7z压缩包形式提供。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
命名实体识别(NER)技术,以及用于数据集读取和解析的实用工具,同时提供便捷的数据下载链接,并附有数据详细解释文档,以供用户深入理解。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • .7z
    优质
    命名实体识别训练数据集.7z包含用于训练和测试命名实体识别系统的标注文本数据。这些数据有助于提高对人名、地名等实体的自动识别精度。 NER(命名实体识别)涉及数据集的读取与解析工具,并提供详细的数据解释文档以及数据下载链接。
  • MSRA(NER
    优质
    MSRA NER是微软亚洲研究院开发的一个汉语命名实体识别数据集,包含大量标注的人名、地名和组织机构名称,广泛应用于自然语言处理研究。 我们收藏的二十余册出版物来自晋察冀抗日根据地(1937年—1945年)。
  • 中文NER
    优质
    中文NER(Named Entity Recognition)数据集是一套专门用于识别中文文本中人名、地名和组织机构等命名实体的语料库,旨在促进自然语言处理技术的发展。 中文命名实体识别数据集非常实用。它涵盖了组织、机构和个人三个方面的实体。
  • 基于BERTNER:利Google BERT模型进行CoNLL-2003例)
    优质
    本研究采用Google BERT模型开展命名实体识别任务,通过分析CoNLL-2003数据集,展示了预训练语言模型在自然语言处理中的强大效果。 为了获得更好的性能,您可以尝试使用NLPGNN。BERT-NER版本2 使用Google的BERT进行命名实体识别(基于CoNLL-2003数据集)。原始版本包含一些硬编码,并且缺少相应的注释,因此不方便理解。在此更新版本中,有一些新的想法和技巧(关于数据预处理和层设计)可以帮助您快速实现微调模型(只需尝试修改crf_layer或softmax_layer即可)。资料夹说明:BERT-NER|____ bert
  • .rar
    优质
    本资源包含一个用于训练和测试命名实体识别模型的数据集,适用于自然语言处理任务,帮助提高对人名、地名及组织机构等实体的识别精度。 该数据集用于训练命名实体识别模型的数据集,包含六种标签:人名、地名、时间、组织机构名、公司名及产品名,并遵循BIO编码规则。此数据集中包括三个文件——训练集、测试集与验证集。以下为样例内容: 以 O 及 O 康 B-COMPANY_NAME 宽 I-COMPANY_NAME 为代表 的 国 外 专 利 产 品 低 毒 杀 虫 剂 吡 B-PRODUCT_NAME 虫 I-PRODUCT_NAME 茚 I-PRODUCT_NAME 和 O 生 物 农 药 阿 B-PRODUCT_NAME 维 I-PRODU
  • 车牌.7z
    优质
    车牌识别训练数据集.7z包含大量用于训练机器学习模型识别不同国家和地区车牌图像的数据文件。 车牌训练数据集已经使用LableImg工具完成了一部分的标注工作,可以用于YOLO、SSD等模型的训练以实现车牌定位等功能。尽管只有一部分内容被标注完毕,但已足够进行初步的训练。
  • OntoNotes-5.0-NER-BIO:基于OntoNotes 5.0版本BIO格
    优质
    本数据集采用OntoNotes 5.0资源,提供大规模、高质量的BIO标注文本,涵盖人名、地名、组织机构等各类实体,适用于训练和评估命名实体识别模型。 OntoNotes-5.0-NER-BIO 是基于CoNLL-2003格式,并应用了OntoNotes 5.0版本的命名实体识别(NER)BIO标记方案。此格式化版本依据相关说明和在此存储库中开发的新脚本构建而成。简言之,Yuchen Zhang 和 Zhi Zhong 在 CoNLL 2013 年提出了针对 OntoNotes 5.0 数据集的训练-验证数据划分,并提供了将其转换为CoNLL 2012格式的脚本。然而,这些结果并未采用BIO标记方案,因此无法直接用于许多序列标注架构中(如BLSTM-CRF)。此存储库通过简化预处理过程并生成BIO格式的数据,使得实验更为便捷。步骤一:获取官方数据。
  • OpenCV分类器.7z
    优质
    这是一份用于训练OpenCV算法来识别图像中狗的分类器数据集,包含大量标记好的狗的图片。 识别狗的分类器数据集包含已处理正样本100张(尺寸一致),以及未处理负样本210张,所有图像均已按照固定格式标注。
  • 中文Weibo
    优质
    本数据集为中文微博文本设计,旨在进行命名实体识别研究,涵盖人名、地名与组织名等类别,促进自然语言处理技术的发展。 自然语言处理的子任务命名实体识别在中文数据集方面非常全面。
  • 基于CRF中文代码及
    优质
    本项目提供了一套基于条件随机场(CRF)模型的中文命名实体识别系统及相关训练数据集,旨在促进自然语言处理领域的研究与应用。 中文命名实体识别基于条件随机场(Conditional Random Field, CRF)的NER模型 数据集使用的是ACL 2018论文《Chinese NER using Lattice LSTM》中收集的简历数据,数据格式如下:每一行由一个字及其对应的标注组成,采用BIOES标注体系。句子之间用空行隔开。 ``` 美 B-LOC国 E-LOC的 O华 B-PER莱 I-PER士 E-PER我 O跟 O他 O谈 O笑 O风 O生 O ``` 该数据集位于项目目录下的`data`文件夹里。 运行结果的具体输出可以查看`output.txt`文件。在评估模型时,会打印出精确率、召回率、F1分数值以及混淆矩阵等信息。 环境配置方面,请先安装依赖项: ```shell pip3 install -r requirement.txt ``` 完成之后,可以通过以下命令训练和测试模型: ```shell python3 main.py > output.txt ```