Advertisement

MSRA(NER)命名实体识别数据集

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
MSRA NER是微软亚洲研究院开发的一个汉语命名实体识别数据集,包含大量标注的人名、地名和组织机构名称,广泛应用于自然语言处理研究。 我们收藏的二十余册出版物来自晋察冀抗日根据地(1937年—1945年)。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • MSRANER
    优质
    MSRA NER是微软亚洲研究院开发的一个汉语命名实体识别数据集,包含大量标注的人名、地名和组织机构名称,广泛应用于自然语言处理研究。 我们收藏的二十余册出版物来自晋察冀抗日根据地(1937年—1945年)。
  • MSRA-NER中文
    优质
    MSRA-NER是微软亚洲研究院开发的一种先进的中文文本处理工具,专注于识别和分类文本中的名称实体,如人名、地名等,以支持信息抽取与问答系统。 MSRA-NER 数据集由微软亚洲研究院发布,其目标是识别文本中具有特定意义的实体,包括人名、地名和机构名。
  • 中文NER
    优质
    中文NER(Named Entity Recognition)数据集是一套专门用于识别中文文本中人名、地名和组织机构等命名实体的语料库,旨在促进自然语言处理技术的发展。 中文命名实体识别数据集非常实用。它涵盖了组织、机构和个人三个方面的实体。
  • 中文MSRA+人民日报+Boson)
    优质
    本数据集整合了MSRA、人民日报及Boson三个来源的中文文本,涵盖大量人名、地名、组织名等实体标签,适用于训练高质量的中文命名实体识别模型。 适合作为命名实体识别的补充语料包括微软亚洲研究院MSRA:46365条语料、人民日报:23061条语料以及Boson: 2000条语料,这些数据都已经标注过,非常实用,适合新手作为模型练习使用。
  • BIO(NER)语料库.rar
    优质
    本资源为BIO标记体系的命名实体识别(NER)语料库压缩包,适用于训练和评估自然语言处理中的实体抽取模型。 BIO NER 命名实体识别语料集。
  • MaxEnt-NER-Tagger: 最大熵(NER)代码库
    优质
    MaxEnt-NER-Tagger是一款基于最大熵模型的高效命名实体识别(NER)工具包。此代码库为自然语言处理任务提供了精准的实体抽取功能,助力于信息提取与语义理解研究。 最大熵NER标记器可以在线获取。该项目的目标是实施并训练模型。大多数功能构建工具的功能都是使用一个强大的开源自然语言处理库实现的,该库用Python/Cython编写,并具有工业级实力。为了分类任务,采用了最大熵(MaxEnt)分类器。 数据集主要由路透社新闻组成,经过预处理的数据文件中每行包含一个标记、词性标签、BIO组块标签以及相应的NER标签。实验表明,SpaCy内置的特征工程功能最为有效。尝试使用外部词汇表如Wikipedia地名词典通常不会提高标注准确性。 由于数据集规模较大,在最终提交时未包括地名词典的相关源代码和文件。此外,我还通过将先前的状态/标记作为额外的功能来提升模型性能进行了试验,但结果发现这并未显著改变模型的表现,可能是因为每个标签仍然在模型中以其他特征的形式存在。
  • .rar
    优质
    本资源包含一个用于训练和测试命名实体识别模型的数据集,适用于自然语言处理任务,帮助提高对人名、地名及组织机构等实体的识别精度。 该数据集用于训练命名实体识别模型的数据集,包含六种标签:人名、地名、时间、组织机构名、公司名及产品名,并遵循BIO编码规则。此数据集中包括三个文件——训练集、测试集与验证集。以下为样例内容: 以 O 及 O 康 B-COMPANY_NAME 宽 I-COMPANY_NAME 为代表 的 国 外 专 利 产 品 低 毒 杀 虫 剂 吡 B-PRODUCT_NAME 虫 I-PRODUCT_NAME 茚 I-PRODUCT_NAME 和 O 生 物 农 药 阿 B-PRODUCT_NAME 维 I-PRODU
  • 基于双向LSTM的(NER)
    优质
    本研究提出了一种基于双向长短期记忆网络(Bi-LSTM)的命名实体识别模型,有效提升了NER任务中的实体边界与类型判定精度。 使用双向LSTM进行命名实体识别(NER)可以提高模型对序列数据的理解能力,因为它同时考虑了上下文的信息。这种方法在处理自然语言任务中表现出了很好的效果。
  • SIGHAN 2006 MSRA(BIO格式)
    优质
    本数据集为微软亚洲研究院(MSRA)于2006年发布的中文命名实体识别资源,采用BIO标注体系,涵盖人名、地名、组织机构等类别。 2006年SIGHAN命名实体识别任务的语料由MSRA提供,并已转换为BIO格式,可以直接用于NER训练。
  • 训练.7z
    优质
    命名实体识别训练数据集.7z包含用于训练和测试命名实体识别系统的标注文本数据。这些数据有助于提高对人名、地名等实体的自动识别精度。 NER(命名实体识别)涉及数据集的读取与解析工具,并提供详细的数据解释文档以及数据下载链接。