包含的中文命名实体识别语料包括MSRA、人民日报和Boson数据集。

5星

浏览量: 0

大小:None

文件类型：None

简介：
该数据集作为命名实体识别任务的补充语料而设计，其中包含了微软亚研院（MSRA）提供的46365条标注数据、人民日报的23061条标注数据以及Boson收集的2000条标注数据。这些数据均已进行详细标注，并且具有极高的实用价值，特别适合初学者作为入门级的模型训练练习。

全部评论 (0)

还没有任何评论哟~

客服

中文命名实体识别数据集（MSRA+人民日报+Boson）

优质

本数据集整合了MSRA、人民日报及Boson三个来源的中文文本，涵盖大量人名、地名、组织名等实体标签，适用于训练高质量的中文命名实体识别模型。适合作为命名实体识别的补充语料包括微软亚洲研究院MSRA：46365条语料、人民日报：23061条语料以及Boson: 2000条语料，这些数据都已经标注过，非常实用，适合新手作为模型练习使用。

MSRA（NER）命名实体识别数据集

优质

MSRA NER是微软亚洲研究院开发的一个汉语命名实体识别数据集，包含大量标注的人名、地名和组织机构名称，广泛应用于自然语言处理研究。我们收藏的二十余册出版物来自晋察冀抗日根据地（1937年—1945年）。

MSRA-NER中文命名实体辨识

优质

MSRA-NER是微软亚洲研究院开发的一种先进的中文文本处理工具，专注于识别和分类文本中的名称实体，如人名、地名等，以支持信息抽取与问答系统。 MSRA-NER 数据集由微软亚洲研究院发布，其目标是识别文本中具有特定意义的实体，包括人名、地名和机构名。

中文NER命名实体识别数据集

优质

中文NER（Named Entity Recognition）数据集是一套专门用于识别中文文本中人名、地名和组织机构等命名实体的语料库，旨在促进自然语言处理技术的发展。中文命名实体识别数据集非常实用。它涵盖了组织、机构和个人三个方面的实体。

中文Weibo命名实体识别数据集

优质

本数据集为中文微博文本设计，旨在进行命名实体识别研究，涵盖人名、地名与组织名等类别，促进自然语言处理技术的发展。自然语言处理的子任务命名实体识别在中文数据集方面非常全面。

已处理的人民日报语料，适合用于CRF模型进行命名实体识别训练

优质

本数据集包含经过处理的人民日报文本资料，专为基于CRF（条件随机场）算法的命名实体识别系统训练而设计。处理好的人民日报语料用于命名实体识别任务。这两个文件分别包含字符集和词语级数据。

MSRA 命名实体语料库 BIO 架构.zip

优质

本资料包包含微软亚洲研究院开发的命名实体识别语料库，采用BIO标注体系，适用于中文自然语言处理任务中的实体抽取研究。 2006年，微软亚洲研究院（Microsoft Research Asia, MSRA）发布了BIO格式的标注语料，总共有46365条记录。

命名实体识别的数据集.rar

优质

本资源包含一个用于训练和测试命名实体识别模型的数据集，适用于自然语言处理任务，帮助提高对人名、地名及组织机构等实体的识别精度。该数据集用于训练命名实体识别模型的数据集，包含六种标签：人名、地名、时间、组织机构名、公司名及产品名，并遵循BIO编码规则。此数据集中包括三个文件——训练集、测试集与验证集。以下为样例内容：以 O 及 O 康 B-COMPANY_NAME 宽 I-COMPANY_NAME 为代表的国外专利产品低毒杀虫剂吡 B-PRODUCT_NAME 虫 I-PRODUCT_NAME 茚 I-PRODUCT_NAME 和 O 生物农药阿 B-PRODUCT_NAME 维 I-PRODU

命名实体识别标注语料

优质

该命名实体识别标注语料包含丰富的文本数据，已经人工标注了各类命名实体如人名、地名和组织机构名等信息，适用于训练与评估相关模型。已经标记好标签的中文命名实体识别语料库采用BIM标志形式。包括人名、地点、时间及机构名称。

人民日报语料库——数据集更新通知

优质

本数据集为人民日报语料库的定期更新版本，包含最新的新闻文章和评论，旨在支持自然语言处理研究与应用。这个语料库自带分词功能。

是否确定退出登录?

包含的中文命名实体识别语料包括MSRA、人民日报和Boson数据集。

全部评论 (0)