Advertisement

弱监督下的NER:构建无标注数据的命名实体识别模型框架

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本研究提出一种基于弱监督学习的命名实体识别(NER)方法,通过利用未标注文本数据训练模型,旨在减少对大量标注数据的依赖。该框架为资源有限的语言或领域提供了有效的NER解决方案。 对NER的监管不力与ACL 2020接受的论文“无标签数据下的命名实体识别:弱监督方法”相关的源代码有关。 首先,请确保安装以下Python软件包: - spacy(版本>=2.2) - hmmlearn - snips-nlu-parsers - pandas - numba - scikit-learn 您还需要在Spacy中安装en_core_web_sm和en_core_web_md模型。 若要运行ner.py中的神经网络模型,还需安装pytorch、cupy、keras和tensorflow。 最后,请确保已安装snorkel以运行基线代码。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • NER
    优质
    本研究提出一种基于弱监督学习的命名实体识别(NER)方法,通过利用未标注文本数据训练模型,旨在减少对大量标注数据的依赖。该框架为资源有限的语言或领域提供了有效的NER解决方案。 对NER的监管不力与ACL 2020接受的论文“无标签数据下的命名实体识别:弱监督方法”相关的源代码有关。 首先,请确保安装以下Python软件包: - spacy(版本>=2.2) - hmmlearn - snips-nlu-parsers - pandas - numba - scikit-learn 您还需要在Spacy中安装en_core_web_sm和en_core_web_md模型。 若要运行ner.py中的神经网络模型,还需安装pytorch、cupy、keras和tensorflow。 最后,请确保已安装snorkel以运行基线代码。
  • MSRA(NER
    优质
    MSRA NER是微软亚洲研究院开发的一个汉语命名实体识别数据集,包含大量标注的人名、地名和组织机构名称,广泛应用于自然语言处理研究。 我们收藏的二十余册出版物来自晋察冀抗日根据地(1937年—1945年)。
  • 中文NER
    优质
    中文NER(Named Entity Recognition)数据集是一套专门用于识别中文文本中人名、地名和组织机构等命名实体的语料库,旨在促进自然语言处理技术的发展。 中文命名实体识别数据集非常实用。它涵盖了组织、机构和个人三个方面的实体。
  • 基于双向LSTM(NER)
    优质
    本研究提出了一种基于双向长短期记忆网络(Bi-LSTM)的命名实体识别模型,有效提升了NER任务中的实体边界与类型判定精度。 使用双向LSTM进行命名实体识别(NER)可以提高模型对序列数据的理解能力,因为它同时考虑了上下文的信息。这种方法在处理自然语言任务中表现出了很好的效果。
  • 语料
    优质
    该命名实体识别标注语料包含丰富的文本数据,已经人工标注了各类命名实体如人名、地名和组织机构名等信息,适用于训练与评估相关模型。 已经标记好标签的中文命名实体识别语料库采用BIM标志形式。包括人名、地点、时间及机构名称。
  • BIO(NER)语料库.rar
    优质
    本资源为BIO标记体系的命名实体识别(NER)语料库压缩包,适用于训练和评估自然语言处理中的实体抽取模型。 BIO NER 命名实体识别语料集。
  • 基于BERTPyTorchNER)源码
    优质
    这段简介可以描述为:“基于BERT的PyTorch命名实体识别(NER)源码”是一个利用预训练语言模型BERT和深度学习框架PyTorch实现的高效准确的自然语言处理工具,专用于从文本中自动抽取实体信息。 伯特·纳尔使用Google的BERT进行CoNLL-2003命名实体识别任务。通过Python训练模型,并用C++进行推理。安装所需库需执行如下命令:`pip3 install -r requirements.txt`,随后运行脚本 `python run_ner.py --data_dir=data/ --bert_model=bert-base-cased --task_name=ner --output_dir=out_base --max_seq_length=128 --do_train --num_train_epochs 5 --do_eval --warmup_proportion=0.1`。训练完成后,BERT库在验证数据上的表现如下:PER类别的精确度为0.9677,召回率为0.9745。
  • pytorch-flask-deploy-webapp:基于PyTorch医疗AI(NER)...
    优质
    pytorch-flask-deploy-webapp 是一个利用 PyTorch 开发的医疗领域 AI 命名实体识别(NER)模型项目,通过 Flask 实现 Web 应用部署。 MedicalNER:使用Flask和Docker作为Web App部署PyTorch NER模型 一个漂亮且可自定义的Web应用程序,可以轻松地将您的深度学习(DL)模型进行部署。 注意此仓库可用于部署任何类型的ML或DL模型,而不仅仅是NER模型。 使用演示: 1. 克隆仓库 ``` $ git clone https://github.com/SuperBruceJia/pytorch-flask-deploy-webapp.git ``` 2. 构建Docker镜像 ``` $ docker build -t ner-model . ``` 3. 为上面的图像制作并运行一个容器 ``` $ docker run -e LANG ```
  • MaxEnt-NER-Tagger: 最大熵(NER)代码库
    优质
    MaxEnt-NER-Tagger是一款基于最大熵模型的高效命名实体识别(NER)工具包。此代码库为自然语言处理任务提供了精准的实体抽取功能,助力于信息提取与语义理解研究。 最大熵NER标记器可以在线获取。该项目的目标是实施并训练模型。大多数功能构建工具的功能都是使用一个强大的开源自然语言处理库实现的,该库用Python/Cython编写,并具有工业级实力。为了分类任务,采用了最大熵(MaxEnt)分类器。 数据集主要由路透社新闻组成,经过预处理的数据文件中每行包含一个标记、词性标签、BIO组块标签以及相应的NER标签。实验表明,SpaCy内置的特征工程功能最为有效。尝试使用外部词汇表如Wikipedia地名词典通常不会提高标注准确性。 由于数据集规模较大,在最终提交时未包括地名词典的相关源代码和文件。此外,我还通过将先前的状态/标记作为额外的功能来提升模型性能进行了试验,但结果发现这并未显著改变模型的表现,可能是因为每个标签仍然在模型中以其他特征的形式存在。
  • CRF
    优质
    CRF命名实体识别模型是一种利用条件随机场算法进行自然语言处理中命名实体抽取的有效方法,广泛应用于文本挖掘与信息提取领域。 NER技术能够实现命名实体识别,可以从中找出人名、地名、年份以及组织机构名称等信息。