Advertisement

基于CRF的中文命名实体识别代码及训练数据

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本项目提供了一套基于条件随机场(CRF)模型的中文命名实体识别系统及相关训练数据集,旨在促进自然语言处理领域的研究与应用。 中文命名实体识别基于条件随机场(Conditional Random Field, CRF)的NER模型 数据集使用的是ACL 2018论文《Chinese NER using Lattice LSTM》中收集的简历数据,数据格式如下:每一行由一个字及其对应的标注组成,采用BIOES标注体系。句子之间用空行隔开。 ``` 美 B-LOC国 E-LOC的 O华 B-PER莱 I-PER士 E-PER我 O跟 O他 O谈 O笑 O风 O生 O ``` 该数据集位于项目目录下的`data`文件夹里。 运行结果的具体输出可以查看`output.txt`文件。在评估模型时,会打印出精确率、召回率、F1分数值以及混淆矩阵等信息。 环境配置方面,请先安装依赖项: ```shell pip3 install -r requirement.txt ``` 完成之后,可以通过以下命令训练和测试模型: ```shell python3 main.py > output.txt ```

全部评论 (0)

还没有任何评论哟~
客服
客服
  • CRF
    优质
    本项目提供了一套基于条件随机场(CRF)模型的中文命名实体识别系统及相关训练数据集,旨在促进自然语言处理领域的研究与应用。 中文命名实体识别基于条件随机场(Conditional Random Field, CRF)的NER模型 数据集使用的是ACL 2018论文《Chinese NER using Lattice LSTM》中收集的简历数据,数据格式如下:每一行由一个字及其对应的标注组成,采用BIOES标注体系。句子之间用空行隔开。 ``` 美 B-LOC国 E-LOC的 O华 B-PER莱 I-PER士 E-PER我 O跟 O他 O谈 O笑 O风 O生 O ``` 该数据集位于项目目录下的`data`文件夹里。 运行结果的具体输出可以查看`output.txt`文件。在评估模型时,会打印出精确率、召回率、F1分数值以及混淆矩阵等信息。 环境配置方面,请先安装依赖项: ```shell pip3 install -r requirement.txt ``` 完成之后,可以通过以下命令训练和测试模型: ```shell python3 main.py > output.txt ```
  • BERT+BiLSTM+CRF
    优质
    本研究提出了一种结合BERT、BiLSTM和CRF模型的中文命名实体识别方法,有效提升了NER任务中的精度与召回率。 基于BERT+BiLSTM+CRF的中文命名实体识别(使用PyTorch实现)的基本环境为:Python 3.8、PyTorch 1.7.1 + cu110 和 pytorch-crf 0.7.2。
  • Bert+BiLSTM+CRF
    优质
    本数据集采用BERT、BiLSTM和CRF模型结合的方法进行训练,旨在提高实体命名识别任务中的准确性和效率。 对于这篇文章的数据集,大家可以自行下载使用。
  • 集.7z
    优质
    命名实体识别训练数据集.7z包含用于训练和测试命名实体识别系统的标注文本数据。这些数据有助于提高对人名、地名等实体的自动识别精度。 NER(命名实体识别)涉及数据集的读取与解析工具,并提供详细的数据解释文档以及数据下载链接。
  • PyTorchBERT-BiLSTM-CRF
    优质
    本研究利用PyTorch框架开发了一种结合BERT、BiLSTM和CRF模型的系统,专门针对中文文本进行高效的命名实体识别,提升了实体边界检测与分类精度。 依赖:python==3.6(可选)、pytorch==1.6.0(可选)、pytorch-crf==0.7.2、transformers==4.5.0、numpy==1.22.4、packaging==21.3 温馨提示:新增了转换为onnx并进行推理的功能,具体内容在convert_onnx下,使用命令python convert_onnx.py执行。仅支持对单条数据的推理。在CPU环境下,原本的推理时间为0.714256477355957秒,转换后为0.4593505859375秒。需要安装onnxruntime和onnx库。 注意:原本的pytorch-crf不能转换为onnx,在这里使用了替代方案。目前只测试了bert_crf模型,其他模型可根据需求自行调整。 问题汇总: ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. 解决方法:pip install numpy==1.22.4 packaging.ver
  • PyTorch和BiLSTM-CRF
    优质
    本研究利用PyTorch框架开发了一种基于BiLSTM-CRF模型的系统,专门针对中文文本进行高效的命名实体识别,提升了对复杂句子结构的理解能力。 基于PyTorch+BiLSTM_CRF的中文命名实体识别 文件结构说明: - checkpoints:模型保存的位置 - data:数据位置 - |-- cnews:数据集名称 - | |-- raw_data:原始数据存储位置 - | `-- final_data:标签、词汇表等信息存储位置 - logs:日志存储位置 - utils:辅助函数存放位置,包括解码、评价指标设置、随机种子设定和日志配置等功能 文件列表: - config.py:配置文件 - dataset.py:数据转换为PyTorch的DataSet格式 - main.py:主运行程序 - main.sh:运行命令脚本 - models.py:模型定义 - process.py:预处理,包括数据处理并转换成DataSet格式 运行命令示例: ``` python main.py --data_dir=data/cnews/final_data --log_dir=logs --output_dir=checkpoints --num_tags=33 --seed=123 --gpu_ids=0 --max_seq_len=128 ```
  • LSTM+CRF、BiLSTM+CRF和LSTM CRF PyTorch
    优质
    本项目提供基于LSTM-CRF、BiLSTM-CRF模型的命名实体识别(NER)PyTorch实现,适合自然语言处理任务中的实体抽取。 需要提供可以直接运行的使用pytorch实现的LSTM+CRF、BiLSTM+CRF以及LSTM CRF进行命名实体识别的代码和数据。
  • BERT+BiLSTM+CRF方法
    优质
    本研究提出了一种结合BERT、BiLSTM和CRF模型的中文命名实体识别方法,通过深度学习技术提升NER任务效果。 基于BERT+BiLSTM+CRF的中文命名实体识别(使用PyTorch实现)的基本环境如下:Python 3.8、PyTorch 1.7.1 + cu110 和 pytorch-crf 0.7.2。
  • 双向BiLSTM-CRF
    优质
    本研究提出了一种基于双向BiLSTM-CRF模型的命名实体识别方法,有效提升了对长距离依赖和语境信息的理解能力,在多项公开数据集上取得了优异性能。 命名实体识别(Named Entity Recognition,简称NER)是自然语言处理中的一个重要任务,旨在从文本中提取具有特定意义的命名实体,例如人名、地名以及组织机构名称等。 双向BiLSTM-CRF是一种常用于命名实体识别的技术架构。它主要包括以下几个部分: 1. 双向长短期记忆网络(Bidirectional LSTM):这是一种循环神经网络结构,同时包含前向和后向两个方向的隐藏状态,通过学习上下文信息来捕捉词汇的意义特征。 2. 条件随机场模型(Conditional Random Field, CRF):CRF是一种概率图模型,用于解决序列标注问题。在命名实体识别任务中,CRF层可以根据上下文的信息优化标签序列的整体效果,从而提高模型的准确性。 为了更准确地捕捉词汇的具体特征,通常会将字符级别的信息作为输入处理。通过学习字符级别的表示方法可以增强模型的表现力和理解能力。 具体的操作流程如下: 1. 将文本切分成词组或单词,形成一个词语序列。 2. 对每个词语进行字符层面的表达转换,可利用卷积神经网络(CNN)或者长短期记忆网络等结构实现这一过程。 3. 把生成的字符级表示与词汇级别的嵌入向量结合在一起作为输入数据,并将其送入双向LSTM中。
  • BERT、BiLSTM和CRF景点
    优质
    本研究提出了一种结合BERT、BiLSTM和CRF模型的方法,专门针对中文景点文本进行命名实体识别,显著提升了实体识别的准确性和效率。 为了应对旅游文本在特征表示过程中遇到的一词多义问题,并解决旅游游记中的景点实体识别难题,特别是针对景点别名的问题,研究提出了一种结合语言模型的中文景点实体识别方法。该方法首先利用BERT语言模型提取文本中字级别的向量矩阵作为初始特征;然后采用BiLSTM来捕捉上下文信息;最后通过CRF(条件随机场)模型优化序列标注结果,从而准确地识别出旅游游记中的景点命名实体。实验结果显示,相较于现有研究的方法,该提出的模型在实际应用测试中表现出显著的性能提升,在准确率和召回率方面分别提高了8.33%和1.71%。