
基于CRF的中文命名实体识别代码及训练数据
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目提供了一套基于条件随机场(CRF)模型的中文命名实体识别系统及相关训练数据集,旨在促进自然语言处理领域的研究与应用。
中文命名实体识别基于条件随机场(Conditional Random Field, CRF)的NER模型
数据集使用的是ACL 2018论文《Chinese NER using Lattice LSTM》中收集的简历数据,数据格式如下:每一行由一个字及其对应的标注组成,采用BIOES标注体系。句子之间用空行隔开。
```
美 B-LOC国 E-LOC的 O华 B-PER莱 I-PER士 E-PER我 O跟 O他 O谈 O笑 O风 O生 O
```
该数据集位于项目目录下的`data`文件夹里。
运行结果的具体输出可以查看`output.txt`文件。在评估模型时,会打印出精确率、召回率、F1分数值以及混淆矩阵等信息。
环境配置方面,请先安装依赖项:
```shell
pip3 install -r requirement.txt
```
完成之后,可以通过以下命令训练和测试模型:
```shell
python3 main.py > output.txt
```
全部评论 (0)
还没有任何评论哟~


