Nester是一种创新的NER(命名实体识别)模型,发表于TACL 2020。它借鉴了Transformer架构,显著提升了实体识别任务中的性能和效率。
嵌套命名实体识别的实现涉及处理某些文件的一部分内容。我们使用了以下库进行测试:Python 3.7、Flask 1.3.0、nltk 1.17.3、transformers 0.0.5 和 torchtext 0.2.0,用于访问Java Stanford CoreNLP服务器(版本3.9.2)和jinja2库(版本2.11)。进行实验时使用了样本数据,并通过运行gen_data.py脚本来生成训练所需的已处理数据文件。这些文件将被放置在“./data/”目录中,命令为:python gen_data.py。
接着,可以通过运行train.py开始模型的训练过程,具体命令如下:
```
python train.py
```
为了在ACE-2004数据集上重现我们的实验,请按照以下步骤操作:
1. 将语料库放入“../ACE2004/”目录。
2. 解压缩文件后运行parse_ace2004.py以提取用于训练的句子。生成的数据将被放置在“./data/ace2004/”中,命令为:
```
python parse_ace2004.py
```
最后,通过执行gen_data_for_ace2来准备数据集。
```
python gen_data_for_ace2
```