本研究开发了一种专门针对糖尿病相关文本信息的命名实体识别模型,旨在提高疾病术语及关键信息的自动抽取效率与准确性。
随着信息技术的发展,在糖尿病领域的信息记录中电子文档得到了广泛应用。通过自动化技术对这些电子文档进行分析具有重大意义。然而,现有的命名实体识别方法在这一领域中的准确率较低,为改善这种情况,我们提出了一种双层双向长短时记忆神经网络条件随机场模型(Bi-LSTM-CRF),并将其应用到糖尿病领域的命名实体识别任务中。
实验结果表明,在包含15种类别的验证数据集上,该模型的平均准确率为89.14%,并且在外部测试集中其F1值为72.89%。这些结果显示了Bi-LSTM-CRF模型的有效性。目前,糖尿病领域命名实体识别任务中缺乏成熟的自动化技术来支持实体识别工作。
为此,我们提出采用双层Bi-LSTM-CRF模型来进行糖尿病领域的命名实体识别,并且该模型在实验数据集上表现良好,其平均准确率达到89.14%,外部测试集上的F1值为72.89%。此外,在小规模的糖尿病领域实体识别数据集中,提出的双层Bi-LSTM-CRF命名实体识别模型已经取得了较好的效果。
然而,该模型尚未在大规模的数据集上进行实验验证。未来的研究将致力于进一步提升此模型的性能,并将其应用于更大范围内的糖尿病领域的命名实体任务中。