
该研究提供了一个PyTorch实现,基于BiLSTM、BERT和Roberta(+ CRF)模型,用于命名实体识别任务。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目旨在为CLUENER2020任务提供基线代码实现,所包含的模型架构涵盖了BiLSTM-CRFBERT-base 加上X (softmax/CRF/BiLSTM+CRF) 以及Roberta + X (softmax/CRF/BiLSTM+CRF)。此外,本项目BERT-base-X部分的编码逻辑借鉴了参考文档。项目详情的详细说明可查阅知乎文章。数据集的实验数据来源于清华大学开源的文本分类数据集THUCNEWS,并从中选取一部分数据进行精细化的命名实体标注。该数据集包含了训练集、验证集和测试集,具体规模分别为10748条、1343条和1345条,平均句子长度为37.4个字,最长句子则达到50个字。由于测试集并未直接提供,为了应对leaderboard提交次数的限制,本项目采用了CLUENER2020的验证集作为评估模型性能的标准。CLUENER2020总共有10个...
全部评论 (0)
还没有任何评论哟~


