
基于PyTorch的WordSeg: BiLSTM-BERT-Roberta(+CRF)模型在中文分词中的应用
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本研究提出了一种结合BiLSTM、BERT和Roberta预训练模型,并可选配CRF层的创新架构,用于提升基于PyTorch框架的WordSeg系统在处理中文文本时的分词精度。
本项目旨在实现中文分词任务的基线模型代码。所涉及的模型包括BiLSTM-CRF、基于BERT的不同配置(如softmax、CRF或BiLSTM+CRF)以及罗伯塔(Roberta)的各种变体。
数据集方面,该项目使用了第二届中文分词比赛中北京大学提供的数据集。
项目中实现的具体模型如下:
- BiLSTM-CRF
- BERT-Softmax
- BERT-CRF
- BERT-LSTM-CRF
根据使用的预训练模型的不同,BERT-base-X可以转换为Roberta-X。该项目已经在Python 3.6及以上版本和PyTorch 1.5.1上进行了测试。
项目的主要依赖库包括:
- tqdm
- scikit学习(scikit-learn)
- 火炬 (torch) >= 1.5.1
- 变压器 (transformers) ==2.2.2
为解决环境问题,可以运行相应的安装命令。
全部评论 (0)
还没有任何评论哟~


