
BERT与ERNIE在中文文本分类中的应用-Pytorch实现
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文介绍了如何使用Pytorch框架实现BERT和ERNIE模型在中文文本分类任务上的应用,并分享了实验结果。
Bert-Chinese-Text-Classification-Pytorch是一个用于中文文本分类的项目,使用了BERT和ERNIE模型,并基于PyTorch框架开发,开箱即用。
该项目包括对所使用的模型介绍以及数据流动过程的描述(这部分内容尚未完成,完成后会更新至相关文档中)。由于近期工作繁忙且类似资料较多,作者暂时没有时间进行详细撰写。项目运行所需的硬件配置为一块2080Ti显卡,并在30分钟内完成了训练。
环境要求如下:
- Python 3.7
- PyTorch 1.1
- Tqdm、sklearn和TensorboardX等库
预训练代码已上传至GitHub,无需使用pytorch_pretrained_bert库。中文数据集是从新闻标题中抽取了20万条记录组成,每条文本长度在20到30个字符之间,并被分为10个类别(财经、房产、股票、教育、科技、社会、时政、体育、游戏和娱乐),每个类包含2万条目。数据集是以字为单位输入模型的。
数据集划分情况如下:
- 训练集:共18万样本
- 验证集:共1万样本
- 测试集:共1万样本
若需使用自己的数据进行训练,可以参考该文档并根据自身需求调整相关代码。
全部评论 (0)
还没有任何评论哟~


