
基于PyTorch的中文文本分类模型训练:TextCNN、TextRNN、FastText和Transformer等
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
本项目使用Python深度学习框架PyTorch,实现并比较了多种中文文本分类模型(包括TextCNN、TextRNN、FastText及Transformer),旨在探索不同架构在中文NLP任务中的表现。
基于Pytorch实现中文文本分类模型的训练工作涉及多种架构如TextCNN、TextRNN、FastText、TextRCNN、BiLSTM_Attention, DPCNN以及Transformer。
所需依赖环境包括:
- Python 3.7版本;
- Pytorch 1.1版;
- tqdm库;
- sklearn工具包;
- tensorboardX插件;
数据集来源于THUCNews,包含20万条中文新闻标题样本。这些文本的长度在20至30字之间,并且有十个不同的类别标签,每个类别的训练实例为两万个。
具体分类包括:
- 财经
- 房产
- 股票
- 教育
- 科技
- 社会
- 时政
- 体育
- 游戏
- 娱乐
若使用自定义数据集,需遵循如下规则:如果是基于字级别的模型,则按照现有格式进行调整;若是词级别的话,请先完成分词处理,并确保各词汇间以空格相隔。运行命令时可以通过指定“--word True”来启用此选项。
另外,在utils.py文件的main函数中可以提取预训练好的词向量,这一步骤对于提升模型性能非常关键。
全部评论 (0)
还没有任何评论哟~


