
有毒评论分类(Kaggle挑战): 代码与写作分析
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目参与了Kaggle有毒评论分类竞赛,通过细致的数据预处理、特征工程及模型训练,结合详尽的实验报告和代码注释,旨在提升文本毒性检测准确率。
在Kaggle的有毒评论分类挑战中获得了第33名的成绩,私人排行榜得分为0.9872,在4551个团队中排名第33;公众排行榜得分是0.9876,同样排第33位。
我们的任务是在多标签分类问题上进行处理,具体来说就是将在线评论归类为六种类型:toxic、severe_toxic、obscene、threat、insult和identity_hate。比赛的评估标准是对每个预测类别计算AUC值,并取这些AUC值的平均数作为最终得分。
方法概述如下:
- 使用在竞赛数据上本地训练得到的fastText嵌入。
- 预训练嵌入(包含相似性插补)用于模型构建,其中表现最佳的是以下三种模型:
1. CapsuleNet:私人排行榜得分为0.9860,公开排行榜为0.9859;
2. RNN版本1:私人评分为0.9858,公开评分为0.9863;
3. RNN版本2:私人评分为0.9856,公开评分为0.9861。
全部评论 (0)
还没有任何评论哟~


