
Toxic Comment Classification: 按毒性类型区分有毒评论,如毒性、严重毒性、淫秽、威胁、侮辱等
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目致力于识别和分类在线评论中的有害言论,涵盖多种毒性形式,包括但不限于毒性、严重毒性、淫秽、威胁及侮辱等内容。通过细致的标签体系,旨在提升网络空间的质量与安全。
该项目的目标是根据毒性类型对评论进行分类。毒性的例子包括有毒、重度有毒、淫秽、威胁、侮辱和仇恨等内容。项目实施了Logistic回归、支持向量机及朴素贝叶斯等不同的机器学习技术来识别六种类型的有害评论。
数据集来自一个Kaggle竞赛,包含了大量从Wikipedia对话页面编辑中提取的评论,并由人工鉴定者标记为有毒或无毒行为。以下是该数据集中各类别样本的数量和百分比:
- 有毒:15294 (占总数的9.5%)
- 重度有毒:1595 (0.9%)
- 淫秽:8449 (5.2%)
- 威胁:478 (0.2%)
- 侮辱:7877 (4.9%)
- 讨厌的:1405 (0.8%)
数据集存在高度不平衡的问题。项目执行时使用了Spark提交命令来运行相关的机器学习模型,具体形式为:
```
spark-submit --class
全部评论 (0)
还没有任何评论哟~


