
Trec06中文垃圾邮件数据集合
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
Trec06中文垃圾邮件数据集是由国内外研究机构联合发布的用于评估反垃圾邮件技术效果的标准测试集。
电子邮件是互联网的一项重要服务,在学习、工作和生活中被广泛使用。然而,大家的邮箱常常会被各种垃圾邮件填充。据统计,每天产生的垃圾邮件数量达到几百亿至近千亿级别。因此,对电子邮件服务提供商而言,提供有效的垃圾邮件过滤功能至关重要。
朴素贝叶斯算法在识别垃圾邮件的任务中一直表现出色,并且至今仍有许多系统采用该算法作为基本的垃圾邮件识别方法。
本次实验的数据集来自Trec06的一个中文垃圾邮件数据集。解压后的目录包含三个文件夹:data目录下存放了所有的原始邮件(未分词),已处理过的文本在data_cut目录中,标签信息则存储于label文件夹内。每封电子邮件由两部分组成——邮件头和正文,并且这两部分之间通常会有一行空格作为间隔。“spam”表示垃圾邮件,“ham”代表正常邮件。
全部评论 (0)
还没有任何评论哟~


