电子邮件钓鱼数据集包含大量被识别为网络钓鱼尝试的邮件样本及元数据,旨在帮助研究者开发和测试反钓鱼算法。
此数据集专为使用机器学习检测网络钓鱼电子邮件而设计。它结合了:
- 来自 Enron 电子邮件数据集的约50万封非网络钓鱼(“安全”)电子邮件。
- 来自其他来源的约2万封网络钓鱼和安全电子邮件。
每封邮件经过清理,并通过专注于识别网络钓鱼指标的定制自然语言处理(NLP)特征提取管道进行分析。目标是为分类任务提供一个即用型数据集,只需少量预处理即可使用。
列详细信息如下:
- `num_words`: 电子邮件正文中的字数总数。
- `num_unique_words`: 使用的不同单词数量。
- `num_stopwords`: 常见停用词(例如,“the”、“and”、“in”)的数量。
- `num_links`: 检测到的超链接数量。
- `num_unique_domains`: 超链接中不同域名的数量(例如,“paypal.com”)。
- `num_email_addresses`: 邮件文本中的电子邮件地址计数。
- `num_spelling_errors`: 识别出的拼写错误单词数量。
- `num_urgent_keywords`: 紧急关键词(如“紧急”,“验证”,“更新”等)的数量。
- `label`: 目标变量,0 表示安全电子邮件,1 表示网络钓鱼邮件。
注意:
此数据集不包含原始文本或邮件头信息,仅提供用于训练和测试模型的工程特征。拼写检查使用 pyspellchecker 库在筛选后的令牌上进行处理。停用词列表为固定英文词汇表,并且不含任何个人身份信息(PII)。