Advertisement

电子邮件钓鱼数据集

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
电子邮件钓鱼数据集包含大量被识别为网络钓鱼尝试的邮件样本及元数据,旨在帮助研究者开发和测试反钓鱼算法。 此数据集专为使用机器学习检测网络钓鱼电子邮件而设计。它结合了: - 来自 Enron 电子邮件数据集的约50万封非网络钓鱼(“安全”)电子邮件。 - 来自其他来源的约2万封网络钓鱼和安全电子邮件。 每封邮件经过清理,并通过专注于识别网络钓鱼指标的定制自然语言处理(NLP)特征提取管道进行分析。目标是为分类任务提供一个即用型数据集,只需少量预处理即可使用。 列详细信息如下: - `num_words`: 电子邮件正文中的字数总数。 - `num_unique_words`: 使用的不同单词数量。 - `num_stopwords`: 常见停用词(例如,“the”、“and”、“in”)的数量。 - `num_links`: 检测到的超链接数量。 - `num_unique_domains`: 超链接中不同域名的数量(例如,“paypal.com”)。 - `num_email_addresses`: 邮件文本中的电子邮件地址计数。 - `num_spelling_errors`: 识别出的拼写错误单词数量。 - `num_urgent_keywords`: 紧急关键词(如“紧急”,“验证”,“更新”等)的数量。 - `label`: 目标变量,0 表示安全电子邮件,1 表示网络钓鱼邮件。 注意: 此数据集不包含原始文本或邮件头信息,仅提供用于训练和测试模型的工程特征。拼写检查使用 pyspellchecker 库在筛选后的令牌上进行处理。停用词列表为固定英文词汇表,并且不含任何个人身份信息(PII)。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 优质
    电子邮件钓鱼数据集包含大量被识别为网络钓鱼尝试的邮件样本及元数据,旨在帮助研究者开发和测试反钓鱼算法。 此数据集专为使用机器学习检测网络钓鱼电子邮件而设计。它结合了: - 来自 Enron 电子邮件数据集的约50万封非网络钓鱼(“安全”)电子邮件。 - 来自其他来源的约2万封网络钓鱼和安全电子邮件。 每封邮件经过清理,并通过专注于识别网络钓鱼指标的定制自然语言处理(NLP)特征提取管道进行分析。目标是为分类任务提供一个即用型数据集,只需少量预处理即可使用。 列详细信息如下: - `num_words`: 电子邮件正文中的字数总数。 - `num_unique_words`: 使用的不同单词数量。 - `num_stopwords`: 常见停用词(例如,“the”、“and”、“in”)的数量。 - `num_links`: 检测到的超链接数量。 - `num_unique_domains`: 超链接中不同域名的数量(例如,“paypal.com”)。 - `num_email_addresses`: 邮件文本中的电子邮件地址计数。 - `num_spelling_errors`: 识别出的拼写错误单词数量。 - `num_urgent_keywords`: 紧急关键词(如“紧急”,“验证”,“更新”等)的数量。 - `label`: 目标变量,0 表示安全电子邮件,1 表示网络钓鱼邮件。 注意: 此数据集不包含原始文本或邮件头信息,仅提供用于训练和测试模型的工程特征。拼写检查使用 pyspellchecker 库在筛选后的令牌上进行处理。停用词列表为固定英文词汇表,并且不含任何个人身份信息(PII)。
  • 网络:基于机器学习(AI模型)收
    优质
    本数据集专注于收集各类网络钓鱼邮件样本,旨在为研究者提供训练和测试机器学习及AI模型所需的数据资源。 这个数据集包含了网络钓鱼邮件的信息。网络钓鱼是一种欺诈行为,通过伪装成合法通信的电子邮件来诱骗收件人提供敏感信息,例如用户名、密码或信用卡详情等。该数据集可以用于研究开发反钓鱼技术,帮助识别和防止此类攻击。 此综合性数据集由研究人员整理而成,旨在让学者们分析网络钓鱼邮件的特点,并改进检测方法。它整合了多个来源的电子邮件数据,包括Enron、Ling、CEAS、Nazario以及尼日利亚诈骗等不同类型的邮件集合,涵盖了邮件正文、主题行和发件人及收件人的信息等内容。 最终的数据集共有大约82,500封邮件,其中42,891封为网络钓鱼邮件,39,595封为合法的电子邮件。这些数据可用于训练机器学习模型以提升识别网络钓鱼邮件的能力。每一封邮件都有明确标记,方便研究人员进行分类和分析工作。此外,该数据集还被用于基于BERT技术构建自然语言处理模型,从而提高对网络钓鱼邮件检测的有效性。
  • -
    优质
    本数据集包含大量电子邮件样本及其分类标签,适用于垃圾邮件检测、主题分类等应用场景的研究与开发。 电子邮件网络由邮箱作为节点,通过邮箱之间发送邮件形成的连接构成。
  • PhiUSIIL网络URL
    优质
    PhiUSIIL网络钓鱼URL数据集是一份收集了大量网络钓鱼网址的数据集合,旨在帮助研究人员识别和防范此类网络安全威胁。 PhiUSIIL 钓鱼 URL 数据集包含 134,850 个合法 URL 和 100,945 个钓鱼 URL。在构建数据集中,我们主要分析了最新的 URL。特征是从网页和 URL 的源代码中提取的,包括 CharContinuationRate、URLTitleMatchScore、URLCharProb 和 TLDLegitimateProb 等。 PhiUSIIL 是一个基于相似度指数和增量学习的多样化安全配置文件增强的网络钓鱼 URL 检测框架。作者为 Arvind Prasad 和 Shalini Chandra,发表于《计算机与安全》期刊,2024 年。
  • 优质
    电子邮件数据集是一系列用于训练和测试机器学习模型的数据集合,包含大量的邮件文本及分类标签信息。 机器学习实战读书笔记(四):介绍了朴素贝叶斯算法所用到的email数据集。
  • .rar
    优质
    电子邮件数据集.rar包含大量结构化和非结构化的电子邮件样本,适用于训练分类算法、语言模型及研究。 垃圾邮件分类数据集包含了用于识别和过滤垃圾邮件的各类电子邮件样本。这些样本经过仔细筛选和标记,能够帮助开发人员训练机器学习模型以提高对垃圾邮件的检测能力。该数据集广泛应用于研究领域,并且对于提升用户邮箱体验具有重要意义。
  • 中文.rar
    优质
    中文电子邮件数据集包含了大量真实的、多样化的中文电子邮件样本,旨在为自然语言处理和机器学习研究提供资源。该数据集适用于文本分类、情感分析等多种应用场景的研究与开发工作。 测试垃圾邮件的数据集。
  • 利用LSTM进行检测:从提取到模型训练.zip
    优质
    本项目探讨了使用长短时记忆网络(LSTM)来识别钓鱼邮件的有效性。通过系统地处理和解析邮件数据,并对LSTM模型进行训练,旨在提升邮件安全防护水平。 LSTM(长短期记忆网络)是一种特殊的循环神经网络架构,专门用于处理具有长期依赖关系的序列数据。传统的RNN在面对较长序列时会遇到梯度消失或梯度爆炸的问题,这使得它们难以有效捕捉到长时间跨度的信息联系。为解决这些问题,LSTM引入了门控机制和记忆单元。 LSTM的基本结构包括以下几个主要组件: - **记忆单元(Memory Cell)**:这是LSTM的核心部分,负责存储长期信息。它像一个连续的链路,在整个序列上运行,并且仅通过少量线性交互来保持数据不变。 - **输入门(Input Gate)**:该机制决定哪些新的信息会被添加到记忆单元中。这个决策基于当前时刻的输入和前一时刻隐藏状态的信息作出。 - **遗忘门(Forget Gate)**:它的作用是确定从记忆单元中丢弃哪些旧的信息,同样地,这一决定也是根据当前时刻的输入以及上一个时间点的隐藏状态来做出。 - **输出门(Output Gate)**:此机制决定了来自记忆单元中的信息会以何种形式被传递到下一个时间步的隐藏状态。这个过程也依赖于当前时刻的输入和前一时刻的状态。 LSTM的工作流程可以概括为: 1. 通过遗忘门来决定从记忆单元中清除哪些旧的信息。 2. 利用输入门来确定新信息将如何加入到记忆单元里。 3. 更新记忆单元的内容,以反映最新的变化情况。 4. 最后,借助输出门选择性地让部分或全部的记忆内容影响当前时间步的隐藏状态。 由于其独特的设计能够有效处理长期依赖关系,LSTM在许多序列建模任务中表现出色。例如,在语音识别、文本生成、机器翻译及时间序列预测等领域都取得了显著成就。
  • 利用LSTM进行检测:从提取到模型训练.zip
    优质
    本项目探讨了使用长短期记忆网络(LSTM)对钓鱼邮件进行自动识别的方法。从邮件文本数据的预处理和特征提取入手,逐步介绍如何构建并优化LSTM模型以提升检测准确性。 LSTM(长短期记忆网络)是一种特殊的循环神经网络架构,用于处理具有长期依赖关系的序列数据。传统的RNN在处理长序列时往往会遇到梯度消失或梯度爆炸的问题,导致无法有效地捕捉长期依赖。为了解决这些问题,LSTM通过引入门控机制和记忆单元来优化性能。 以下是LSTM的基本结构及其主要组件: - **记忆单元(Memory Cell)**:这是LSTM的核心部分,用于存储长期信息。它像一个持续运行的传送带,在整个序列中保持信息不变。 - **输入门(Input Gate)**:该门决定了哪些新的数据会被加入到记忆单元中。其决定依据是当前时刻的数据和上一时刻隐藏状态的信息。 - **遗忘门(Forget Gate)**:此门负责确定从记忆单元丢弃哪部分旧信息,同样基于当前的输入与前一时段的状态做出决策。 - **输出门(Output Gate)**:该机制控制哪些内容会由记忆单元传递到下一个时刻的隐藏状态中。其决定也依赖于当前输入和上一时间点的信息。 LSTM的工作流程大致如下: 1. 使用遗忘门确定从记忆单元移除什么信息; 2. 利用输入门来选择新数据加进内存; 3. 更新记忆细胞的状态,以反映上述决策的结果; 4. 最后通过输出门决定哪些内容将被发送到下一个时间点的隐藏状态。 由于LSTM能够有效地处理长期依赖关系,在语音识别、文本生成、机器翻译和时序预测等众多序列建模任务中表现出色。
  • 攻击的追踪与溯源.pdf
    优质
    本文探讨了如何有效追踪和溯源电子邮件中的钓鱼攻击,提供了识别、防范及应对策略,以增强网络安全防御能力。 邮件钓鱼攻击溯源涉及对恶意电子邮件的来源进行追踪和分析,以识别并阻止网络犯罪分子发起进一步的攻击行为。这项工作通常包括检查邮件头信息、IP地址以及域名等关键数据,从而确定攻击者的地理位置和技术手段,并采取相应措施保护用户安全。