Advertisement

Microsoft恶意软件分类挑战:超越Microsoft Malware Classification Challenge...

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
微软恶意软件分类挑战是由微软发起的一个数据科学竞赛,旨在通过改进恶意软件的分类和识别来增强计算机安全。参与者需利用提供的大量恶意软件样本进行训练,创建模型以准确预测新型威胁的类别。此挑战促进了先进算法和技术的发展,有助于保护全球用户免受网络犯罪侵害。 微软恶意软件分类挑战(BIG 2015)的基准已被超越,我的解决方案在排行榜上的得分为0.1826662。该方案很简单,但数据准备过程较为繁琐。它仅利用.byte文件来预测类别,并通过计算两字节代码(从00到FF以及??)的频率来进行预测。 要在使用这些文件之前进行以下步骤: - 从训练和测试7z中提取.byte文件。 - 将.byte文件压缩为.byte.gz格式并移动至train_gz/ test_gz目录下。这两个步骤会花费大量时间,大约6小时左右。 完成以上操作后,您将拥有10868个训练文件以及10873个gz格式的测试文件。 最后运行以下命令: python data_consolidation.py

全部评论 (0)

还没有任何评论哟~
客服
客服
  • MicrosoftMicrosoft Malware Classification Challenge...
    优质
    微软恶意软件分类挑战是由微软发起的一个数据科学竞赛,旨在通过改进恶意软件的分类和识别来增强计算机安全。参与者需利用提供的大量恶意软件样本进行训练,创建模型以准确预测新型威胁的类别。此挑战促进了先进算法和技术的发展,有助于保护全球用户免受网络犯罪侵害。 微软恶意软件分类挑战(BIG 2015)的基准已被超越,我的解决方案在排行榜上的得分为0.1826662。该方案很简单,但数据准备过程较为繁琐。它仅利用.byte文件来预测类别,并通过计算两字节代码(从00到FF以及??)的频率来进行预测。 要在使用这些文件之前进行以下步骤: - 从训练和测试7z中提取.byte文件。 - 将.byte文件压缩为.byte.gz格式并移动至train_gz/ test_gz目录下。这两个步骤会花费大量时间,大约6小时左右。 完成以上操作后,您将拥有10868个训练文件以及10873个gz格式的测试文件。 最后运行以下命令: python data_consolidation.py
  • Kaggle-Malware:微的第三名解题方案
    优质
    本项目是针对微软在Kaggle平台上发起的恶意软件分类挑战赛中获得第三名的解决方案分享,详细介绍了模型构建、特征工程和算法选择等关键环节。 Kaggle 第三名解决方案由米哈伊尔·特罗菲莫夫、德米特里·乌里扬诺夫和斯坦尼斯拉夫·谢苗诺夫提供,在私人排行榜上获得了 0.0040 分。 为了重现提交,请确保检查 `./src/set_up.py` 文件中的路径设置。随后,执行以下步骤: 1. 运行脚本:运行 `./create_dirs.sh` 2. 切换目录至源代码文件夹并运行主脚本: ``` cd ./src ./main.sh ``` 3. 返回到顶层目录。 4. 执行 Jupyter 笔记本段落件,包括以下内容: - learning-main-model.ipynb - learning-4gr-only.ipynb - semi-supervised-trick.ipynb - final-submission-builder.ipynb 所需依赖关系如下: - Python 2.7.9 或 Python 3.1.0 - sklearn 0.16.1 - numpy 1.9.2 - pandas 0.16.0 - scikit-image 1.1.1 - pypy 2.5.1(安装了 joblib 0.8.4) - scipy 0.15.1 - xgboost
  • Static Malware Analysis Python: Android 静态
    优质
    《Static Malware Analysis Python: Android静态恶意软件分析》是一本专注于利用Python进行Android应用静态安全评估的专业书籍。通过本书,读者可以学习到如何使用Python脚本来自动化提取和解析APK文件中的元数据、代码逻辑等信息,并以此为基础识别潜在的恶意行为特征。书中不仅涵盖了基础的数据结构与正则表达式知识,还深入探讨了各种分析工具及框架的应用技巧,旨在帮助安全分析师高效地开展Android应用的安全审计 静态恶意软件分析提供了Android的静态恶意软件分析所需的所有必需的Python代码和数据集。请参阅HTML文件以获取完整的文档。
  • 样本来源(Malware-Sample-Sources)
    优质
    恶意软件样本来源项目致力于收集和分析各类网络威胁中的恶意代码实例,为安全研究人员提供详实的数据支持与研究资源。 恶意软件样本源-恶意软件样本库的集合 这是一个旨在使恶意软件分析人员更容易找到病毒样本进行分析、研究、逆向工程或审查的项目。 恶意软件很难发现,更难对所有可能的地方都有深刻的了解。 这是一个活跃的存储库,在其中我们尝试记录尽可能多的资源以帮助您的工作。 在处理这些文件时,请务必格外小心,因为众所周知,这些文件是由其原始作者故意设计和开发的恶意程序。 我们坚信透明性,并希望好人能够拥有正确的访问权限和工具来分析这些恶意文件。 我们欢迎所有需求和贡献! 请记住,这些都是实时存在的危险恶意软件! 除非您完全确定自己在做什么,请勿运行它们! 它们仅用于教育目的。 我们强烈建议您在一个原始的沙盒环境或无法连接互联网的专用虚拟机中查看这些文件。 如果不小心使用,可能会感染自己的系统或其他人的设备! 无需注册以下存储库是最容易上手的,因为它们不需要注册或特殊访问权限。
  • 数据集
    优质
    本数据集包含各类恶意软件样本及其特征信息,旨在为研究人员提供一个全面分析与研究恶意软件的基础平台。 为了有效地分析和分类大量的文件数据,并利用已知的恶意软件样本进行训练,参赛者需要预测每个新的恶意软件样本属于哪一类(家族)。这是一个多分类问题,包含9个类别,用数字0到8来标识。 近年来,恶意软件行业已经成为一个涉及大量资金并且高度组织化的领域。许多大型企业集团投入巨资开发反恶意软件机制以查找和阻止肆意妄为的恶意软件开发者。与此同时,这些恶意软件给使用计算机系统的用户带来了诸多不必要的烦恼以及经济损失。 数据集由训练部分和测试部分组成,总共有超过10万个样本,并包含70个字段信息。其中,“id”字段是每个样本唯一的标识符,“label”表示该样本所属的恶意软件类别。从整个数据集中抽取5万条作为训练集,8千条作为测试集,并对某些敏感的信息进行脱敏处理。 特别需要注意的是,特征主要来源于asm文件信息,例如“linecount_asm”代表asm文件中的行数,“size_asm”则表示asm文件大小。其他与asm相关的特征字段都以“asm_commands”为前缀,这些可以理解为在asm中使用的特定命令。
  • 析实技巧
    优质
    《恶意软件分析实战技巧》一书深入浅出地介绍了如何识别、检测和应对各类恶意软件威胁,提供了一系列实用的技术与策略。 恶意代码分析实战.pdf 这本书提供了深入的指导和实用的方法来帮助读者理解和应对各种类型的恶意软件威胁。书中涵盖了从基础理论到高级技术的全面知识,并通过实际案例展示了如何进行有效的恶意代码分析,以保护计算机系统免受攻击。
  • 析实技巧
    优质
    《恶意软件分析实战技巧》是一本深入讲解如何识别、分析和应对各类恶意软件的专业书籍,适合安全研究人员和技术爱好者阅读。 恶意代码分析实战涉及对各种有害程序的深入研究与剖析,旨在识别其工作原理、传播机制及潜在威胁,并开发相应的防护措施和技术手段。通过实际操作演练,参与者能够掌握逆向工程技能,学习如何使用专业工具进行动态和静态分析,以有效应对不断变化的安全挑战。
  • :构建智能反系统-源码
    优质
    本项目旨在开发一种先进的智能反恶意软件系统,通过机器学习技术对恶意软件进行高效准确的分类。提供源代码以供研究和改进。 构建智能反恶意软件系统:采用支持向量机进行深度学习的恶意软件分类方法 有效且高效地缓解恶意软件一直是信息安全领域的重要目标。开发能够抵御新型未知威胁的反恶意软件系统,可以为多个行业带来显著益处。 我们设想了一种利用深度学习(DL)模型的强大功能来构建智能反恶意软件系统的方案。通过数学概括的方法,该系统能检测新发布的恶意软件,并识别其所属家族类型。换句话说,我们的目标是找到一个映射关系f:x→y,其中x代表给定的恶意软件样本,而y为其对应的恶意软件类别。 为此我们使用了Malimg数据集进行研究和实验。此数据集中包含了从各种二进制文件中提取并处理成图像形式的大量恶意软件实例。基于该数据集,我们训练了几种深度学习模型以对不同家族的恶意软件进行分类:CNN-SVM、GRU-SVM 和 MLP-SVM。 实验证据表明,在这几种模型当中,GRU-SVM表现最为突出,其预测准确率达到了约84.92%。这一结果合乎情理地反映了循环神经网络(RNN)在处理序列数据上的优势,特别是在应对复杂且变化多端的恶意软件特征时尤为有效。