Advertisement

Kaggle-Malware:微软恶意软件分类挑战的第三名解题方案

  • 5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本项目是针对微软在Kaggle平台上发起的恶意软件分类挑战赛中获得第三名的解决方案分享,详细介绍了模型构建、特征工程和算法选择等关键环节。 Kaggle 第三名解决方案由米哈伊尔·特罗菲莫夫、德米特里·乌里扬诺夫和斯坦尼斯拉夫·谢苗诺夫提供,在私人排行榜上获得了 0.0040 分。 为了重现提交,请确保检查 `./src/set_up.py` 文件中的路径设置。随后,执行以下步骤: 1. 运行脚本:运行 `./create_dirs.sh` 2. 切换目录至源代码文件夹并运行主脚本: ``` cd ./src ./main.sh ``` 3. 返回到顶层目录。 4. 执行 Jupyter 笔记本段落件,包括以下内容: - learning-main-model.ipynb - learning-4gr-only.ipynb - semi-supervised-trick.ipynb - final-submission-builder.ipynb 所需依赖关系如下: - Python 2.7.9 或 Python 3.1.0 - sklearn 0.16.1 - numpy 1.9.2 - pandas 0.16.0 - scikit-image 1.1.1 - pypy 2.5.1(安装了 joblib 0.8.4) - scipy 0.15.1 - xgboost

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Kaggle-Malware
    优质
    本项目是针对微软在Kaggle平台上发起的恶意软件分类挑战赛中获得第三名的解决方案分享,详细介绍了模型构建、特征工程和算法选择等关键环节。 Kaggle 第三名解决方案由米哈伊尔·特罗菲莫夫、德米特里·乌里扬诺夫和斯坦尼斯拉夫·谢苗诺夫提供,在私人排行榜上获得了 0.0040 分。 为了重现提交,请确保检查 `./src/set_up.py` 文件中的路径设置。随后,执行以下步骤: 1. 运行脚本:运行 `./create_dirs.sh` 2. 切换目录至源代码文件夹并运行主脚本: ``` cd ./src ./main.sh ``` 3. 返回到顶层目录。 4. 执行 Jupyter 笔记本段落件,包括以下内容: - learning-main-model.ipynb - learning-4gr-only.ipynb - semi-supervised-trick.ipynb - final-submission-builder.ipynb 所需依赖关系如下: - Python 2.7.9 或 Python 3.1.0 - sklearn 0.16.1 - numpy 1.9.2 - pandas 0.16.0 - scikit-image 1.1.1 - pypy 2.5.1(安装了 joblib 0.8.4) - scipy 0.15.1 - xgboost
  • Microsoft:超越Microsoft Malware Classification Challenge...
    优质
    微软恶意软件分类挑战是由微软发起的一个数据科学竞赛,旨在通过改进恶意软件的分类和识别来增强计算机安全。参与者需利用提供的大量恶意软件样本进行训练,创建模型以准确预测新型威胁的类别。此挑战促进了先进算法和技术的发展,有助于保护全球用户免受网络犯罪侵害。 微软恶意软件分类挑战(BIG 2015)的基准已被超越,我的解决方案在排行榜上的得分为0.1826662。该方案很简单,但数据准备过程较为繁琐。它仅利用.byte文件来预测类别,并通过计算两字节代码(从00到FF以及??)的频率来进行预测。 要在使用这些文件之前进行以下步骤: - 从训练和测试7z中提取.byte文件。 - 将.byte文件压缩为.byte.gz格式并移动至train_gz/ test_gz目录下。这两个步骤会花费大量时间,大约6小时左右。 完成以上操作后,您将拥有10868个训练文件以及10873个gz格式的测试文件。 最后运行以下命令: python data_consolidation.py
  • MalwareClassify:届「阿里云安全算法赛」原始码
    优质
    MalwareClassify是第三届阿里云安全算法挑战赛的核心项目,旨在通过开源代码促进恶意软件分类研究与技术进步。 恶意软件分类可以采用机器学习方法,并且通常基于API调用序列进行分析。特征提取主要使用n-gram和tfidf技术,而模型训练则依赖于lightgbm工具。具体来说,根据API序列对恶意软件类型进行分类时,大多数功能是从这些序列中抽取的。 提供的代码包括以下几个部分: 1. `file_split.py`:用于读取csv文件,并按照不同的文件ID组织数据。 2. `preprocess.py`:负责将每个文件重新导入并转换为json格式及序列化API调用信息。 3. `basic_feature.py`:提取简单的特征以供后续处理使用。 4. `tfidf_model.py`:生成用于文本表示的TF-IDF模型,以便于进一步的数据分析和机器学习任务。 5. `feature.py`:利用预先构建好的TF-IDF模型转换训练数据集与测试数据集,为机器学习算法准备好输入特征向量。 6. `light_gbm_model.py`:进行模型调参工作以优化性能指标。 7. `model_predict.py`:用于结果预测的脚本。 这些代码曾提交至第三届“阿里云安全算法挑战赛”,最终排名在前30名之外,但未进入前十。
  • Static Malware Analysis Python: Android 静态
    优质
    《Static Malware Analysis Python: Android静态恶意软件分析》是一本专注于利用Python进行Android应用静态安全评估的专业书籍。通过本书,读者可以学习到如何使用Python脚本来自动化提取和解析APK文件中的元数据、代码逻辑等信息,并以此为基础识别潜在的恶意行为特征。书中不仅涵盖了基础的数据结构与正则表达式知识,还深入探讨了各种分析工具及框架的应用技巧,旨在帮助安全分析师高效地开展Android应用的安全审计 静态恶意软件分析提供了Android的静态恶意软件分析所需的所有必需的Python代码和数据集。请参阅HTML文件以获取完整的文档。
  • 样本来源(Malware-Sample-Sources)
    优质
    恶意软件样本来源项目致力于收集和分析各类网络威胁中的恶意代码实例,为安全研究人员提供详实的数据支持与研究资源。 恶意软件样本源-恶意软件样本库的集合 这是一个旨在使恶意软件分析人员更容易找到病毒样本进行分析、研究、逆向工程或审查的项目。 恶意软件很难发现,更难对所有可能的地方都有深刻的了解。 这是一个活跃的存储库,在其中我们尝试记录尽可能多的资源以帮助您的工作。 在处理这些文件时,请务必格外小心,因为众所周知,这些文件是由其原始作者故意设计和开发的恶意程序。 我们坚信透明性,并希望好人能够拥有正确的访问权限和工具来分析这些恶意文件。 我们欢迎所有需求和贡献! 请记住,这些都是实时存在的危险恶意软件! 除非您完全确定自己在做什么,请勿运行它们! 它们仅用于教育目的。 我们强烈建议您在一个原始的沙盒环境或无法连接互联网的专用虚拟机中查看这些文件。 如果不小心使用,可能会感染自己的系统或其他人的设备! 无需注册以下存储库是最容易上手的,因为它们不需要注册或特殊访问权限。
  • Kaggle StumbleUpon
    优质
    本文介绍了一种针对Kaggle平台上StumbleUpon网站内容推荐挑战赛的有效解决方案,通过深入分析数据特征和优化算法模型,显著提升了内容推荐的准确性和用户满意度。 这是针对Kaggle StumbleUpon挑战的解决方案。该方案在最终排行榜上排名第8位,在私人排行榜上则取得了前3名的成绩(考虑到数据的噪音程度,这个成绩虽然不算特别突出,但仍然值得肯定)。由于这是我第一次使用Python和scikit-learn进行深入学习,代码可能显得比较混乱且效率不高。此外,因为脚本需要大量的预处理工作,所以在首次运行时会花费较长时间(生成后的结果会被保存到转储文件夹中,因此只需执行一次即可)。 原始HTML数据需先转换为其他格式(有时由于编码问题可能会导致一些麻烦)。关于最终模型及其结果的详细描述可以在相关文档或报告中找到。
  • 优质
    本案例深入剖析了典型恶意软件的行为模式和技术特征,通过详细的技术解读和实战操作,旨在提升安全专业人士对威胁的识别与应对能力。 恶意代码分析实例:病毒与木马的实际案例分析
  • 数据集
    优质
    本数据集包含各类恶意软件样本及其特征信息,旨在为研究人员提供一个全面分析与研究恶意软件的基础平台。 为了有效地分析和分类大量的文件数据,并利用已知的恶意软件样本进行训练,参赛者需要预测每个新的恶意软件样本属于哪一类(家族)。这是一个多分类问题,包含9个类别,用数字0到8来标识。 近年来,恶意软件行业已经成为一个涉及大量资金并且高度组织化的领域。许多大型企业集团投入巨资开发反恶意软件机制以查找和阻止肆意妄为的恶意软件开发者。与此同时,这些恶意软件给使用计算机系统的用户带来了诸多不必要的烦恼以及经济损失。 数据集由训练部分和测试部分组成,总共有超过10万个样本,并包含70个字段信息。其中,“id”字段是每个样本唯一的标识符,“label”表示该样本所属的恶意软件类别。从整个数据集中抽取5万条作为训练集,8千条作为测试集,并对某些敏感的信息进行脱敏处理。 特别需要注意的是,特征主要来源于asm文件信息,例如“linecount_asm”代表asm文件中的行数,“size_asm”则表示asm文件大小。其他与asm相关的特征字段都以“asm_commands”为前缀,这些可以理解为在asm中使用的特定命令。
  • 析实技巧
    优质
    《恶意软件分析实战技巧》一书深入浅出地介绍了如何识别、检测和应对各类恶意软件威胁,提供了一系列实用的技术与策略。 恶意代码分析实战.pdf 这本书提供了深入的指导和实用的方法来帮助读者理解和应对各种类型的恶意软件威胁。书中涵盖了从基础理论到高级技术的全面知识,并通过实际案例展示了如何进行有效的恶意代码分析,以保护计算机系统免受攻击。