
MalwareClassify:第三届「阿里云安全算法挑战赛」的恶意软件分类原始码
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
MalwareClassify是第三届阿里云安全算法挑战赛的核心项目,旨在通过开源代码促进恶意软件分类研究与技术进步。
恶意软件分类可以采用机器学习方法,并且通常基于API调用序列进行分析。特征提取主要使用n-gram和tfidf技术,而模型训练则依赖于lightgbm工具。具体来说,根据API序列对恶意软件类型进行分类时,大多数功能是从这些序列中抽取的。
提供的代码包括以下几个部分:
1. `file_split.py`:用于读取csv文件,并按照不同的文件ID组织数据。
2. `preprocess.py`:负责将每个文件重新导入并转换为json格式及序列化API调用信息。
3. `basic_feature.py`:提取简单的特征以供后续处理使用。
4. `tfidf_model.py`:生成用于文本表示的TF-IDF模型,以便于进一步的数据分析和机器学习任务。
5. `feature.py`:利用预先构建好的TF-IDF模型转换训练数据集与测试数据集,为机器学习算法准备好输入特征向量。
6. `light_gbm_model.py`:进行模型调参工作以优化性能指标。
7. `model_predict.py`:用于结果预测的脚本。
这些代码曾提交至第三届“阿里云安全算法挑战赛”,最终排名在前30名之外,但未进入前十。
全部评论 (0)
还没有任何评论哟~


