Advertisement

国科大/中科院网络数据挖掘项目,徐君完成的大作业为垃圾短信识别系统设计,采用监督学习和分类方法,包含报告、数据和代码。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
国家建设大学徐君的关于网络数据挖掘的大作业个人报告,包含源代码和数据集,供参考。运行环境配置如下:Python 2.7.12、jieba 0.39、numpy 1.13.3、scikit-learn 0.19.1 和 scipy 1.0.0。请务必参照这些运行环境进行预先配置。首先,运行TextProcess.py脚本以生成classifiedLabel.txt、trainSetMsg.txt 和 testSetMsg.txt 文件,从而获得经过文本处理的规则文本数据。随后,运行crossValidation.py脚本进行交叉验证。需要注意的是,SVM算法的运行时间相对较长,通常需要6到7小时左右;因此,您可以选择注释掉该算法或减小数据集规模以便进行测试。最后,您可以使用分类器中的predict方法来利用训练好的分类器进行垃圾短信识别任务的分类预测。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • /----基于-++
    优质
    本项目为国科大学生徐君的大作业报告,旨在设计并实现一个基于监督学习算法的垃圾短信分类系统。报告附有数据分析和完整代码。 国科大徐君的网络数据挖掘课程的大作业个人报告包括代码和数据。请参考以下运行环境进行配置:Python 2.7.12、jieba 0.39、numpy 1.13.3、scikit-learn 0.19.1 和 scipy 1.0.0。 具体操作步骤如下: 1. 运行TextProcess.py以生成classifiedLabel.txt、trainSetMsg.txt以及testSetMsg.txt,这些是经过文本处理后的规则数据文件; 2. 接着运行crossValidation.py进行交叉验证; 3. 注意SVM算法的执行时间较长(大约6-7小时),可以选择注释掉相关代码或减少数据集规模来测试; 4. 可以通过分类器中的predict方法利用训练好的模型来进行预测,例如垃圾短信识别。
  • _2017年课程_
    优质
    本项目为国科大2017年《网络数据挖掘》课程的大作业,旨在通过机器学习技术实现对垃圾短信的有效分类。 国科大网络数据挖掘课程的2017年作业是进行垃圾短信分类。
  • 刘莹第二次.pdf
    优质
    该文档是《数据挖掘》课程在中国科学院大学的教学材料之一,内含学生刘莹完成的第二次作业内容及分析成果。 针对表1所示的数据集(最小支持度为60%,最小置信度为70%): (a) 使用Apriori算法找出所有频繁项集,并将每个交易ID视为一个购物篮。 (b) 利用第(a)部分的结果计算关联规则{a, b}→{c}和{c}→{a, b}的置信度。置信度是对称测量吗? (c) 根据以下元规则列出所有强关联规则(具有支持s和置信度c),其中X代表客户,itemi表示商品变量(例如“A”,“B”等)。 对于表1所示的数据集(最小支持度为60%): (a) 使用FP-Growth算法找出所有的频繁项集,请展示所有FP树及条件模式基。 (b) 比较Apriori和FP-Growth的效率。
  • 2020年刘莹:天体光谱
    优质
    本项目为国科大2020年数据挖掘课程刘莹同学的大作业作品,旨在通过机器学习算法对海量天体光谱数据进行有效分类和分析。 国科大2020年刘莹数据挖掘大作业是关于天体光谱数据分类的项目。我们小组使用了ResNet对一维光谱数据进行分类,并在压缩包中提供了详细的实验报告。
  • 刘莹2.pdf
    优质
    这是一份来自中国科学院大学(国科大)学生刘莹的数据挖掘课程作业PDF文件,内容包含了数据分析、模型构建及结果讨论等部分。 国科大数据挖掘刘莹作业2.pdf包含了关于数据挖掘的相关练习和分析内容。文档详细记录了学生在课程学习过程中的实践成果与思考。
  • 第一次.docx
    优质
    该文档是国科大数据挖掘课程中的首次作业,旨在通过实践任务帮助学生理解并应用数据挖掘的基本概念和方法。 国科大数据挖掘第一次作业,仅供参考。
  • 课程期末考试题
    优质
    本课程期末考试旨在评估学生在数据挖掘领域的知识掌握与实践能力,涵盖算法实现、案例分析及项目应用等方面,强调理论与实际结合。 考虑表1所示的数据集(min_sup = 60%, min_conf=70%)。 (a) 使用Apriori算法找出所有频繁项集,并将每个交易ID视为一个市场篮子。 (b) 利用第(a)部分的结果计算关联规则{a, b}→{c}和{c}→{a, b}的置信度。
  • 刘莹第二次
    优质
    刘莹是中国科学院的一名学生,在完成数据挖掘课程的学习过程中,她正在进行她的第二次作业项目。这段经历将极大地丰富她在数据分析和机器学习领域的知识与技能。 中科院数据挖掘课程刘莹的第二次作业。
  • 试题
    优质
    本资料汇集了中国科学院大学历年的数据挖掘考试题目及解析,旨在帮助学生深入理解数据挖掘的核心概念与应用技巧。适合研究生课程复习和科研人员参考使用。 国科大数据挖掘试题。
  • 刘莹第三次
    优质
    简介:刘莹同学正在进行她的第三次国家级科学与大数据挖掘课程作业,深入探索数据分析技术在科研中的应用。 国科大数据挖掘刘莹第三次作业。