Advertisement

兰州大学数据挖掘及大数据分析作业1.zip

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
本作业文件为兰州大学数据挖掘与大数据分析课程第一阶段练习题,内容涵盖数据分析基础、编程实践等,旨在提升学生利用Python或R语言进行数据处理和建模的能力。 兰州大学数据挖掘与大数据分析作业1 **数据集(20 分)** - 使用正弦函数生成一个包含两个周期的数据集(振幅可自定义),从中均匀采样得到20个样本,对每个样本的目标变量yi 添加随机扰动值(确保扰动不大),形成数据集D1; (10分) - 从UCI 数据库中下载适合回归分析的一个数据集,并满足以下要求: - 至少包含三列连续数值型数据;(5 分) - 包含至少100个样本以上;(5 分) 在使用之前,需仔细阅读其说明文档以理解各变量的含义和用途。 **数据预处理(10分)** - 选择一种标准化方法对下载的数据集进行处理,使所有列的数据处于同一量级。(5分) - 根据数据的实际意义从下载的数据集中选取一列为因变量y,并将其他至少两列表示为自变量x1, x2,...形成新的数据集D2;(5 分) **回归分析(50分)** - 一元多项式回归 (25分) - 变换多项式的阶数m (从1到5),对于每一个m,将数据集D1 按照8:2的比例划分训练和测试集。用训练集进行模型参数确定,并使用测试集评估MAE 和RMSE 值。 - Ridge回归或Lasso 回归(25分) - 选择Ridge 或者 Lasso 回归模型,将D2 全部作为训练数据,在不同的λ值下调整正则化系数以获取稳定的超参数。 - 将 D2 按照8:2的比例随机划分后进行多次实验(至少5次),每次确定一组MAE 和RMSE 值,并最终计算平均结果。 **撰写技术报告(20分)** - 采用科技论文的格式编写作业的技术总结,具体包括:摘要、引言、算法介绍、实验过程及结论等部分。其中,“引言”阐述研究的意义;“算法”描述所选的方法及其背景知识;“实验与结果分析”说明数据集来源和处理方法,并展示主要发现。 - 对于一元多项式回归的结果,需绘制生成的数据曲线以及不同m值下的拟合曲线、MAE 和RMSE 的条形图。对这些图表进行详细解释。 - 对于Ridge 或Lasso 回归结果,则需要描绘正则化路径的折线图,并分析如何确定最佳λ值;同时展示多个实验条件下得到的误差统计表。 **必须提交内容** 1. 各个数据集(D1、下载的数据及预处理后的)分别存储在单独文件中; 2. python源代码:包括生成采样和添加扰动的程序,以及用于回归分析的部分。 3. 技术报告pdf版 4. 以上所有材料压缩成一个zip包,并以学号+姓名的形式命名。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 1.zip
    优质
    本作业文件为兰州大学数据挖掘与大数据分析课程第一阶段练习题,内容涵盖数据分析基础、编程实践等,旨在提升学生利用Python或R语言进行数据处理和建模的能力。 兰州大学数据挖掘与大数据分析作业1 **数据集(20 分)** - 使用正弦函数生成一个包含两个周期的数据集(振幅可自定义),从中均匀采样得到20个样本,对每个样本的目标变量yi 添加随机扰动值(确保扰动不大),形成数据集D1; (10分) - 从UCI 数据库中下载适合回归分析的一个数据集,并满足以下要求: - 至少包含三列连续数值型数据;(5 分) - 包含至少100个样本以上;(5 分) 在使用之前,需仔细阅读其说明文档以理解各变量的含义和用途。 **数据预处理(10分)** - 选择一种标准化方法对下载的数据集进行处理,使所有列的数据处于同一量级。(5分) - 根据数据的实际意义从下载的数据集中选取一列为因变量y,并将其他至少两列表示为自变量x1, x2,...形成新的数据集D2;(5 分) **回归分析(50分)** - 一元多项式回归 (25分) - 变换多项式的阶数m (从1到5),对于每一个m,将数据集D1 按照8:2的比例划分训练和测试集。用训练集进行模型参数确定,并使用测试集评估MAE 和RMSE 值。 - Ridge回归或Lasso 回归(25分) - 选择Ridge 或者 Lasso 回归模型,将D2 全部作为训练数据,在不同的λ值下调整正则化系数以获取稳定的超参数。 - 将 D2 按照8:2的比例随机划分后进行多次实验(至少5次),每次确定一组MAE 和RMSE 值,并最终计算平均结果。 **撰写技术报告(20分)** - 采用科技论文的格式编写作业的技术总结,具体包括:摘要、引言、算法介绍、实验过程及结论等部分。其中,“引言”阐述研究的意义;“算法”描述所选的方法及其背景知识;“实验与结果分析”说明数据集来源和处理方法,并展示主要发现。 - 对于一元多项式回归的结果,需绘制生成的数据曲线以及不同m值下的拟合曲线、MAE 和RMSE 的条形图。对这些图表进行详细解释。 - 对于Ridge 或Lasso 回归结果,则需要描绘正则化路径的折线图,并分析如何确定最佳λ值;同时展示多个实验条件下得到的误差统计表。 **必须提交内容** 1. 各个数据集(D1、下载的数据及预处理后的)分别存储在单独文件中; 2. python源代码:包括生成采样和添加扰动的程序,以及用于回归分析的部分。 3. 技术报告pdf版 4. 以上所有材料压缩成一个zip包,并以学号+姓名的形式命名。
  • PPT
    优质
    本PPT由苏州大学制作,涵盖了数据挖掘的基本概念、关键技术及应用实例。内容涉及机器学习算法在大数据分析中的运用,并探讨了未来研究方向和发展趋势。适合学术交流和教学使用。 此压缩包包含苏州大学数据挖掘课程的课件,均为PPT格式。
  • 基站.zip
    优质
    本项目为通信工程课程中的基站数据挖掘大作业,包含数据分析、算法实现和可视化展示等内容,旨在提高学生对移动网络的理解及编程实践能力。 运用所学的数据挖掘应用知识,在Python编程环境中设计文档内容,包括数据预处理、模型构建、代码实现以及结果分析的步骤。该文档将包含源代码和其他详细的设计信息。
  • 股票预测的.zip
    优质
    本作品为《股票分析预测的数据挖掘》课程的大作业,通过运用数据挖掘技术对历史股市数据进行深入分析与建模,旨在预测未来股价走势。 数据挖掘大作业包括以下几个部分:上证指数股票预测分析的get_data.ipynb文件用于获取50ETF自上市以来的数据;20_year_FD.csv是通过爬虫得到的数据集,包含了过去二十年的基金信息;train_regress.ipynb则是训练代码。此作业要求大家根据这些材料完成任务以应对老师的评估。
  • 源码().zip
    优质
    该资源为《数据挖掘与分析》相关的大数据源代码集合,涵盖数据分析、机器学习及数据可视化等领域,适用于科研和项目实践。 此压缩包包含了一整套的代码程序,对于需要学习和了解大数据分析与挖掘的人来说是一份很好的资源。
  • PM2.5预测——城市
    优质
    本项目为城市数据挖掘课程的大作业,旨在通过分析历史气象与空气质量数据,建立PM2.5浓度预测模型,以评估和改善城市空气质量管理。 这段文字描述了一个关于数据挖掘的大作业分析全过程的完整实验报告。
  • 吉林课程2020.zip
    优质
    该资料为吉林大学学生在2020年完成的数据挖掘课程作业集合,包含多个实际项目案例与分析报告。 数据包中的文件包含某课程的学习数据,分为三个部分:“入学信息”,包括学生的性别、民族、外语语种、高考分数以及省份等基本信息;“线上学习数据”,记录了学生在线上的活动情况(每个文件对应一个自然班,不同的worksheet反映了不同方面的线上学习情况);“上机考试”则包含了在机房进行的编程考试的成绩和完成情况,具体分为三个实验组,并且有四次平时测试和一次期末测试。其中,“SID”是用于唯一标识学生的编号。
  • 西安电子科技课程——商场
    优质
    本项目为西安电子科技大学数据挖掘课程的大作业,聚焦于对某大型商场销售数据进行深度分析与挖掘,旨在通过实际案例提升学生运用数据分析解决商业问题的能力。 西电数据挖掘大作业之商场数据分析
  • Java_5:MapReduce与
    优质
    本作业为《Java大数据》课程第五部分,主要探讨并实践MapReduce编程模型及其在数据挖掘中的应用,通过实例分析提升学生的大数据分析能力。 课后作业 1. 请从日志文件中提取访问者的IP地址、访问时间、来源地址以及访问的URL。 示例日志内容: ``` 192.168.170.111—[20/Jan/2014:16:35:27 +0800] “GET /examples/servlets/images/code.gif HTTP/1.1” 200 292 “http://192.168.170.152/examples/servlets/” “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36” “-” ``` 2. 描述迭代式和组合式的作业执行方法。 3. 请说明HBASE的Map、Reduce继承类以及序列化类是什么? 4. 简述如何配置容量调度器(Capacity Scheduler)。 5. 概要描述mapreduce的工作流程。 6. 使用二次排序算法对以下输入数据进行处理,并得到如下结果: 输入数据: ``` 1 2 2 3 2 1 4 6 3 1 3 8 3 2 ``` 请简述处理过程。
  • 课程1
    优质
    《数据挖掘课程作业1》是学习数据预处理、特征选择及基本的数据挖掘算法如关联规则与聚类分析等技术的应用实践。通过本作业,学生能够掌握如何运用Python或R语言进行数据分析,并解决实际问题。 摘要:简述文章内容,包括应用(研究)背景和意义、方法以及主要结果。 目录: 正文请参考以下结构: 第一章 包括机器学习环境的配置。