
兰州大学数据挖掘及大数据分析作业1.zip
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
本作业文件为兰州大学数据挖掘与大数据分析课程第一阶段练习题,内容涵盖数据分析基础、编程实践等,旨在提升学生利用Python或R语言进行数据处理和建模的能力。
兰州大学数据挖掘与大数据分析作业1
**数据集(20 分)**
- 使用正弦函数生成一个包含两个周期的数据集(振幅可自定义),从中均匀采样得到20个样本,对每个样本的目标变量yi 添加随机扰动值(确保扰动不大),形成数据集D1; (10分)
- 从UCI 数据库中下载适合回归分析的一个数据集,并满足以下要求:
- 至少包含三列连续数值型数据;(5 分)
- 包含至少100个样本以上;(5 分)
在使用之前,需仔细阅读其说明文档以理解各变量的含义和用途。
**数据预处理(10分)**
- 选择一种标准化方法对下载的数据集进行处理,使所有列的数据处于同一量级。(5分)
- 根据数据的实际意义从下载的数据集中选取一列为因变量y,并将其他至少两列表示为自变量x1, x2,...形成新的数据集D2;(5 分)
**回归分析(50分)**
- 一元多项式回归 (25分)
- 变换多项式的阶数m (从1到5),对于每一个m,将数据集D1 按照8:2的比例划分训练和测试集。用训练集进行模型参数确定,并使用测试集评估MAE 和RMSE 值。
- Ridge回归或Lasso 回归(25分)
- 选择Ridge 或者 Lasso 回归模型,将D2 全部作为训练数据,在不同的λ值下调整正则化系数以获取稳定的超参数。
- 将 D2 按照8:2的比例随机划分后进行多次实验(至少5次),每次确定一组MAE 和RMSE 值,并最终计算平均结果。
**撰写技术报告(20分)**
- 采用科技论文的格式编写作业的技术总结,具体包括:摘要、引言、算法介绍、实验过程及结论等部分。其中,“引言”阐述研究的意义;“算法”描述所选的方法及其背景知识;“实验与结果分析”说明数据集来源和处理方法,并展示主要发现。
- 对于一元多项式回归的结果,需绘制生成的数据曲线以及不同m值下的拟合曲线、MAE 和RMSE 的条形图。对这些图表进行详细解释。
- 对于Ridge 或Lasso 回归结果,则需要描绘正则化路径的折线图,并分析如何确定最佳λ值;同时展示多个实验条件下得到的误差统计表。
**必须提交内容**
1. 各个数据集(D1、下载的数据及预处理后的)分别存储在单独文件中;
2. python源代码:包括生成采样和添加扰动的程序,以及用于回归分析的部分。
3. 技术报告pdf版
4. 以上所有材料压缩成一个zip包,并以学号+姓名的形式命名。
全部评论 (0)


