本实验报告涵盖了从基础到进阶的七个机器学习实验,包括数据预处理、模型训练与评估等环节,旨在通过实践加深对算法的理解和应用。
实验一:数据感知及可视化
1. 生成随机线性回归数据集。
2. 创建随机的两类可分分类数据集。
3. 随机产生多类别的线性可分离的数据集合,其中标签可以是独热向量或标量形式。
实验二:K折交叉验证确定最佳K值并进行可视化分析
1. 导入所需库,并加载鸢尾花数据集用于分类任务。
2. 使用独立的验证集评估模型性能。
3. 应用K折交叉验证方法寻找最合适的K值。
4. 选取前两维特征,在二维平面上展示决策边界。
实验三:优化算法
1. 随机梯度下降:
- 岭回归
* 动量法改进
* 学习率自适应调整
- Logistic回归(L2正则化)
+ 两类分类问题处理
+ 处理多类别的分类任务
2. 座标轴下降算法应用:
- Lasso 回归模型构建
实验四:预测与性能评估
1. 线性回归模型的建立及性能评价。
2. Logistic回归应用于二元分类问题,并进行效果测试和分析。
3. 多类别Logistic回归,其中标签为独热编码形式的情况下的应用与验证。
4. 对于多类别的数据集使用标量表示标签时的应用Logistic回归。
实验五:决策树模型
1. 加载鸢尾花数据集用于构建分类器。
2. 构建并利用决策树进行预测任务。
3. 评估节点在决策过程中的重要性及其影响因素。
4. 探讨选择最佳划分特征与阈值的策略,以优化子节点划分的效果。
5-6. 实现从父节点到其子节点的有效分割,并完成各分支上的准确分类工作。
7. 进行模型验证确保预测准确性。
实验六:水质分析及可视化
利用决策树、随机森林和支持向量机进行水质数据的深入分析和结果展示,以评估不同方法在该任务中的表现效果。
实验七:特征对水质数据分析性能的影响研究
探究特定特征对于构建上述机器学习模型时的表现影响,理解哪些变量是预测水体质量的关键因素。