
基于Python实现的Cart分类决策树及其随机森林算法
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目采用Python语言实现了经典的Cart分类决策树及随机森林算法,旨在通过数据驱动的方法进行高效准确的数据分类与预测。
随机森林代码依赖numpy和pandas库,在运行前请确保已安装这两个包,并且关键代码部分都有详细的注释。
决策树使用孩子表示法,因为预测每个样本需要根据父节点找到其子节点的操作。使用的数据集是kaggle比赛中的经典数据集——泰坦尼克号灾难事件的数据集,该任务要求根据乘客的信息来预测他们是否生还,是一个二分类问题。原数据集存储在original_data文件夹下。
使用pandas对原始数据进行清洗和one-hot编码,并将前600条记录作为训练集,后289条记录作为测试集。pre_data.py脚本完成了这部分工作。处理后的数据存放在data文件夹中。
决策树模型设置了一个可调参数:min_sample_leaf(落在叶子节点上的最小样本数)。当min_sample_leaf = 31时,分类正确率为0.702422。
随机森林模型有四个可调整的参数:
- ip: 随机挑选训练集的比例范围 (ip, 1) 中的一个值。
- jp: 特征选择比例。
全部评论 (0)
还没有任何评论哟~


