Decision_tree-python 是一个使用Python实现的经典决策树算法库,包括ID3、C4.5及CART算法,适用于数据分类任务。
决策树分类的ID3、C4.5 和 CART 三种算法的区别如下:
1. ID3 算法以信息增益为标准选择划分属性,优先考虑具有最大信息增益的属性。
2. C4.5 算法则首先在候选划分属性中筛选出那些信息增益高于平均水平的属性,并从这些属性中进一步挑选出增益率最高的一个作为最终的选择。
3. CART(Classification and Regression Trees)算法则使用“基尼指数”来决定如何选择划分属性,它会选择使得基尼值最小的那个属性来进行分类。
本次实验的数据集包含四个特征:年龄段、有工作情况、拥有住房状况和信贷历史;这些数据将用来确定是否应该给申请人提供贷款。为了简化处理过程,在编写代码之前先对原始数据进行如下预处理:
1. 年龄段用数字表示,0代表青年,1代表中年,2代表老年;
2. “有工作”情况用二进制编码:0 表示否, 1 表示是;
3. 拥有自己的房子状况同样以二进制形式标识:0 为没有自己的住房, 1 则表示拥有。
4. 信贷历史分为三个等级:0代表一般,1表示良好信用记录,2则意味着极好的信用情况。
5. 最终的类别标签用 no 表示不应发放贷款。