
ID3、C4.5、CART和SLIQ算法简介
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文介绍了四种常见的决策树学习算法——ID3、C4.5、CART以及SLIQ的基本原理及其区别,旨在帮助读者理解每种算法的特点与应用场景。
ID3算法使用信息增益作为选择分裂属性的标准。它会选择具有最高信息增益的属性作为最佳分裂属性,这样可以使得熵减少的程度最大,并且在当前划分后得到的数据集再次划分时所需的信息最小。
举个例子来解释:有房、婚姻状况和是否拖欠贷款是三个特征变量。根据这些数据,整个数据集中包含3个“是”和7个“否”,其信息量(即熵)为 I=Info(3, 7)=-3/10*log2(3/10)-7/10*log2(7/10)=0.8813。
假设现在考虑有房这个属性,按它划分后的信息增益计算如下:对于“是”和“否”,如果按照是否拥有房子来分:
- 无房的情况:“是”的数量为0,“否”的数量为3。
- 有房的情况:“是”的数量为3,“否”的数量为4。
所以根据这个属性的信息增益计算公式,我们得到:
\[ Gain_{\text{房屋}} = I - \frac{3}{10}Info(0, 3) + \frac{7}{10}Info(3, 4)= 0.8813- (0.690) = 0.1913 \]
同样的,对于婚姻状况这个属性的计算如下:
\[ Gain_{\text{婚姻}} = I - \left(\frac{2}{10} Info(1, 1)+\frac{4}{10} Info(0, 4)+\frac{4}{10}Info(2, 2)\right) = 0.8813- (0.6)= 0.2213 \]
因此,根据以上计算结果可以看出,婚姻状况的信息增益值较高(为0.2213),所以应该选择“婚姻状况”作为根节点进行分裂。
全部评论 (0)


