
决策树处理连续值的方法
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文探讨了在构建决策树时如何有效处理连续数值特征的各种方法,包括但不限于二分法、区间分割和基于模型的离散化技术。
在使用决策树处理连续值的数据集时,我们采用ID3算法来构建模型。训练数据集traindata.txt包含4个特征属性以及3种标签类别。测试数据则存储于testdata.txt中。
对于含有连续值的特征属性,在应用ID3算法的过程中可以采取以下步骤:首先根据特定特征将D中的元素排序;接着,每两个相邻元素之间的中间点被视为潜在分裂点。从第一个这样的潜在分裂点开始尝试分割整个集合,并计算出每个子集的信息熵(期望信息)。在所有潜在分裂点中选择导致最小信息熵的那一个作为该属性的最佳分裂位置。
实现决策树生成功能的是decisiontree.py文件,而用于绘制和可视化所构建决策树结构的则是另一个名为treePlotter.py的脚本。
全部评论 (0)
还没有任何评论哟~


