
Logistic回归用于预测马是否患有疝气病。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本次实战将采用Logistic回归模型,用于预测马患疝气病的生存情况。原始数据集的下载链接为http://archive.ics.uci.edu/ml/datasets/Horse+Colic,该数据集包含368个样本以及28个用于分析的特征。值得注意的是,马疝病并非总是由肠胃问题引起,其他潜在因素也可能导致这一疾病的发生。该数据集收集了医院对马疝病的诊断过程中的一些关键指标,其中部分指标具有一定的主观性,而另一些指标则难以准确测量,例如评估马的疼痛程度。此外,需要强调的是,除了部分指标的主观性和难以测量性之外,该数据集还存在缺失值的问题,具体而言,数据集中约有30%的值缺失。为了进行数据预处理,我们执行了两项操作:首先,如果测试集中的某条数据的特征值是确定的,我们将所有缺失值替换为实数0,这是因为我们采用了Logistic回归方法。通过这种方式替换后,不会对回归系数的影响产生任何改变;sigmoid(0)的值为0.5, 意味着它对结果的预测没有偏向性。其次,如果测试集中某条数据的类别标签缺失时, 我们将该类别的数据行直接删除, 因为类别标签与特征信息是相互独立的, 难以确定一个合适的数值来替代缺失的标签。经过预处理后的原始数据集已保存在两个文件中:horseColicTest.txt和horseColicTraining.txt。 经过“清洗”处理后的、可供使用的完整数据集下载链接如下:
全部评论 (0)
还没有任何评论哟~


