
LendingClub 2018-2020 数据及字段说明
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本资料提供LendingClub从2018年至2020年的详细数据集及其字段解释,涵盖贷款申请、审批等关键环节的信息。
本段落利用Lending Club在2018年至2020年间的部分数据(sheet1)以及字段释义(sheet2),进行基于多种机器学习算法的分类预测研究,作为我的机器学习结课论文的一部分内容。
首先,在对Lending Club的数据集进行了初步数据分析后,选择了四组不同的特征,并通过逻辑回归(LR)这一种算法来进行分类预测。最终确定了三个相对较优的特征:贷款金额(loan_amnt)、年收入(annual_inc)和期限(term)。接下来,本段落针对“多源数据集”,采用了神经网络、贝叶斯分类器以及决策树这三种不同的机器学习方法进行数据分析与预测,并根据模型结果参数综合分析后确定了决策树为最优算法。
最后,在论文中继续使用Lending Club的数据作为研究对象。在经过预处理之后,选择了55个特征,并将原本的二元分类问题转化为三类分类问题。然后运用单一树类模型——决策树、集成树类模型——随机森林和极端随机树进行数据预测与分析,通过比较各算法的结果参数得出结论:虽然集成算法相比单一样本学习方法具有更高的准确度和泛化能力,但同时也会消耗更多计算机资源。
全部评论 (0)
还没有任何评论哟~


