本项目聚焦于通过分析客户行为和财务状况等多维度数据,构建模型以精准预测贷款违约风险,助力金融机构优化风控策略。
赛题的任务是预测用户贷款是否违约。数据集在报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120万条,包含47列变量信息,其中15列为匿名变量。
为了保证比赛公平性,将从这些数据中抽取80万条作为训练集,20万条作为测试集A和另外20万条作为测试集B。同时会对employmentTitle(职业头衔)、purpose(贷款用途类别)、postCode(邮政编码)和title等信息进行脱敏处理。
df2文件已经进行了数据预处理,具体细节可以在相关博客中查看。以下是部分字段的描述:
- id:为每笔贷款分配的唯一信用证标识
- loanAmnt:贷款金额
- term:贷款期限(年)
- interestRate:贷款利率
- installment:分期付款金额
- grade:贷款等级
- subGrade:子级贷款等级
- verificationStatus:验证状态
- issueDate:发放月份
- purpose:借款人在申请时的用途类别
以上信息供参赛者参考,以帮助他们更好地理解和处理数据。