简介:本备忘录详细记录了参加KDD Cup 2015的数据挖掘竞赛经历,包括团队合作、数据分析和模型构建过程。
KDDCUP 2015参赛队伍总结:最终有821支队伍参与半测试数据排名,我们排名第71位,AUC值为0.88926。整个过程包括特征制作、模型训练等环节,在此过程中,从原始数据创建功能是在C++中完成的,其余部分则在R语言环境中进行。
问题的核心在于利用中国的XuetangX平台访问日志来预测用户是否会退出该平台。根据定义,如果自访问日志聚合期间结束日期起10天内没有新的访问记录,则认为用户已退出。
具体来说,我们需要从提供的访问日志中提取特征以构建模型(训练集大约有12万条实例,测试集则约为8万条)。这些数据包括每个用户的访问信息:
```
enrollment_id,time,source,event,object
1,2014-06-14T09:38:29,server,navigate,Oj6eQgzrdqBMlaCtaq1IkY6zruSrb71b
```