
天池大数据竞赛(2015阿里):运用移动窗口采样与随机森林算法
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目参加2015年阿里天池大数据竞赛,采用移动窗口采样技术结合随机森林算法进行预测分析,旨在优化模型准确度和效率。
tianchi_bigdata任务:特征(39维)包括用户特征、商品特征、用户-商品特征以及全局比例特征。数据采样采用移动窗口方式,目标值分别为17、15、13、11和9;同时进行不同长度的样本采样实验,即使用全部样本或分别取用一个时间单位(如天)、三个时间单位及七个时间单位的数据集。
训练阶段中正样本数量为15000个,负样本则有130000个。测试数据同样利用移动窗口方法进行变换,并选取了连续三天、五天和九天的片段来实验;最终确定使用九天的时间跨度作为最优模型输入,此时测试集包含大约155万个样本。
结果处理阶段中,筛选置信度为78%以上的部分,挑选出470条有效记录(子集),这一策略使得整体F1值达到约11.46%,在所有参赛队伍中排名第25位。团队名称是“叮当”。
构建模型时采用了随机森林算法,并设计了若干辅助脚本来支持整个流程的顺利执行:combine_feature_txt用于混合正负样本特征;cut_data_set.py负责按照移动窗口方式分割数据集;fetch_feature.py则用来提取所需特征信息;此外,还有专门针对抽样操作编写的脚本如fetch_negative_sample(抽取负样本)和fetch_sample(同时获取正、负样本)。
全部评论 (0)
还没有任何评论哟~


