
Netflix Prize 数据集完整版
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Netflix Prize数据集是Netflix公司为预测用户对未观看电影评分的比赛提供的关键资源,包含了海量用户的观影记录。
Netflix曾经举办了一场智能推荐的百万美元大奖赛,并为此提供了一个训练数据集,该数据集中包含了480,189名用户对17,770部电影给出的1亿零四百八十万五千多条评分记录。每一条训练记录都是一个包含四个元素的数据:<用户ID、电影ID、评价日期和评分>。其中用户和电影用整数编号表示,而评分为从1到5的整数值。
资格赛数据集则包含了超过280多万个三元组形式的数据点,这些数据的形式为<用户, 电影, 评估日期>, 其中实际的评价分数只有评审团知道。参赛团队需要对整个资格赛集合进行评分预测,但仅能知晓其中一半(即140万条)作为测试集的部分真实得分情况——另一半则构成最终评判依据的测试集。评测方式是通过计算提交预测值与真实评分之间的均方根误差(RMSE)来衡量算法效果,并以尽可能减小该误差为目标。
Netflix还从训练集中挑选出一个包含140多万条记录的探查子集,用于辅助模型开发和验证其有效性。资格赛集合中包括了测试集(1,408,789个评分)与评测集(1,408,342个评分)。对于每部电影而言,Netflix提供了单独的数据文件来记录它的名称及发行年份;但没有提供任何关于用户的信息。为了保护客户隐私,在训练和资格赛数据集中,“某些客户的部分评价数据已经被有意地进行了修改,包括删除、插入替代的评价或日期以及更改实际评分日期等操作”。
总体来看,该竞赛所使用的数据集结构如下:
- 训练集(不包含探查子集时为9,907万多个评分记录;包括探查子集则总计超过1亿零四百八十万)
- 探查集(大约140多万个评分)
- 资格赛集合(280多万个三元组,其中包含测试和评测两部分)
训练集中平均每名用户评价了超过200部电影,并且每部电影也平均收到了来自5,000多名用户的评价。然而数据分布存在较大差异:有些影片在训练集中仅有3条评分记录;而有位用户竟对17,000多部电影进行了打分。
关于使用RMSE作为评判标准,曾引发过一些争议。有人质疑降低该指标仅1%的改进是否会对用户体验产生显著影响。然而也有一方认为即使如此微小的变化仍会极大地改变推荐给用户的“Top-10”影片排名情况。
全部评论 (0)


