
Netflix Prize的完整数据集。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
该数据集是著名的Netflix智能推荐百万美元大奖赛所采用的。由于竞赛已于关闭,该数据集现已无法直接从Netflix官方网站下载。Netflix提供了1亿零480万507条评分数据,由48万189名用户对1万7770部电影进行了评价。每条训练评分都呈现为<用户, 电影, 评分日期, 评分>的四元组形式。用户和电影字段均为整数ID,而评分则范围在1到5(五颗星)之间。[3] 资格数据集包含超过2817万131个<用户, 电影, 评分日期>的三元组,其中评分仅供评委会知晓。参赛团队的算法必须预测资格数据集上的所有评分,但他们仅被告知分数的一半,即测验数据集包含1408万342条评分。另一半是测试数据集,共1408万789条,评审团利用此数据集来确定潜在的奖项获得者。只有评委知道哪些评分属于测验集,哪些属于测试集——这种安排旨在使在测试集上进行“爬坡”变得困难。提交的预测结果将根据均方根误差(RMSE)与真实评分进行比较,目标是尽可能减少这个误差。需要注意的是,虽然实际评分是整数范围在1到5之间,但提交的预测并不一定需要满足这一要求。Netflix还识别出训练数据集中1408395条用于探测的评分子集。探测集、测验集和测试集都经过精心选择,以确保它们具有相似的统计属性。总而言之,Netflix奖金赛中使用的数据如下所示:训练集(不包括探测集为99072112条评分,包括探测集为100480507条评分),探测集(1408395条评分),资格数据集(2817131条评分),包括:测试集(1408789条评分),用于确定获奖者;测验集(1408342条评分),用于计算排行榜得分。此外,每部电影的标题和上映年份信息存储在单独的数据集中。关于用户的任何信息都没有提供。为了保护客户的隐私,“训练集和资格数据集中的某些客户的评价数据已被有意以一种或多种方式扰动:删除评价;插入替代评价和日期;以及修改评价日期”[2]。训练集中,平均用户对超过200部电影进行了评价,而平均电影也受到了超过5000名用户的评价。然而,数据存在显著差异——训练集中的一些电影只有3个评价[4],而一位用户对超过17000部电影进行了评价[5]。关于使用均方根误差(RMSE)作为定义指标的选择存在一些争议。仅仅减少RMSE 10%真的能为用户带来益处吗?有人声称即使是微小的改进——例如RMSE减少了1%——也能显著改变用户“十大”推荐电影的排序[6]。
全部评论 (0)


