Advertisement

Netflix Prize的完整数据集。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该数据集是著名的Netflix智能推荐百万美元大奖赛所采用的。由于竞赛已于关闭,该数据集现已无法直接从Netflix官方网站下载。Netflix提供了1亿零480万507条评分数据,由48万189名用户对1万7770部电影进行了评价。每条训练评分都呈现为<用户, 电影, 评分日期, 评分>的四元组形式。用户和电影字段均为整数ID,而评分则范围在1到5(五颗星)之间。[3] 资格数据集包含超过2817万131个<用户, 电影, 评分日期>的三元组,其中评分仅供评委会知晓。参赛团队的算法必须预测资格数据集上的所有评分,但他们仅被告知分数的一半,即测验数据集包含1408万342条评分。另一半是测试数据集,共1408万789条,评审团利用此数据集来确定潜在的奖项获得者。只有评委知道哪些评分属于测验集,哪些属于测试集——这种安排旨在使在测试集上进行“爬坡”变得困难。提交的预测结果将根据均方根误差(RMSE)与真实评分进行比较,目标是尽可能减少这个误差。需要注意的是,虽然实际评分是整数范围在1到5之间,但提交的预测并不一定需要满足这一要求。Netflix还识别出训练数据集中1408395条用于探测的评分子集。探测集、测验集和测试集都经过精心选择,以确保它们具有相似的统计属性。总而言之,Netflix奖金赛中使用的数据如下所示:训练集(不包括探测集为99072112条评分,包括探测集为100480507条评分),探测集(1408395条评分),资格数据集(2817131条评分),包括:测试集(1408789条评分),用于确定获奖者;测验集(1408342条评分),用于计算排行榜得分。此外,每部电影的标题和上映年份信息存储在单独的数据集中。关于用户的任何信息都没有提供。为了保护客户的隐私,“训练集和资格数据集中的某些客户的评价数据已被有意以一种或多种方式扰动:删除评价;插入替代评价和日期;以及修改评价日期”[2]。训练集中,平均用户对超过200部电影进行了评价,而平均电影也受到了超过5000名用户的评价。然而,数据存在显著差异——训练集中的一些电影只有3个评价[4],而一位用户对超过17000部电影进行了评价[5]。关于使用均方根误差(RMSE)作为定义指标的选择存在一些争议。仅仅减少RMSE 10%真的能为用户带来益处吗?有人声称即使是微小的改进——例如RMSE减少了1%——也能显著改变用户“十大”推荐电影的排序[6]。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Netflix Prize
    优质
    Netflix Prize数据集是Netflix公司为预测用户对未观看电影评分的比赛提供的关键资源,包含了海量用户的观影记录。 Netflix曾经举办了一场智能推荐的百万美元大奖赛,并为此提供了一个训练数据集,该数据集中包含了480,189名用户对17,770部电影给出的1亿零四百八十万五千多条评分记录。每一条训练记录都是一个包含四个元素的数据:<用户ID、电影ID、评价日期和评分>。其中用户和电影用整数编号表示,而评分为从1到5的整数值。 资格赛数据集则包含了超过280多万个三元组形式的数据点,这些数据的形式为<用户, 电影, 评估日期>, 其中实际的评价分数只有评审团知道。参赛团队需要对整个资格赛集合进行评分预测,但仅能知晓其中一半(即140万条)作为测试集的部分真实得分情况——另一半则构成最终评判依据的测试集。评测方式是通过计算提交预测值与真实评分之间的均方根误差(RMSE)来衡量算法效果,并以尽可能减小该误差为目标。 Netflix还从训练集中挑选出一个包含140多万条记录的探查子集,用于辅助模型开发和验证其有效性。资格赛集合中包括了测试集(1,408,789个评分)与评测集(1,408,342个评分)。对于每部电影而言,Netflix提供了单独的数据文件来记录它的名称及发行年份;但没有提供任何关于用户的信息。为了保护客户隐私,在训练和资格赛数据集中,“某些客户的部分评价数据已经被有意地进行了修改,包括删除、插入替代的评价或日期以及更改实际评分日期等操作”。 总体来看,该竞赛所使用的数据集结构如下: - 训练集(不包含探查子集时为9,907万多个评分记录;包括探查子集则总计超过1亿零四百八十万) - 探查集(大约140多万个评分) - 资格赛集合(280多万个三元组,其中包含测试和评测两部分) 训练集中平均每名用户评价了超过200部电影,并且每部电影也平均收到了来自5,000多名用户的评价。然而数据分布存在较大差异:有些影片在训练集中仅有3条评分记录;而有位用户竟对17,000多部电影进行了打分。 关于使用RMSE作为评判标准,曾引发过一些争议。有人质疑降低该指标仅1%的改进是否会对用户体验产生显著影响。然而也有一方认为即使如此微小的变化仍会极大地改变推荐给用户的“Top-10”影片排名情况。
  • Netflix Prize
    优质
    Netflix Prize数据集是由Netflix公司提供的用户电影评级数据集,用于预测用户的电影偏好和推荐系统研究。 Netflix举办的智能推荐百万美金大奖赛使用了一个数据集。由于竞赛已经结束,在Netflix官网上已无法下载该数据集。 训练数据集中包含480,189名用户对17,770部电影的评分,共计1亿零48万条记录。每一条评分信息由四部分组成:<用户ID、电影ID、评价日期和评分>。其中用户与电影字段是整数型标识符,而评分为从1到5(整数)星级。 资格数据集包含超过2,817,131个三元组<用户、电影、评级日期>, 但这些评分只有评委知道。参赛队伍的算法必须预测整个资格集合上的分数,但他们只能获得其中一半的数据——即测试用例中的140万条记录的成绩反馈(称为“quiz set”)。另一半数据则用于最终成绩评定(被称为“test set”,包含1,408,789个评分)。 评委们仅知晓哪些评级在quiz集中,以及哪些在test集中。这种安排旨在防止选手针对测试集进行优化。提交的预测结果将根据真正的分数通过均方根误差(RMSE)来评估,并且目标是尽可能地减少这个误差值。值得注意的是,虽然实际评分范围是从1到5之间的整数,但参赛队伍所提交的预测可以为任何数值。 Netflix还从训练数据集中识别出了一个包含1,408,395个评级的小样本集(称为“probe set”)。测试、quiz和test集合均具有相似的统计属性。总结而言,用于Netflix Prize的数据集如下: - 训练集:不包括探针子集的情况下有99,072,112条评分;包含探针子集则共有1亿零48万条。 - 探索性数据集(Probe set):含有的评级数量为1,408,395个 - 资格集合(Qualifying set): - 测试集(Test Set): 包括了用于决定优胜者的1,408,789条评价。 - Quiz 集:包含用来计算排行榜分数的1,408,342个评分。 每部电影的名字和发行年份在另一个单独的数据集中提供,但没有关于用户的任何信息。为了保护客户隐私,“训练集与资格集合中部分客户的评级数据被故意进行了修改”,例如删除、插入替代评价或日期等操作。 平均而言,每个用户对超过200部影片进行过评分,并且平均每部电影收到了来自5,000多个不同用户的评价。然而,在这些数据之间存在较大的差异性——训练集中一些电影仅有3个评级;而一位用户则为17,000多部电影打分。 关于选择RMSE作为评判标准,曾有一些争议:降低10%的均方根误差是否真的能给用户带来显著的好处?有人认为即使仅仅提高1%,也足以大幅度改变某位用户的“前十推荐”列表。
  • Netflix-Inc/Netflix-Prize-Data
    优质
    这段数据集是由Netflix提供的用于其著名推荐系统竞赛“Netflix Prize”的公开数据。包含了数百万用户的评分记录,旨在促进推荐算法的研究与开发。 Netflix Prize 数据集包含了从1999年12月31日至2005年12月31日期间超过一亿条匿名客户的电影评级记录。
  • Netflix影视节目
    优质
    该数据集包含了Netflix公司的影视节目的详细信息,为用户行为分析、推荐系统开发等研究提供丰富资源。 该数据集包含截至2019年Netflix上可观看的电视节目和电影的信息。数据存储在netflix_titles.csv文件中。
  • Netflix电影评分.7z
    优质
    该数据集为Netflix电影的用户评级信息,包含影片ID、评级分数、评级日期及影片唯一标识符等关键字段,适用于构建推荐系统和分析观影偏好。 Netflix电影评价数据集包含来自48万用户对1.7万部电影的评价数据,总评分数超过100万条。这些数据采集的时间跨度为1998年10月至2005年11月。评分采用五分制,并且所有用户信息都经过了脱敏处理以保护隐私。 该数据集来自Netflix Prize比赛,目的是提高根据个人喜好推荐电影的准确性。这项竞赛自2006年开始并持续到2011年。
  • IMDb
    优质
    IMDb完整数据集包含了电影及电视剧的详尽信息,包括影片基本信息、评论、票房等,是研究影视作品和数据分析的重要资源。 IMDb.npz和imdb_word_index.json是与互联网电影资料库(Internet Movie Database,简称IMDb)相关的文件。IMDb是一个在线数据库,提供关于电影、演员、电视节目及其制作人员的信息。
  • IMDb
    优质
    IMDb数据集完整版包含全面且详尽的电影和电视剧信息,涵盖评分、评论及演员表等多维度内容,是研究与分析影视作品的理想资源。 IMDb(互联网电影数据库)是一个在线资源库,专注于提供关于电影、演员、电视节目及其制作人的详细资料。该数据库包含了文件imdb.npz以及imdb_word_index.json等数据文件。
  • MINIST
    优质
    MINIST数据集完整版包含70000张手写数字的灰度图像及其标签,用于训练和测试基本的手写体识别系统及机器学习模型。 MINIST数据集是人工智能入门的经典数据集,但由于其官方网站在国外,经常无法访问。因此,这里提供一个直接下载的方法,不仅包括gz文件还有解压后的文件。
  • 口袋妖怪 - Pokémon
    优质
    《完整的口袋妖怪数据集》包含了超过700种不同的口袋妖怪的信息,包括它们的种类、属性、能力值等详细资料。这是对宝可梦世界的全面统计数据集合。 该数据集包含有关所有七代神奇宝贝的802只神奇宝贝的信息。