Netflix Prize 数据集完整版-ITADN社区

Netflix Prize 数据集完整版

优质

Netflix Prize数据集是Netflix公司为预测用户对未观看电影评分的比赛提供的关键资源，包含了海量用户的观影记录。 Netflix曾经举办了一场智能推荐的百万美元大奖赛，并为此提供了一个训练数据集，该数据集中包含了480,189名用户对17,770部电影给出的1亿零四百八十万五千多条评分记录。每一条训练记录都是一个包含四个元素的数据：<用户ID、电影ID、评价日期和评分>。其中用户和电影用整数编号表示，而评分为从1到5的整数值。资格赛数据集则包含了超过280多万个三元组形式的数据点，这些数据的形式为<用户, 电影, 评估日期>, 其中实际的评价分数只有评审团知道。参赛团队需要对整个资格赛集合进行评分预测，但仅能知晓其中一半（即140万条）作为测试集的部分真实得分情况——另一半则构成最终评判依据的测试集。评测方式是通过计算提交预测值与真实评分之间的均方根误差(RMSE)来衡量算法效果，并以尽可能减小该误差为目标。 Netflix还从训练集中挑选出一个包含140多万条记录的探查子集，用于辅助模型开发和验证其有效性。资格赛集合中包括了测试集（1,408,789个评分）与评测集（1,408,342个评分）。对于每部电影而言，Netflix提供了单独的数据文件来记录它的名称及发行年份；但没有提供任何关于用户的信息。为了保护客户隐私，在训练和资格赛数据集中，“某些客户的部分评价数据已经被有意地进行了修改，包括删除、插入替代的评价或日期以及更改实际评分日期等操作”。总体来看，该竞赛所使用的数据集结构如下： - 训练集（不包含探查子集时为9,907万多个评分记录；包括探查子集则总计超过1亿零四百八十万） - 探查集（大约140多万个评分） - 资格赛集合（280多万个三元组，其中包含测试和评测两部分）训练集中平均每名用户评价了超过200部电影，并且每部电影也平均收到了来自5,000多名用户的评价。然而数据分布存在较大差异：有些影片在训练集中仅有3条评分记录；而有位用户竟对17,000多部电影进行了打分。关于使用RMSE作为评判标准，曾引发过一些争议。有人质疑降低该指标仅1%的改进是否会对用户体验产生显著影响。然而也有一方认为即使如此微小的变化仍会极大地改变推荐给用户的“Top-10”影片排名情况。

Netflix Prize 数据集完整版

优质

Netflix Prize数据集是由Netflix公司提供的用户电影评级数据集，用于预测用户的电影偏好和推荐系统研究。 Netflix举办的智能推荐百万美金大奖赛使用了一个数据集。由于竞赛已经结束，在Netflix官网上已无法下载该数据集。训练数据集中包含480,189名用户对17,770部电影的评分，共计1亿零48万条记录。每一条评分信息由四部分组成：<用户ID、电影ID、评价日期和评分>。其中用户与电影字段是整数型标识符，而评分为从1到5（整数）星级。资格数据集包含超过2,817,131个三元组<用户、电影、评级日期>, 但这些评分只有评委知道。参赛队伍的算法必须预测整个资格集合上的分数，但他们只能获得其中一半的数据——即测试用例中的140万条记录的成绩反馈（称为“quiz set”）。另一半数据则用于最终成绩评定（被称为“test set”，包含1,408,789个评分）。评委们仅知晓哪些评级在quiz集中，以及哪些在test集中。这种安排旨在防止选手针对测试集进行优化。提交的预测结果将根据真正的分数通过均方根误差(RMSE)来评估，并且目标是尽可能地减少这个误差值。值得注意的是，虽然实际评分范围是从1到5之间的整数，但参赛队伍所提交的预测可以为任何数值。 Netflix还从训练数据集中识别出了一个包含1,408,395个评级的小样本集（称为“probe set”）。测试、quiz和test集合均具有相似的统计属性。总结而言，用于Netflix Prize的数据集如下： - 训练集：不包括探针子集的情况下有99,072,112条评分；包含探针子集则共有1亿零48万条。 - 探索性数据集（Probe set）：含有的评级数量为1,408,395个 - 资格集合（Qualifying set）： - 测试集（Test Set）: 包括了用于决定优胜者的1,408,789条评价。 - Quiz 集：包含用来计算排行榜分数的1,408,342个评分。每部电影的名字和发行年份在另一个单独的数据集中提供，但没有关于用户的任何信息。为了保护客户隐私，“训练集与资格集合中部分客户的评级数据被故意进行了修改”，例如删除、插入替代评价或日期等操作。平均而言，每个用户对超过200部影片进行过评分，并且平均每部电影收到了来自5,000多个不同用户的评价。然而，在这些数据之间存在较大的差异性——训练集中一些电影仅有3个评级；而一位用户则为17,000多部电影打分。关于选择RMSE作为评判标准，曾有一些争议：降低10%的均方根误差是否真的能给用户带来显著的好处？有人认为即使仅仅提高1%，也足以大幅度改变某位用户的“前十推荐”列表。

Netflix-Inc/Netflix-Prize-Data

优质

这段数据集是由Netflix提供的用于其著名推荐系统竞赛“Netflix Prize”的公开数据。包含了数百万用户的评分记录，旨在促进推荐算法的研究与开发。 Netflix Prize 数据集包含了从1999年12月31日至2005年12月31日期间超过一亿条匿名客户的电影评级记录。

IMDb数据集完整版

优质

IMDb数据集完整版包含全面且详尽的电影和电视剧信息，涵盖评分、评论及演员表等多维度内容，是研究与分析影视作品的理想资源。 IMDb（互联网电影数据库）是一个在线资源库，专注于提供关于电影、演员、电视节目及其制作人的详细资料。该数据库包含了文件imdb.npz以及imdb_word_index.json等数据文件。

MINIST数据集完整版

优质

MINIST数据集完整版包含70000张手写数字的灰度图像及其标签，用于训练和测试基本的手写体识别系统及机器学习模型。 MINIST数据集是人工智能入门的经典数据集，但由于其官方网站在国外，经常无法访问。因此，这里提供一个直接下载的方法，不仅包括gz文件还有解压后的文件。

Netflix影视节目数据集

优质

该数据集包含了Netflix公司的影视节目的详细信息，为用户行为分析、推荐系统开发等研究提供丰富资源。该数据集包含截至2019年Netflix上可观看的电视节目和电影的信息。数据存储在netflix_titles.csv文件中。

KDD 99 数据集完整版

优质

KDD 99数据集是专为入侵检测设计的机器学习挑战赛中使用的标准数据集，包含了模拟网络流量，旨在帮助研究人员开发和测试先进的网络安全算法。入侵检测数据集包含所有相关内容以及介绍信息，需要的可以下载。

Netflix电影评分数据集.7z

优质

该数据集为Netflix电影的用户评级信息，包含影片ID、评级分数、评级日期及影片唯一标识符等关键字段，适用于构建推荐系统和分析观影偏好。 Netflix电影评价数据集包含来自48万用户对1.7万部电影的评价数据，总评分数超过100万条。这些数据采集的时间跨度为1998年10月至2005年11月。评分采用五分制，并且所有用户信息都经过了脱敏处理以保护隐私。该数据集来自Netflix Prize比赛，目的是提高根据个人喜好推荐电影的准确性。这项竞赛自2006年开始并持续到2011年。

DBASE数据库完整版集合

优质

DBASE数据库完整版集合是一款包含多种版本的DBASE数据库管理系统的软件包，适用于需要高效数据处理和管理系统开发的专业人士。 DOS时代运行的DBASE数据库编程语言值得收藏。

是否确定退出登录?

Netflix Prize 数据集完整版

全部评论 (0)