
Hadoop豆瓣电影数据分析可视化源码
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目利用Hadoop对豆瓣电影数据进行大规模分析处理,并通过可视化技术展示分析结果,提供源代码供学习参考。
本次实验需要使用Hadoop集群作为模拟大数据分析的软件环境,并且该环境必须包含hdfs、hbase、hive、flume以及sqoop插件。在完成数据处理后,我们将利用Python(用于爬取数据集及可视化展示)或ECharts等工具进行结果展示。
豆瓣用户每天会对“看过”的电影给出从“很差”到“力荐”的评价等级,而豆瓣会根据每部影片的观看人数和所得评分等多项综合因素来计算出一份电影Top 250榜单。为了分析电影产业的发展趋势,本次实验将对这些信息进行统计分析。
需要注意的是,豆瓣网站提供的数据是以文本形式存在的(需要导入Hive中处理),也可以是CSV格式文件的形式。
全部评论 (0)
还没有任何评论哟~


