
该项目聚焦于电影数据,通过数据采集、处理、分析和可视化等步骤,能够完成大规模(百万级别)电影数据的离线处理与计算。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目专注于大规模电影数据分析,涵盖数据采集、处理及可视化等多个环节,旨在实现百万级电影数据的高效离线计算与洞察。
本项目以电影数据为主题,通过数据采集、处理、分析及可视化展示为流程,能够实现百万级电影数据的离线处理与计算。
开发环境包括:IDEA+PyCharm+Python3+hadoop2.8+hive2.3.0+mysql5.7+sqoop+spark
1. 数据采集(通过pachong.py脚本)及预处理:
- 从豆瓣电影获取Top 250的电影信息,包括电影名称、简介、评分及其他相关信息和链接。
- 抓取前20名票房总收入情况的数据,并删除冗余数据与空值。利用Python的PyMySQL库连接本地MySQL数据库并导入至movies表中。
- 数据可以保存在本地以进行可视化展示或导出到Hive数仓工具,用于大数据分析。
采集后的数据显示如下:
- 排序:影片名称、类型、总票房(万元)、场均人次及上映日期
1. 战狼2 动作 567928 38 2017/7/27
2. 哪吒之魔童降世 动画 501324 24 2019/7/26
3. 流浪地球 科幻 468433 29 2019/2/5
4. 复仇者联盟4:终局之战 动作 425024
全部评论 (0)
还没有任何评论哟~


