
Bigdata-Movie:百万级电影数据分析平台,涵盖数据采集、处理、分析和可视化的全流程解决方案。功能包括pyt...
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Bigdata-Movie是一个专为电影行业设计的大数据分析平台,支持大规模数据从采集到可视化的一站式服务,提供深度洞察与决策支持。该平台利用Python等技术实现高效的数据处理和分析能力,助力用户挖掘影视产业价值。
Bigdata-movie项目以电影数据为主题,涵盖了数据采集、处理、分析及可视化等多个环节,并能够实现对百万级电影数据的离线处理与计算。
开发环境:IDEA+Pycharm+Python3+hadoop2.8+hive2.3.0+mysql5.7+sqoop+spark
1. 数据采集(pachong.py)、预处理:
- 从豆瓣电影top250中抓取电影信息,包括名称、简介、评分等字段。
- 抓取前20名的电影票房总收入排名情况。
- 删除冗余和空值数据后,利用Python的PyMysql库将数据导入本地MySQL数据库中的movies表,并保存到本地以进行可视化展示。同时也可以将这些数据导入大数据Hive数仓工具中用于进一步的大数据分析。
采集的数据展示包括:影片名称、类型、总票房(万元)、场均人次和上映日期等信息,例如:
1. 战狼2 - 动作片 - 567928万人民币 - 平均每场38人观影 - 上映时间: 2017年7月27日
全部评论 (0)
还没有任何评论哟~


