本研究通过多种图表和交互式界面,探索并展示了电影数据集中的隐藏模式与趋势。分析涵盖票房、评分及观众反馈等维度,旨在为影视行业提供洞察。
电影数据集的数据可视化分析
一、数据描述
1.1 数据集描述:
movies数据框包含45,456行,有共10列,包括adult(是否成人影片)、belongs_to_collection(所属系列)、budget(预算)、genres(类型)、homepage等字段。每个电影的一些特征如下:
- type:类型
- director:导演
- country:国家
- keyword:关键字
- score:评分
- belongs_to_collection:所属系列
- popularity:声望
- revenue:收入
- vote_average:平均投票分值
- vote_count:票数
1.2 数据展示:
1.3 项目操作流程:
1.4 导入数据
二、问题提出:
(1)不同国家电影产量是否存在差异?若有,哪一国的电影产量最大?占总产量多少比例?
(2)哪些国家制作的电影更倾向于获得观众高评分?
(3)电影类型构成如何?占比最大的是哪些类型的电影?
(4)不同类型电影的评分分布情况怎样?哪些类型的电影更容易得到好评?
三、数据清洗和预处理
对原始表格进行数据清理,创建新的处理完后的表格。
四、各变量相关性数据分析与可视化:
1. 不同国家电影产量是否存在差异?若有,哪一国的电影产量最大?占总产量多少比例?
分析表明,部分电影可能由多个国家共同制作。因此,在统计单个国家产片数量时,只计算单一产地的影片。
2. 哪些国家制作的电影更倾向于获得观众高评分?
3. 电影类型构成如何?占比最大的是哪些类型的电影?
在所有种类中,戏剧、喜剧和恐怖类最受欢迎,市场占有率依次递减。
4. 不同类型电影的评分分布情况怎样?哪些类型的电影更容易得到好评?
# 获取所有类型列表
genres_full_data = pd.Series(list_).value_counts().sort_values(ascending=False)
genres_full_data_df = pd.DataFrame({genres: genres_full_data.index, num: genres_full_data}).drop()
历史片、纪录片和战争片更受观众欢迎。其中,历史类电影得分较为集中;而记录片的评分分布较广,但高分部分相对集中在中位数附近。
5. 电影关键字-词云图
五、主要结论:
(1)美国以88%的比例在影片制作数量上占据首位;
(2)按平均评分排名:巴基斯坦 > 阿根廷 > 爱尔兰;
(3)戏剧类、喜剧类和恐怖片最受欢迎,市场占有率依次递减;
(4)历史片、记录片和战争片更容易获得观众好评;
(5)演员中Samuel L. Jackson主演作品数量最多,超过60部,在所有演员中排名第一。
(6)导演方面Steven Spielberg以27部影片位居榜首。
以上是对电影数据集进行的若干问题的数据可视化分析过程。后续还有其他研究方向可以继续深入探索。