《泰坦尼克号数据集分析》探索了历史上著名海难中的乘客生存情况,通过数据分析揭示社会经济因素对生存率的影响。
泰坦尼克号数据集是数据分析领域的一个经典案例。1912年4月15日,在她的第一次航行中,泰坦尼克号与冰山相撞沉没,导致船上的2224名乘客和机组人员中有1502人遇难。这场灾难震惊了全世界,并促使船舶安全规定得以完善。
造成此次悲剧的一个原因是船上救生艇的数量不足。尽管在事故中的幸存者有一定运气成分,但某些人群比其他群体更有可能存活下来。那么有哪些因素影响着最终乘客的生存几率呢?
泰坦尼克号数据集中包含11个特征:
- Pclass:表示乘客所持有的票类(分为Lower、Middle和Upper三个等级)
- Survived:0代表遇难,1代表幸存
- Name:乘客姓名
- Sex:乘客性别
- Age:乘客年龄(存在缺失值)
- SibSp:同行的兄弟姐妹或配偶数量(整数值)
- Parch:同行父母或子女的数量(整数值)
- Ticket:票号(字符串格式)
- Fare:票价金额(浮点数,范围从0到500不等)
- Cabin:乘客所在的船舱位置(存在缺失值)
- Embarked:登船港口(S、C和Q三个选项)