Advertisement

泰坦尼克号的数据挖掘案例

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
泰坦尼克号的数据挖掘案例探讨了通过分析该历史事件中的乘客数据来预测生存概率的方法,展示数据科学在理解人类历史关键时刻的应用。 目录: 一. 数据挖掘流程 1. 数据读取与统计分析 2. 特征分析 & 缺失值填充 2.1 性别与获救情况 2.2 船舱等级与获救关系 2.3 年龄分布及对获救的影响 2.4 姓名(称谓)与生存几率关联性分析 2.5 缺失值填充方法 2.6 登船地点与获救情况考察 2.7 兄弟姐妹数量统计 2.8 父母和孩子数量对结果影响评估 2.9 船票价格分析 3. 特征相关性研究 3.1 相关性热度图绘制 3.2 热度图下三角可视化 4. 构建特征 4.1 年龄特征构建 4.2 家庭总人口统计 4.3 船票价格分析 4.4 类型转换与特征清洗 5. 机器学习模型建立 5.1 训练集和测试集划分 5.2 Logistic回归应用 5.3 支持向量机建模 5.4 决策树构建 5.5 随机森林算法

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 优质
    泰坦尼克号的数据挖掘案例探讨了通过分析该历史事件中的乘客数据来预测生存概率的方法,展示数据科学在理解人类历史关键时刻的应用。 目录: 一. 数据挖掘流程 1. 数据读取与统计分析 2. 特征分析 & 缺失值填充 2.1 性别与获救情况 2.2 船舱等级与获救关系 2.3 年龄分布及对获救的影响 2.4 姓名(称谓)与生存几率关联性分析 2.5 缺失值填充方法 2.6 登船地点与获救情况考察 2.7 兄弟姐妹数量统计 2.8 父母和孩子数量对结果影响评估 2.9 船票价格分析 3. 特征相关性研究 3.1 相关性热度图绘制 3.2 热度图下三角可视化 4. 构建特征 4.1 年龄特征构建 4.2 家庭总人口统计 4.3 船票价格分析 4.4 类型转换与特征清洗 5. 机器学习模型建立 5.1 训练集和测试集划分 5.2 Logistic回归应用 5.3 支持向量机建模 5.4 决策树构建 5.5 随机森林算法
  • 报告-分析.pdf
    优质
    本PDF报告深入分析了泰坦尼克号乘客的数据,涵盖了生存率、性别、年龄及舱位等级等因素的影响,旨在揭示这一历史悲剧背后的统计规律与社会现象。 泰坦尼克号数据报告 891名乘客中有549人遇难,占61.6%,342人生还,占38.4%。 各等级船舱的乘客人数如下: - 三等船舱:最多,占比为55.1% - 一等船舱:次之,占比为24.2% - 二等船舱:最少,占比为20.7% 男女乘客分布情况: 男乘客有577人,占64.8%;女乘客有314人,占35.2%。 年龄分布方面: 通过直方图可以看出,大多数人的年龄集中在29岁左右。具体描述性统计数据显示平均年龄为29.5岁,最大值为80岁,最小值不到一岁(使用int()取整后显示为零)。 兄弟姐妹及配偶在船上的乘客情况如下: - 没有兄弟姐妹或配偶的乘客较多,占68.2%。 父母和孩子也在船上分布的情况: 通过柱状图可以看出不同数量的家庭成员随行比例。
  • 优质
    泰坦尼克号数据集包含了乘客信息,如姓名、年龄、性别及登船地点等,用于分析生存率与各种因素之间的关系。 泰坦尼克数据集包含train.csv、test.csv和gendermodel.csv三个文件。
  • 优质
    泰坦尼克号的数据集包含乘客信息,用于分析生存率与性别、年龄、船舱等级等因素的关系,是数据科学入门的经典案例。 Kaggle平台上的泰坦尼克号数据集包含源代码及详细注释。
  • 集.zip
    优质
    泰坦尼克号数据集.zip包含的是关于泰坦尼克号乘客信息的数据集合,包括乘客ID、姓名、票号、登船港口等详细信息。此数据集常用于机器学习中的分类算法练习和生存分析研究。 关于Kaggle的Titanic数据集,在这里提供了一个打包好的版本。这样就避免了直接从Kaggle下载可能遇到的一些麻烦。
  • 集(Titanic)
    优质
    《泰坦尼克号数据集》包含了泰坦尼克号乘客的信息,包括年龄、性别、舱位等级等,用于分析生还率及机器学习模型训练。 泰坦尼克号数据集是机器学习中的一个基本数据集。训练集用于构建机器学习模型,在这个过程中我们为每位乘客提供结果。您的模型将基于“特征”,例如乘客的性别和阶级来建立。也可以通过特征工程创建新的特征以提高预测效果。测试集则用来评估模型在未知数据上的表现情况。
  • 集 Titanic
    优质
    《泰坦尼克号数据集》提供了1912年泰坦尼克号邮轮乘客的数据记录,包括年龄、性别、票务等级等信息,常用于数据分析与机器学习模型训练。 训练数据集包含11个特征:Survived(存活状态),0表示死亡,1表示生存;Pclass(乘客所持票类)有三种值(1,2,3);Name(乘客姓名);Sex(乘客性别);Age(乘客年龄,部分缺失);SibSp(兄弟姐妹或配偶的数量,整数值);Parch(父母或孩子数量,整数值);Ticket(票号,字符串形式);Fare(票价金额,范围为0至500的浮点数);Cabin(船舱编号,部分缺失信息)和Embark(登船港口:S、C、Q),其中也有数据丢失。
  • kaggletitanic
    优质
    简介:Kaggle泰坦尼克号数据集(Titanic)挑战赛旨在通过分析乘客信息预测其生存情况,是初学者学习数据分析与机器学习的经典案例。 平台下载的原始数据包括三个文件:train.csv、test.csv 和 gender_submission.csv。原本打算以0积分分享给大家,但最低需要1分才能进行分享。
  • Kaggle
    优质
    Kaggle泰坦尼克号数据集是一个著名的学习资源,用于练习数据分析和机器学习技能。参与者通过预测乘客生存率来掌握分类算法等技术。 在Kaggle上下载资源很麻烦,每次都需要登录邮箱验证,如果没有账户则可能需要等待较长时间才能完成注册流程,从而无法直接下载数据集。因此我将这些资料共享出来,包含完整的训练集和测试集,是最全的数据集合了。