本项目通过运用XGBoost与随机森林算法进行数据分析实战,旨在提升模型预测准确性,并对比两种方法在具体场景下的表现差异。适合初学者实践与学习。
泰坦尼克号生还者预测
```python
data_train = pd.read_csv(train.csv)
target = data.loc[:, Survived]
data = data.iloc[:, 2:]
data_test = pd.read_csv(test.csv)
data_test_ = data_test.copy()
data1 = pd.get_dummies(data_test_.loc[:, Sex])
data2 = pd.get_dummies(data_test_.loc[:, Pclass])
# 哑变量处理
data2.columns=[Pclass_1, Pclass_2, Pclass_3]
data_2 = pd.concat([data1, data2], axis=1)
data_2[age] = data_test_.loc[:, Age]
data_2[SibSp], data_2[Parch] = data_test_.loc[:, SibSp], data_test_.loc[:, Parch]
# 将缺失的年龄数据用d填充
```