
Python数据预处理系列之缺失值处理(一)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本篇文章是《Python数据预处理系列》的第一篇,主要介绍如何使用Python处理数据分析中常见的问题——缺失值。通过多种方法填补或删除缺失的数据,确保后续分析的有效性。
在进行数据分析项目或比赛时,原始数据通常是脏数据。提高数据质量即数据预处理成为首要步骤,并且会影响后期模型的表现。在此利用Python对数据预处理做一个总结归纳。
首先是缺失值处理:
1. 读取数据:
```python
import pandas as pd
filepath = F:/... #本地文件目录
df = pd.read_csv(train, sep=,) #df数据格式为DataFrame
2. 查看缺失值:查看每一特征是否缺失及缺失值数量可能影响着处理缺失值的方法。
- `df.isnull().sum()` 可以查看每一列的缺失值的数量;
- `df.info()` 可以查看每一列的数据量和数据类型。
3. 删除缺失值:
如果有些特征数,可以选择删除含有这些特征中存在大量缺失值的行。
全部评论 (0)
还没有任何评论哟~


