
Python数据分析实战:数据预处理(一)-new.pdf
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本PDF文档为《Python数据分析实战》系列的第一部分,专注于介绍如何使用Python进行数据预处理的基础知识和实用技巧。适合初学者入门学习。
在使用大型数据集训练学习算法之前,通常需要先清理数据。这意味着我们需要通过某种方法检测并更正数据中的错误。任何给定的数据集中都可能出现各种问题值,例如离群点或不正确的数值,但最常见的问题是缺少的值。Pandas 会为缺失值分配 NaN 值。
处理缺失值的方法包括:
- 使用 `dropna` 函数根据标签中是否存在缺失数据来过滤(删除)轴标签,并通过设置阈值调节对缺失数据的容忍度。
- 使用 `fillna` 方法用指定值或插值方法(如 ffill 或 bfill)填充缺失的数据。
- 用 `isnull` 返回一个包含布尔值的对象,这些布尔值表示哪些位置存在缺失值。
- 使用 `notnull` 来否定 isnull 函数的结果。
函数定义:DataFrame.dropna
全部评论 (0)
还没有任何评论哟~


