
Pandas数据处理120道练习题.pdf
5星
- 浏览量: 0
- 大小:None
- 文件类型:PDF
简介:
本书《Pandas数据处理120道练习题》汇集了大量基于Python Pandas库的数据操作实战题目,旨在通过丰富的实践帮助读者掌握高效的数据分析技巧。
### Pandas数据分析120道训练题知识点概览
#### 一、Pandas基础知识与进阶技巧
**1. 分组填充空值**
- **分组**: 在Pandas中使用`groupby()`方法对数据进行分组。
- **填充空值**: 使用`fillna()`方法填充数据中的空值或缺失值。
- **综合应用**: 结合`groupby()`和`fillna()`实现分组后的空值填充。
**2. any()的使用**
- `any()`函数用于检查DataFrame或Series中是否存在任何非空值。
- 可用于判断某一列或整个DataFrame中是否存在非空值。
**3. 填充空值**
- **方法**: 使用`fillna()`方法。
- **策略**
- 使用特定值填充空值。
- 使用前向填充(`ffill`)或后向填充(`bfill`)。
- 使用统计值如平均值、中位数等进行填充。
**4. 每个数字减去该行的平均数**
- **行操作**: 使用`.apply()`函数沿着行方向进行操作。
- **平均数计算**: 利用`mean()`方法计算每行的平均值。
- **减法操作**: 对于每行数据,将其每个元素减去该行的平均值。
**5. 新增列(assign函数)**
- **assign()函数**: 直接在原DataFrame上新增一列。
- **动态列计算**: 可以在`assign()`函数中进行列的计算,方便地添加新的计算结果作为新列。
**6. 筛选出数值类型的数据**
- **选择数值型列**: 使用`select_dtypes()`方法选择DataFrame中数值类型的列。
- **数据类型判断**: 通过检查DataFrame中各列的数据类型来筛选出数值类型的数据。
**7. 按行计算每一行均值**
- **行操作**: 使用`.apply()`函数沿着行方向进行操作。
- **均值计算**: 使用`mean()`方法计算每行的平均值。
**8. 行索引的创建**
- **设置行索引**: 使用`.set_index()`方法来设置DataFrame的行索引。
- **自定义行索引**: 可以传递一个列表或数组作为行索引。
**9. 前一行与后一行数据之和**
- **前后行操作**: 使用`.shift()`方法获取前一行或后一行的数据。
- **加法操作**: 将前一行与后一行的数据相加得到结果。
**10. 计算前一行与后一行数据的差值**
- **前后行操作**: 使用`.shift()`方法获取前一行或后一行的数据。
- **减法操作**: 将前一行的数据减去后一行的数据得到结果。
**11. 删除非数字的行**
- **数据类型检查**: 使用`.dtypes`属性检查DataFrame中各列的数据类型。
- **删除操作**: 使用`.dropna()`或`.drop()`方法删除包含非数字行的行。
**12. 打印不是数字的行**
- **数据类型检查**: 使用`.dtypes`属性检查DataFrame中各列的数据类型。
- **选择操作**: 使用条件选择不是数字类型的行。
**13. 以data的列名创建一个dataframe**
- **创建DataFrame**: 使用`pd.DataFrame()`构造函数。
- **使用列名**: 将已有DataFrame的列名作为新建DataFrame的列名。
**14. 输出每列缺失值具体行数**
- **检查缺失值**: 使用`.isnull()`方法标记缺失值。
- **计数操作**: 使用`.sum()`方法统计每列缺失值的数量。
**15. 修改列名称**
- **重命名列**: 使用`.rename()`方法更改DataFrame中列的名称。
- **批量重命名**: 可以一次性更改多个列的名称。
**16. 提取含有字符串Python的行**
- **字符串匹配**: 使用`str.contains()`方法进行字符串匹配。
- **选择操作**: 使用条件选择包含特定字符串的行。
**17. 将空值用上下值的平均值填充**
- **计算平均值**: 使用`mean()`方法计算上一个非空值和下一个非空值的平均值。
- **填充空值**: 使用`fillna()`方法填充空值。
**18. 统计每种编程语言出现的次数**
- **值计数**: 使用`.value_counts()`方法统计每种值出现的次数。
- **分组操作**: 如果需要针对不同的分组进行计数,则可以先使用`groupby()`方法分组再计数。
**19. 去除重复值**
- **去除重复行**: 使用`.drop_duplicates()`方法去除DataFrame中的
全部评论 (0)


