
数据挖掘中的数据清洗:异常值处理
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
简介:本文探讨了在数据挖掘过程中如何有效进行数据清洗,特别是针对异常值的识别与处理方法,以提升数据分析质量。
数据挖掘:数据清洗——异常值处理
一、离群点是什么?
离群点是指一个显著不同于其他数据对象的数据。通常将非离群点称为“正常数据”,而将离群点视为“异常数据”。需要注意的是,离群点与噪声不同,后者是被观测变量中的随机误差或方差。在数据分析中(包括对离群点的分析),剔除噪声以减少其对后续模型预测的影响并提高精度非常重要。
检测和处理离群点是有意义的任务,因为这些异常值可能来自不同于其他数据来源的不同分布。因此,在进行离群点检测时,关键在于识别导致这种差异的具体原因。常见的异常成因包括:数据来源于不同的类(即异常对象的生成源与大多数正常数据不同)。
全部评论 (0)
还没有任何评论哟~


