
KDD Cup 2018新鲜空气竞赛
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
KDD Cup 2018新鲜空气竞赛是数据挖掘领域的顶级赛事KDD Cup的一部分,旨在通过数据分析和机器学习技术来预测北京地区的空气质量指数。参赛者利用历史气象与环境监测数据,建立模型以改善城市居民的生活质量,并为环保政策提供科学依据。
在KDDCup 2018数据集中进行的数据清洗主要针对缺失值和异常数据的处理。对于某一天除站点位置外所有空气质量信息全部缺失的情况直接删除该行,而对于部分数据缺失则尝试填充。我们测试了使用零、平均数以及前驱数据(即时间序列中紧邻之前的数值)来填补空缺的方法,发现采用前驱数据进行填充能够较好地保持随时间变化的趋势而不破坏其平滑性。
此外,在清洗过程中还需处理异常值的问题,例如静风时的风速表示和明显偏离正常范围的数据。对于这些情况通常使用在合理范围内随机生成的新数值来替换原有异常值,并且删除了zhiwuyuan站点中出现的一行全部用999标识的脏数据以及一段时间内的类似问题记录。
全部评论 (0)
还没有任何评论哟~


