
Cart回归在Matlab中实现,代码位于Machine-Learing-IN-BeiJing,支持Python和R及Matlab。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
这次前往北京的主要目的在于自身学习,因此我将暂时采用Matlab代码进行计算。若Matlab算法无法满足需求,我们将使用R语言来处理数据。
数据挖据的功能及应用分类包括:决策树、支持向量机、K-近邻算法以及贝叶斯聚类分析(如K-means和K-中心)。此外,预测方面涵盖线性回归和非线性回归。关联分析则涉及统计数据挖掘的流程,包括商业理解(需求理解)、数据理解、数据准备(构造最终数据集、净化和转换数据)以及模型建立(选择并应用各种模型技术,并对个体模型参数进行矫正和优化)。最后,需要对模型进行评估并发布。
在数据清洗方面,我们主要解决不完整数据、错误噪声以及偏差问题。常用的方法包括回归分析和规则库的应用。对于错误噪声的处理,一种有效策略是分箱:将数据划分为等深的箱子,并利用箱平均值进行平滑处理或采用边界平滑的方法消除重复记录。例如,“套牌车”可以作为一个有趣的课题研究。
在实际应用中,车辆轨迹数据的清洗是一个重要的环节。具体来说,我们处理北京市12712辆出租车于2011年11月11日之后30天收集的GPS采样数据,该数据集包含333651069个采样点,平均每个采样点有26349个坐标。其中不真实的点(超出北京的经纬度范围)、重复的时间点以及高速点(速度超过90km/h)都需要进行处理。
全部评论 (0)
还没有任何评论哟~


